Para definir conceptos se puede usar la forma positiva (qué es) o la negativa (qué no es). Para el caso de la Minería de Datos usaremos ambas, ya que frecuentemente se usa este término para cosas que poco o nada tienen que ver con lo que es la Minería de Datos.
Una definición muy extendida es: "Extracción no trivial de información potencialmente útil, implícita en los datos y previamente desconocida". La Minería de Datos es la ciencia que se encarga a partir de grandes repositorios de información de obtener la que es útil de forma automática sin un conocimiento previo de qué se va a obtener. Se trata de descubrir relaciones entre las variables, patrones de comportamiento e identificación de los grupos de comportamiento y sus diferencias.
La información obtenida se puede usar para crear modelos de predicción, clasificación o segmentación. Proporciona herramientas para la toma de decisiones o la automatización de procesos complejos como la detección en tiempo real de transacciones electrónicas fraudulentas o de averías o fallos de construcción.
Visto qué es Minería de Datos, veamos ejemplos de lo que muchas veces se presenta como tal y no lo es, sobre todo porque no implica un "descubrimiento" de información desconocida, sino que se trata de una organización más clara de los datos conocidos:
-Procedimientos para cálculo predefinido de indicadores que resumen datos de bases de datos.
-Implementaciones de repositorios como son los Data-Warehouses y Data-Marts que resumen información recopilada por las bases de datos operacionales.
-Sistemas de visualización de datos o indicadores calculados a partir de los mismos siguiendo relaciones previamente conocidas.
La implementación real de técnicas de Minería de Datos implica el conocimiento profundo de conceptos y metodologías propias de la Inteligencia Artificial, siendo éste uno de los mayores escollos para implementar estas técnicas en los repositorios. Un proceso típico de Minería de Datos consta de los siguientes pasos generales:
1. Selección del conjunto de datos, referida tanto a las variables dependientes como a las variables objetivo.
2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
3. Transformación del conjunto de datos de entrada en función del análisis previo, con el objetivo de prepararlo para aplicar la mejor técnica de Minería de Datos.
4. Seleccionar y aplicar la técnica de Minería de Datos. Se construye el modelo predictivo, de clasificación o segmentación.
5. Evaluar resultados contrastándolos con una serie de datos reservada para validar el modelo.
Si el modelo no supera la evaluación el proceso se podría repetir en su totalidad o desde uno de los pasos. Una vez validado, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles), éste ya está listo para su explotación. Los modelos obtenidos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. -
Gustavo Pintado es socio director de Gamco.
* Este artículo apareció en la edición impresa del Domingo, 14 de junio de 2009