Minería de datos
Definición de Minería de Datos
La Minería de Datos (Data Mining) es un conjunto de técnicas y procesos de análisis de datos que permite extraer información de bases de datos y Almacenes de Datos mediante la búsqueda automatizada de patrones y relaciones.
Modelos de Minería de Datos
-
De verificación. El usuario solicita que se verifique cierta hipótesis, cuando se le responde puede refinar su pregunta, y así sucesivamente.
-
De descubrimiento. Con este método se descubre nueva información que no estaba previamente en el Almacén de Datos (o, en su caso, en las bases de datos). No necesita intervención por parte del usuario. Se buscan patrones en los datos, o bien elementos fuera de la norma.
-
Predictivo. Se realizan predicciones sobre el comportamiento futuro de variables a partir de los patrones existentes en los datos. El usuario indica sobre qué variable quiere obtener la predicción.
Fases de la Minería de Datos
-
Selección y preprocesamiento de los datos. En esta fase se decide sobre qué datos se va a trabajar, tanto desde el punto de vista físico como lógico. También se depuran los datos. (Este paso no es necesario si se trabaja sobre un Almacén de Datos, porque los datos ya están preparados).
-
Búsqueda de patrones. Se analizan los datos para extraer significado e información. El resultado será un informe.
-
Interpretación y evaluación. Se interpretan los resultados de la fase anterior.
Técnicas de Minería de Datos
Las técnicas más utilizadas para la extracción de la información son las siguientes:
-
De consulta e informe. Es la forma tradicional de obtener información a partir de bases de datos relacionales. Consiste en la utilización de herramientas que facilitan las consultas SQL y presentan los resultados en forma de tablas, diagramas o gráficos. Además pueden utilizar técnicas estadísticas para analizar los datos obtenidos.
Son apropiadas para el modelo de minería de verificación. -
De inteligencia artificial. Utilizan estructuras de datos y algoritmos basados en árboles de decisiones, redes neuronales, técnicas de clustering y lógica difusa. Forman parte de los agentes inteligentes.
Son apropiadas para los modelos predictivo y de descubrimiento. -
De análisis multidimensional. Se basan en la utilización de bases de datos multidimensionales. Se utilizan para cruzar los datos de múltiples formas y con distintos niveles de agregación.
Además, se utilizan técnicas de detección de desviación y de programación genéticas, entre otras.
Arquitectura OLAP
Definición de OLAP
El estándar OLAP (OnLine Analitical Processing, o procesamiento analítico en línea) se refiere a los sistemas y herramientas de Minería de Datos que utilizan técnicas para la extracción y el análisis de los datos en línea. Hoy en día, prácticamente es sinónimo de Base de Datos Multidimensional.
Frente al OLAP está el OLTP (Online Transactional Processing, o procesamiento transaccional en línea) que se emplea en los sistemas fuente (bases de datos operacionales) para optimizar la recogida de la información.
Características de OLAP
-
Ofrecen una visión multidimensional y jerarquizada de los datos.
-
Son capaces de analizar tendencias a lo largo de períodos de tiempo.
-
Pueden presentar vistas de un número reducido de dimensiones elegido por el usuario.
-
Permiten ahondar en la jerarquía de los datos para acceder a los de más bajo nivel.
-
Son interactivas y soportan múltiples usuarios concurrentemente.
Tipos de OLAP
-
MOLAP (Multidimensional OLAP). Funcionan sobre bases de datos multidimensionales. Ofrecen un rendimiento superior, aunque requieren de la construcción previa de la base de datos multidimensional.
-
ROLAP (Relational OLAP). Funcionan sobre bases de datos relacionales. Permiten trabajar sobre las bases de datos corporativas ya establecidas, utilizando llamadas SQL estándares.