La minería de datos (Data Mining) busca los patrones ocultos en los datos que pueden utilizarse para predecir el comportamiento futuro. Las empresas, los científicos y los gobiernos han utilizado este enfoque por años para transformar los datos en conocimientos pro-activos. El término es un concepto de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas), pero también se ha generalizado a cualquier tipo de sistema de apoyo informático decisión, incluyendo la inteligencia artificial, aprendizaje automático y la inteligencia empresarial.
Para implementar una tecnología en un negocio, se requiere de una metodología. Para el caso de proyectos de implementación de minería de datos, hay una en particular; CRISP-DM, en sus primeros años de divulgación tenía apoyos de empresas privadas y organismos públicos, pero poco a poco ha ido perdiendo uno que otro “Project Partner”. Desconocemos el motivo de esta aparente perdida de apoyo, pero estamos seguros que no corresponde a la falta de calidad o efectividad del método, porque ha sido adoptado por otros organismos y empresas.
Los métodos basados en árboles (o árboles de decisión) son bastante populares en data mining, pudiéndose usar para clasificación y regresión. Estos métodos se derivan de una metodología previa denominada automatic interaction detection. --Son útiles para la exploración inicial de datos y apropiados cuando hay un número elevado de datos, y existe incertidumbre sobre la manera en que las variables explicativas deberían introducirse en el modelo. Sin embargo, no constituyen una herramienta demasiado precisa de análisis.
En conjuntos pequeños de datos es poco probable que revelen la estructura de ellos, de modo que su mejor aplicación se encuentra en grandes masas de datos donde pueden revelar formas complejas en la estructura que no se pueden detectar con los métodos convencionales de regresión. Problemas donde los árboles de clasificación se pueden usar:
Un Data Warehouse es un almacén electrónico donde generalmente una empresa u organización mantiene una gran cantidad de información. Los datos de un data warehouse deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de administrar. --Normalmente, un data warehouse se aloja en un servidor corporativo o cada vez más, en la nube. Los datos de diferentes aplicaciones de procesamiento de transacciones Online (OLTP) y otras fuentes se extraen selectivamente para su uso por aplicaciones analíticas y de consultas por usuarios.
SPSS Modeler, de IBM, es una plataforma de análisis predictivo que impulsa el modelado enfocado al análisis predictivo. Esta herramienta permite construir modelos predictivos precisos de forma muy rápida, consiguiendo hacer más sencillo el proceso de compartir inteligencia entre los diferentes usuarios de negocio. --Para lograr sus objetivos SPSS Modeler proporciona una gama de algoritmos avanzados y técnicas de análisis que aumentan la consistencia en la toma de decisiones, ofreciendo información casi en tiempo real. La solución incluye para ello funcionalidades como:
SPSS Modeler podría considerarse como una aplicación avanzada de minería de datos. La principal diferencia con éstas es que no es necesario tener claro lo que se quiere encontrar a la hora de iniciar el proceso de búsqueda.
Las incursiones en los activos de datos pueden ponerse en marcha de forma natural, ya que la solución permite explorar los datos al ritmo que cada usuario quiera, sin forzar nada, y ajustándose a los diferentes modelos disponibles. Poco a poco se va descubriendo información útil al investigar diferentes relaciones desde un enfoque estratégico.
El tamaño o la complejidad de los conjuntos de datos nunca suponen una barrera para las organizaciones que tienen el soporte de SPSS Modeler que, a través de una variedad de técnicas basadas en la minería de datos identifica cualquier atisbo de información de valor en los cuerpos de datos. En base a ese conocimiento aportado es posible llevar a cabo:
Este es uno de los momentos clave del proceso. Aquí interactúan la tecnología y el talento puesto que, en la minería de datos, el éxito viene de combinar el conocimiento experto con técnicas de análisis avanzadas y activas que permitan identificar las relaciones subyacentes y las características de los datos. Y, en este sentido, la oferta de SPSS Modeler es excepcional.
La solución de IBM incluye una serie de tecnologías de aprendizaje automático y modelado que pueden agruparse en función de los tipos de problemas que se pretendan resolver. Así, se ponen a disposición del usuario:
El descubrimiento de datos con SPSS Modeler es una experiencia muy positiva. Tanto esta función, como la de manipulación de datos se vuelven muy diferentes al utilizar SPSS Modeler para llevarlas a cabo. La solución se encarga de construir nuevos elementos de datos derivados de los ya existentes y descomponer los datos en subconjuntos significativos. De esta forma, los datos de una variedad de fuentes se pueden combinar y filtrar. Pero no se queda ahí, y permite que las organizaciones:
Algunas de las aplicaciones prácticas de SPSS Modeler consiguen resolver problemas de negocio tan habituales como:
Una vez conocidos sus beneficios es difícil imaginarse el trabajo sin SPSS Modeler. Y tu negocio, ¿cómo mejoraría con esta plataforma de análisis predictivo?
Commentarios