Herramientas de Minería de Datos
Transcript of Herramientas de Minería de Datos
-
Herramientas de Minera de DatosAlejandro Sosa Loera
Existen algunas herramientas de minera de datos comerciales o de cdigo abierto que
utilizan distintas tcnicas de minera de datos, estas herramientas las podemos clasificar de
acuerdo a las tareas de minera a la que estn enfocadas o algoritmos que usan, en tres
grupos: libreras, suites y herramientas especficas.
Libreras.
Comprenden un conjunto de mtodos que implementan las funcionalidades y utilidades
bsicas propias de la minera de datos: acceso a datos, inferencia de modelos, exportacin y
comprobacin de resultados. Las libreras constituyen una interfaz para el desarrollador, por
lo que para su manejo se requiere de conocimientos de programacin. La siguiente tabla
muestra algunas de estas libreras:
Herramienta Descripcin Plataforma Formatos Entrada y Modelosde Salida
Modelos de Aprendizaje /Tareas Soportadas
Xelopes Librera con licencia GNU,implementada por Prudsys AG
Implementado en Java, C++ y C#, segarantiza su portabilidad a cualquiersistema operativo. Existe interfaz paraCorba.
Se asegura cualquier formato deentrada sea fichero o base de datos,incluye formato ARFF, CSV, logs, yExcel. Salida: Formato PMML.
rboles de Decisin lineales y nolineales, Mquinas de vectoressoporte, Redes neuronales, Mtodosde agrupamiento, mtodos de reglasde asociacin.
Orange Software basado en componentes deminera de datos. Incluye rangos depreprocesamiento, modelado ytcnicas de exploracin de datos.
Implementado en C++, se puedendesarrollar mdulos en Python. Existendistribuciones para Windows, Linux yMacintosh.
Formato entrada/salida usa ficherosseparados por tabulacin, incluye otroscomo C4.5
Mtodo Bayesiano Nave. rboles dedecisin, rboles de regresin, Vecinosms prximos y Reglas de asociacin.
Tanagra Software libre de propsitosacadmicos y de investigacin.Soporta varios mtodos de minera dedatos, la desventaja de Tanagra esque incluye tcnicas de visualizacinlimitadas.
Implementado en Borland Delphi 6bajo Windows.
Formato del fichero de entrada ARFF oXLS. Formatos de salida HTML.
Reglas de Asociacin, rboles declasificacin, vecino ms prximo,Bayesiano nave. Redes neuronales.
MLC++ Conjunto de libreras y utilidades paratestear y comparar la eficiencia dediversos algoritmos sobre un mismoproblema. Distribuido por SiliconGraphics bajo dominio deinvestigacin.
Acceso a datos con formato planosiguiendo el estilo de los archivos delrepositorio UCI.
ID3, rboles de decisin perezosos,rboles de decisin con opciones,mtodos bayesianos y el perceptron.
Suites.
Integra en un mismo entorno capacidades para el preprocesado de datos, ofrecen
diversidad de mtodos incluyendo clasificacin, clustering, y preparacin de los datos, dan
facilidad para el diseo de experimentos y soporte grafico para la visualizacin de resultados.
A diferencia de las libreras su manejabilidad no se encuentra condicionada a que se posean
conocimientos de programacin, ya que existe una interfaz por lo regular grafica que facilita
la interaccin con la herramienta. La siguiente tabla muestra algunas suites:
-
Herramienta Descripcin Plataforma Formatos Entrada y Modelosde Salida
Modelos de Aprendizaje /Tareas Soportadas
WEKA Herramienta visual GNU, desarrollada por launiversidad de waikato.
Implementada en Java, segarantiza su portabilidad aWindows, Linux y otrosSistemas Operativos. Esposible actualizar o modificarsu cdigo
Entrada: ARFF, CSV, C4.5 y Binario.Salida: Fichero o a una Base de Datos,tambin de manera grfica.
rboles de Decisin, Tablas deDecisin, Vecinos ms prximos,Mquinas de vectores soporte, Reglasde asociacin, Mtodos deagrupamiento, Modelos combinados.
SPSSClementine
Es uno de los sistemas de minera de datosmas popular, herramienta visualcomercializada por SPSS, posee arquitecturacliente / servidor.
Sistema multiplataforma,disponible para sistemasWindows, Sun Solaris, HP-UXAIX y OS/400.
Acceso a Datos: ODBC, tablas Excel,archivos planos ASCII y archivosSPSS.Salida: Visualizacin grafica dderesultados (histogramas, diagramas dedispersin, etc.), informes HTML ytexto, exportacin de los modelos adistintos lenguajes (C, SPSS, HTML,SQl)
rboles de Decisin (C5.0 y C&RT),redes neuronales (redes de Kohoen,perceptron multicapa y RBF),agrupamiento(K medias), reglas deasociacin(GRI, A priori, etc.),regresin lineal y logstica,combinacin de modelos (boosting conC5.0)
Kepler Sistema desarrollado por la GMD (GermanGeneral Research Center for InformationTechnologie) y comercializado por Dialogis.Soporta mltiples modelos de anlisis y sudiseo contempla aspectos como laflexibilidad y extensibilidad
Interfaz grafica implementadaen Java, disponible enplataformas Sun/Solaris yWindows.
Acceso a Datos: ODBC, tablas Excel,archivos planos ASCII y archivosSPSS.Salida: Kepler puede exportar datos enformato ASCII, Facts (Anotacin deProlog), meta informacin
rboles de Decisin, redes neuronales,regresin no lineal, vecinos masprximos, algoritmos multirelacionales,utilidades estadsticas.
ODMS: OracleData MiningSuite (Darwing)
Desarrollado por Thinking Machines comoDarwing y adquirido y comercializado porOracle. Diseado bajo arquitecturacliente/servidor, tiene gran versatilidad parael acceso a grandes volmenes de datos.
El cliente est disponible paraentornos Windows, mientrasque el servidor puedeejecutarse sobre sistemasWindows, Sun Solaris y HP-UX 11.0
Acceso a datos: almacenes de datos,BD relacionales (oracle, SQL server,informix, sybase), archivos planos,conjunto datos SAS.Salida: Visualizacin grafica demodelos inferidos, estadsticos
Redes neuronales para clasificacin yregresin, regresin lineal, rboles dedecisin (CART), vecinos masprximos, aprendizaje bayesiano,tcnicas de agrupamiento (kmedia y O-agrupamiento)
DBMiner Sistema interactivo desarrollado inicialmentebajo licencia publica, la versin empresariales comercializada por DBMiner TechnologyInc. Sistema para extraer conocimiento degrandes bases de datos relacionales,almacenes de datos y web.
Disponible para plataformasWindows
Acceso a datos: almacenes de datos,BD relacionales.Salida: Visualizacin grafica demodelos inferidos, estadsticos
Caracterizacin, clasificacin,agrupamiento, asociacin,discriminador, predictor
RapidMiner(Yale)
Es un software de tipo Open-Source conlicencia GNU GPL, basado en JAVA. Sepresenta bajo 3 versiones de descarga:Versin Open-Source : permite su libre usoen todas las formas de la licencia GNU GPLVersin Libre: posee una interfaz grficamejorada, pero no bajo licencia GNU GPLVersin Comercial
Trabaja bajo plataformasWindows y Linux
Acceso a datos: almacenes de datos,BD relacionales.Salida: exportacin de resultados aPDF / Excel / HTML / RTF
maquinas de vectores soporte, rbolesde decisin, agrupamiento y algoritmosgenticos.
DB2 IntelligentMiner
Herramienta comercial cliente/servidordesarrollada por IBM. Trabaja con grandesvolmenes de datos. Posee un lenguaje deprogramacin.
El cliente est disponible paraentornos Windows y AIX,mientras que el servidorpuede ejecutarse sobresistemas Windows, Solaris,AIX, OS(390, 400) y z/OS
Acceso a datos: DB2, archivos planos,BD relacionales.Salida: Visualizacin grafica demodelos inferidos, estadsticos
Agrupamiento, asociaciones, patrones,clasificacin, prediccin, anlisis deseries temporales
SAS EnterpriseMiner
Herramienta desarrollada por SAS Institute,posee una arquitectura distribuida, con unapotente interfaz grafica. Diseo inspirado enla metodologa SEMMA (Sample, Explore,Modify, Model and Assess)
Tanto el cliente como elservidor de SAS EnterpriseMiner trabajan bajoplataformas Windows, Linux,Solaris, HP-UX, Digital Unix,etc.
Acceso a datos: formato de archivopropio de SAS, almacenes de datos,BD relacionales (Oracle, DB2, Sybase,etc.).Salida: visualizador de resultados,informes en HTML.
rboles de Decisin (CHAID, C&RT,C4.5), regresin lineal y logstica,redes neuronales (MLP y RBF),construccin de modelos mltiples.Realiza tareas de evaluacin.
Statistica DataMiner
Sistema visual desarrollado por Statsoft Ltd.Trabaja con grandes volmenes de datos
Sistema disponible enplataformas Windows
Acceso a Datos: ODBC, tablas Excel,archivos planos ASCII, tablas DBase,lotus, BD Oracle, Microsoft SQL Servery Sybase.Salida: Visualizacin grafica dderesultados (histogramas, diagramas dedispersin, etc.)
Reglas de asociacin, rboles dedecisin (GTREES, CART),agrupamientos (K medias y EM), redesneuronales, utilidades estadsticaspara la regresin de modelos lineales,no lineales, regresin multiple, etc.
Herramientas Especficas
A diferencia de la generalidad de las suites, este tipo de herramientas se caracterizan
por centrarse en un determinado modelo (redes neuronales, rboles de decisin, modelos
estadsticos, etc.) o en una determinada tarea de minera de datos (clasificacin,
agrupamiento, etc.). No se requieren de tcnicas de programacin para poder ser utilizadas.
-
Herramienta Descripcin Plataforma Formatos Entrada y Modelosde Salida
Modelos de Aprendizaje /Tareas Soportadas
CART Herramienta grafica desarrollada por SalfordSystem. Tiene utilidades para anlisisestadstico y minera de datos orientada atareas de clasificacin o regresin.
Disponible en plataformasWindows, Linux, Unix(Solaris, IBM, AIX, DigitalUnix, SGI Irix y HP-UX)
Acceso a mas de 70 formatos dearchivos diferentes, visualizacininteractiva del modelo, informacinestadstica relativa al modelo.
Inferencia de rboles de decisin.
AutoClass Herramienta que rene 3 distribuciones deeste sistema (AutoClass III, AutoClass X yAutoClass C) desarrolladas bajo el auspiciode la NASA.
Multiplataforma: Windows,Unix (Solaris, SunOS), Linux(Red Hat)
Formato de archivo de entrada propioorganizado en filas y columnas.Genera informes que describen lasclases encontradas.
Agrupamiento, utilizando mtodosbayesianos
Neural Planner,NeuroDiet y EasyNN-Plus
Desarrolladas por Stephen Wolstenholme.Herramientas para trabajar en modelos deaprendizaje
Ejecutables en plataformaWindows
Importacin de archivos txt, csv, xls,bmp o archivos binarios.Salida visual o exportacin del modeloa archivos de texto o csv.
Redes Neuronales
NeuroShell Conjunto de herramientas graficasindependientes para trabajar con modelos deaprendizaje basados en redes neuronales
Ejecutables en plataformaWindows
Importacin de archivos ASCII,MetaStock, CSI, AIQ
Redes Neuronales (TurboProp2,GRNN)
SEE5 / C5.0 Herramienta centrada en la construccin demodelos de clasificacin basados en rbolesde decisin y conjunto de reglas. Operasobre grandes volmenes de datos.
Disponible en plataformaWindows, Solaris, Irix y Linux
Trabaja con un formato predefinido(*.data), pero traduce fuentes de datosaccesibles va ODBC a *.data. Exportalos modelos a cdigo en C.
rboles de decisin
Con lo anterior se pueden clasificar las herramientas de minera de datos por
plataforma, datos de entrada y modelo de salida, tipo de algoritmo que utiliza, etc.
Clasificacin por Plataforma:
Windows Linux OS2 SUN Solaris HP-UX AIX Digital Unix OS/400
Xelopes X X XOrange X X XTanagra XMLC++
WEKA X X XSPSS Clementine X X X X X X XKepler X XODMS: Oracle Data Mining Suite(Darwing)
X X XDBMiner XRapidMiner (Yale) X XDB2 Intelligent Miner X XSAS Enterprise Miner X X X X XStatistica Data Miner X
CART X X X X XAutoClass X X XNeural Planner, NeuroDiet y EasyNN-Plus
XNeuroShell XSEE5 / C5.0 X X X
Libr
eria
sSu
ites
Her
ram
ient
asEs
peci
ficas
PlataformasHerramienta
-
Clasificacin por Entrada de Datos y Salida del Modelo
Ar. Planoo Texto Excel
Almac.Datos C4.5 ODBC SPSS
BDRelacional ARFF
FormatoPropio
ArchivosPlanos HTML BD/SQL
GraficoVisual
Xelopes X X X XOrange X X XTanagra X X XMLC++ X
WEKA X X X X X XSPSS Clementine X X X X X X X XKepler X X X X X X XODMS: Oracle Data Mining Suite(Darwing)
X X X XDBMiner X X X XRapidMiner (Yale) X X X X XDB2 Intelligent Miner X X X XSAS Enterprise Miner X X X XStatistica Data Miner X X X X X
CART X XAutoClass X XNeural Planner, NeuroDiet y EasyNN-Plus
X X X XNeuroShell X XSEE5 / C5.0 X X X
Entrada de Datos Salida
Libr
eria
sSu
ites
Her
ram
ient
asEs
peci
ficas
Herramienta
Dado el poco conocimiento actual que tengo de las herramientas para minera de datos
descritos anteriormente, no me es posible clasificarlas por los algoritmos que usan, tipos de
visualizacin, etc. Pero como complemento anexo clasificaciones realizadas por John F.
Elder IV & Dean W. Abbott, Elder Research en la conferencia A Comparison of Leading Data
Mining Tools. presentada en el Fourth International Conference on Knowledge Discovery &
Data Mining, en 1998 en la ciudad de Nueva York.
-
La siguiente clasificacin fue tomada de la pgina: St@tServ - Data Mining Software (http://www.statserv.com/datamsoft.html).
AssocSequ.Pat.
Seq.Time
BayesNet.
NN-CL
Tree-CL Bayes k-NN
Lin-Disc MBR Assoc
k-Means
D-Clust
NN-Clust
G-Stats Reg
nl-Reg Tests PCA Factor
NN-Pred
RBFPred Fuzzy
TimeSeries MBR Win32 UNIX Web
Para.Scal. SQL Objects API Code
Adaptative Methods Group ? X X X X X X X X X X X X X X X X X X X X XAngoss International Ltd. KnowledgeSEEKER X X XAngoss International Ltd. KnowledgeStudio X X X X X X X X X X X X X XAttar XpertRule ProfilerAZMY Thinkware SuperQuery Office X X XBissantz Kppers & Co. Delta MinerBluecrest Consultancy NeuralParts X X X XBusiness Objects BusinessMiner X XClopiNet ClopiNet X X X X X X X X X XCognos 4Thought XCognos Scenario X X XCSI, Inc. Advisor Toolkit X X X X X X X X X X X X X X X X X X X X X XData Distilleries B.V. Data SurveyorData Mining Technologies NuggetsDataMind DataCruncher XDatasage, Inc. DatasageEudaptics Software GmbH Viscovery SOMine X X X X X X X X XGR-FX Pty Limited GR-FXGroup 1 Model 1 X XHNC Software Inc. DataBase MiningHycones Information Tech. AIRA X XHYPERparallel //Discovery X X X X X X X X X X X X XIBM Intelligent Miner X X X X X X X X X X X X X X X X X X X X X XInformation Discovery Data Mining SuiteIntellix A/S KnowMan X X X X X X X X XISoft Alice / AC2 X X X X X X X XMagnify Inc. PATTERNMegaputer Intelligence PolyAnalyst X X X X X X X X X X X XMIT GmbH DataEngine X X X XMorgan Kaufmann Publishers Data-Miner Software KitNCR Corporation KDW / MDTNeoVista Solutions, Inc. NeoVista Decision Series X X XNeuralware Inc. NeuralWorks Predict X X XNeuroDimension, Inc. NeuroSolutions X X X X X X X X X XNeurotec Custominer X X X XO'PIN Systems, Inc. RevealOracle Darwin X X X X X X X X X X X X X XPartek Inc Partek X X X X X X X X
X(+MD X X X
Pilot Software Pilot DSSQuadstone Limited Decisionhouse X X X X X X X XRed Brick Systems, Inc. Red Brick Data Mine X X X XSalford Systems CART X X X X X X X XSAS Institute Inc. SAS Enterprise Miner X X X X X X X X X X X X X X X X
Sentient Machine Research DataDetective X X X XSilicon Graphics Inc. MineSet X X X X X X X X X X XSLP-Infoware StatlabSPSS Inc. Clementine X X X X X X X X X X X X X X X XSRA International KDD ToolsetSyllogic B.V. Syllogic Data Mining ToolTorrent Systems, Inc. ORCHESTRATETrajecta dbProphet X X X X X X X X X X X X X XUltragem EikoplexUmetri SIMCA
Unica Technologies, IncUnica Pattern RecognitionWorkbench X X X X X X X X
WhiteCross Systems HeatSeeker v3.0 X X X X X XWizSoft WizWhy / WizRule X X X X X
Company Product
Prediction OS OthersLink Analysis Classification Clustering Statistics
La nomenclatura utilizada en algunos de los conceptos es la siguiente:
Link Analysis : [ Assoc. = Associations analysis ] [ Sequ. Pat. = Sequential Patterns ] [ Seq. Time = Sequential time patterns ] [Bayes Net. = Bayes Networks ]
-
Classification: [ NN-CL = Neural Networks Classification ] [ Bayes = Bayesian Classification ] [ k-NN = k-nearest neighboursclassification ] [ Lin-Disc = linear discriminant analysis ] [ MBR = Memory based Reasoning ] [ Assoc. = Classification by
Associations]
Clustering: [k-Means = k-Means Clustering ] [ D-Clust = demographic clustering = relational analysis ] [ NN-Clus = NeuralNetworks Clustering ]
Statistical methods: [ G-Stats = Means, Std dev, Frequencies, ] [ Reg = Linear Regression ] [ nl-Reg = non-linear regression ][ Tests = t-tests, F-test, Chi2 tests ] [ PCA = Principal Component Analysis ] [ Factor = Factor Analysis ]
Prediction: [ NN-Pred = Neural Networks Prediction Models ] [ RBF Pred = Radial Based Functions predictions ] [ Fuzzy =Fuzzy logic predictions ] [ Time Series = Times Series Analysis ] [ MBR = Memory based Reasoning ]
Operating System: [ OS = Operating System ]
Others: [Para. Scal. = Parallel Scalability ] [ SQL = Simple Query Language functions ] [ Objects = C++ objects generated forapplications ] [ API = the algorithms can be used by other programs ] [ Code = the code is available ]
-
REFERENCIAS
Orallo Hernndez, J.: Quintana Ramrez, Ma. J..:Ramrez Ferri, C.: Introduccin a la Minera de
Datos. Prentice Hall, 2004
Portal, The Guide to Computing Literature. URL: http://portal.acm.org/citation.cfm?id=778212.778299
Fecha de Acceso: Octubre 9, 2008
Kepler, Data Mining Software. URL: http://www.cs.bris.ac.uk/Research/MachineLearning/Kepler/
Fecha de Acceso: Octubre 8, 2008
DBMiner Software Software. URL: http://www.dbminer.com/products/index.html
Fecha de Acceso: Octubre 9, 2008
DataMining Lab, KDD-98 URL:
http://www.datamininglab.com/pubs/kdd98_elder_abbott_nopics_bw.pdf
Fecha de Acceso: Octubre 9, 2008
St@tServ - Data Mining Software, URL: http://www.statserv.com/datamsoft.htmlFecha de Acceso: Octubre 9, 2008