TexMiLAB

Laboratorio para minería de textos

TexMiLAB

TexMiLAB es una aplicación gratuita que permite a los investigadores realizar experimentos en minería de textos.

TexMiLAB se estructura en cinco módulos (i. e., Corpus, Statistics, Mining, Evaluation y Scripting). Por una parte, los cuatro primeros módulos configuran el proceso completo de desarrollo de un experimento en minería de textos. El corpus es el recurso inicial en este proceso, con lo cual se precisan herramientas para la recopilación, gestión y análisis de los textos y para la construcción de un modelo de representación semántica a partir de los patrones de coocurrencia identificados en los textos (Corpus). Posteriormente, puede realizarse una exploración estadística del conjunto de datos con el fin de comprenderlos adecuadamente (Statistics) y así seleccionar las técnicas de aprendizaje automático más convenientes para realizar una tarea de minería (Mining). Finalmente, se evalúa la calidad del modelo con respecto al conocimiento nuevo que se ha generado (Evaluation). Por otra parte, y de manera alternativa, el módulo Scripting permite a los usuarios con conocimientos de programación en C# implementar el mismo experimento a través de código.

Corpus

Compilación de
Datos

Permite la recuperación de información a través de una API de RESTful, el acceso a la información alojada en archivos RSS, la extracción del contenido de archivos XML y el raspado de contenido web en documentos HTML estáticos y dinámicos.

Corpus

Preprocesamiento de
Datos

Permite la conversión de archivos PDF a TXT, la conversión de datos a otro formato (p. ej., CSV, JSON y XML) y operaciones básicas de modificación de texto (p. ej., unir, dividir y reemplazar). Además, pueden realizarse tareas en los campos de la analítica de textos (p. ej., el reconocimiento de palabras clave y entidades nombradas y la extracción de concordancias y colocaciones) y del procesamiento del lenguaje natural (p. ej., la identificación del idioma, la lematización de palabras y la etiquetación de sus categorías gramaticales).

Corpus

Procesamiento de
Datos

Permite la creación de la matriz documento-ngrama correspondiente a un corpus, además de la aplicación de técnicas para la reducción de su dimensionalidad (p. ej., métodos supervisados de selección de rasgos y métodos no supervisados de transformación de rasgos).

Corpus

Exploración del
Conjunto de Datos

Permite convertir archivos CSV en tablas de una base de datos SQLite con el fin de gestionar adecuadamente su contenido a través de sentencias SQL.

Estadística

Estadística

Disponible próximamente.

Minería

Clasificación de Textos

Permite la clasificación de los textos en un corpus de evaluación a partir del entrenamiento de un modelo de aprendizaje automático, para lo cual pueden emplearse modelos supervisados tradicionales (p. ej., árbol de decisión, k vecinos más cercanos, bayesiano ingenuo, bosque aleatorio y máquina de vectores de soporte) y redes neuronales (p. ej., convolucional).

Minería

Agrupamiento de Textos

Permite el agrupamiento de datos, a través de métodos como K-media, el modelo de mezcla gaussiana, el agrupamiento jerárquico aglomerativo y HDBSCAN, y el modelado de temas, a través de métodos como el análisis semántico latente probabilístico y la asignación de Dirichlet latente.

Minería

Redes Neuronales

Permite aplicar diferentes operaciones a una matriz de vectores de palabras (word embeddings), como la comparación, el agrupamiento y la visualización de los elementos a través de sus vectores, la transformación de la matriz (p. ej., la reducción del número de elementos o dimensiones) y la composicionalidad de los vectores.

Minería

Aprendizaje de Transferencia

Permite el uso de modelos de inteligencia artificial basados en transformadores y de modelos extensos del lenguaje para tareas como el análisis de los sentimientos y las emociones y la generación de texto, entre otras.

Evaluación

Evaluación de
Tareas

Permite evaluar los resultados generados por un modelo de clasificación binaria de textos a través de diferentes medidas basadas en los valores de una matriz de confusión (p. ej., la exactitud, la precisión, la cobertura y la puntuación F1, entre otras muchas). Igualmente, ayuda a preparar los datos de entrenamiento y evaluación para la realización de una validación cruzada de k iteraciones.

Evaluación

Visualización de Datos

Permite generar gráficos lineales, circulares y de redes y diagramas de dispersión a partir de datos en formato CSV. Además, pueden proyectarse vectores de palabras a un espacio bidimensional.

C# Scripting

Codificación de Tareas

Permite ejecutar un programa escrito en C# en modo consola, accediendo a las mismas funcionalidades que presenta la interfaz gráfica de TexMiLAB.