TexMiLAB se estructura en cinco módulos (i. e., Corpus, Statistics, Mining, Evaluation y Scripting). Por una parte, los cuatro primeros módulos configuran el proceso completo de desarrollo de un experimento en minería de textos. El corpus es el recurso inicial en este proceso, con lo cual se precisan herramientas para la recopilación, gestión y análisis de los textos y para la construcción de un modelo de representación semántica a partir de los patrones de coocurrencia identificados en los textos (Corpus). Posteriormente, puede realizarse una exploración estadística del conjunto de datos con el fin de comprenderlos adecuadamente (Statistics) y así seleccionar las técnicas de aprendizaje automático más convenientes para realizar una tarea de minería (Mining). Finalmente, se evalúa la calidad del modelo con respecto al conocimiento nuevo que se ha generado (Evaluation). Por otra parte, y de manera alternativa, el módulo Scripting permite a los usuarios con conocimientos de programación en C# implementar el mismo experimento a través de código.
Corpus
Compilación de
Datos
Permite la recuperación de información a través de una API de RESTful, el acceso a la información alojada en archivos RSS, la extracción del contenido de archivos XML y el raspado de contenido web en documentos HTML estáticos y dinámicos.
Corpus
Preprocesamiento de
Datos
Permite la conversión de archivos PDF a TXT, la conversión de datos a otro formato (p. ej., CSV, JSON y XML) y operaciones básicas de modificación de texto (p. ej., unir, dividir y reemplazar). Además, pueden realizarse tareas en los campos de la analítica de textos (p. ej., el reconocimiento de palabras clave y entidades nombradas y la extracción de concordancias y colocaciones) y del procesamiento del lenguaje natural (p. ej., la identificación del idioma, la lematización de palabras y la etiquetación de sus categorías gramaticales).
Corpus
Procesamiento de
Datos
Permite la creación de la matriz documento-ngrama correspondiente a un corpus, además de la aplicación de técnicas para la reducción de su dimensionalidad (p. ej., métodos supervisados de selección de rasgos y métodos no supervisados de transformación de rasgos).
Corpus
Exploración del
Conjunto de Datos
Permite convertir archivos CSV en tablas de una base de datos SQLite con el fin de gestionar adecuadamente su contenido a través de sentencias SQL.
Disponible próximamente.
Minería
Clasificación de Textos
Permite la clasificación de los textos en un corpus de evaluación a partir del entrenamiento de un modelo de aprendizaje automático, para lo cual pueden emplearse modelos supervisados tradicionales (p. ej., árbol de decisión, k vecinos más cercanos, bayesiano ingenuo, bosque aleatorio y máquina de vectores de soporte) y redes neuronales (p. ej., convolucional).
Minería
Agrupamiento de Textos
Permite el agrupamiento de datos, a través de métodos como K-media, el modelo de mezcla gaussiana, el agrupamiento jerárquico aglomerativo y HDBSCAN, y el modelado de temas, a través de métodos como el análisis semántico latente probabilístico y la asignación de Dirichlet latente.
Permite aplicar diferentes operaciones a una matriz de vectores de palabras (word embeddings), como la comparación, el agrupamiento y la visualización de los elementos a través de sus vectores, la transformación de la matriz (p. ej., la reducción del número de elementos o dimensiones) y la composicionalidad de los vectores.
Minería
Aprendizaje de Transferencia
Permite el uso de modelos de inteligencia artificial basados en transformadores y de modelos extensos del lenguaje para tareas como el análisis de los sentimientos y las emociones y la generación de texto, entre otras.
Evaluación
Evaluación de
Tareas
Permite evaluar los resultados generados por un modelo de clasificación binaria de textos a través de diferentes medidas basadas en los valores de una matriz de confusión (p. ej., la exactitud, la precisión, la cobertura y la puntuación F1, entre otras muchas). Igualmente, ayuda a preparar los datos de entrenamiento y evaluación para la realización de una validación cruzada de k iteraciones.
Evaluación
Visualización de Datos
Permite generar gráficos lineales, circulares y de redes y diagramas de dispersión a partir de datos en formato CSV. Además, pueden proyectarse vectores de palabras a un espacio bidimensional.
C# Scripting
Codificación de Tareas
Permite ejecutar un programa escrito en C# en modo consola, accediendo a las mismas funcionalidades que presenta la interfaz gráfica de TexMiLAB.