La clasificación automática de textos mediante técnicas de ranking, consiste en la categorización de textos en base a una consulta, con el objetivo de generar un modelo de ranking que pueda ordenar los textos de acuerdo a sus grados de relevancia, preferencia e importancia, dentro de un conjunto de categorías predefinidas. Los modelos de Ranking se clasifican en tres grandes enfoques: Pointwise, Pairwise y Listwise. En la presente investigación se ha llevado a cabo un análisis de cada uno de éstos, en el cual se presentan las ventajas y desventajas respecto a los componentes de una máquina de aprendizaje tales como: espacio de entrada, espacio de salida, espacio de hipótesis y función de pérdida. Mediante la investigación se determinó, que el enfoque de Listwise es el que más se acerca a la idea de ranking; esto se debe a que relaciona en forma simultánea todos los documentos en base a una consulta, a diferencia de los otros métodos. En una segunda parte, se desarrolla el Modelo de Independencia Binaria (BIM), al cual se le realizan modificaciones para permitir el trabajo con datasets multi-etiqueta. Luego, se realizan pruebas de rendimiento del modelo en base a las medidas de evaluación presentadas. Finalmente, se concluye que el modelo BIM tiene un óptimo rendimiento al trabajar con datasets multi-etiqueta de distintos dominios como texto e imágenes
Licenciado en Ciencias de la Ingeniería
Ingeniero Civil en Informática
La clasificación automática de textos mediante técnicas de ranking, consiste en la categorización de textos en base a una consulta, con el objetivo de generar un modelo de ranking que pueda ordenar los textos de acuerdo a sus grados de relevancia, preferencia e importancia, dentro de un conjunto de categorías predefinidas. Los modelos de Ranking se clasifican en tres grandes enfoques: Pointwise, Pairwise y Listwise. En la presente investigación se ha llevado a cabo un análisis de cada uno de éstos, en el cual se presentan las ventajas y desventajas respecto a los componentes de una máquina de aprendizaje tales como: espacio de entrada, espacio de salida, espacio de hipótesis y función de pérdida. Mediante la investigación se determinó, que el enfoque de Listwise es el que más se acerca a la idea de ranking; esto se debe a que relaciona en forma simultánea todos los documentos en base a una consulta, a diferencia de los otros métodos. En una segunda parte, se desarrolla el Modelo de Independencia Binaria (BIM), al cual se le realizan modificaciones para permitir el trabajo con datasets multi-etiqueta. Luego, se realizan pruebas de rendimiento del modelo en base a las medidas de evaluación presentadas. Finalmente, se concluye que el modelo BIM tiene un óptimo rendimiento al trabajar con datasets multi-etiqueta de distintos dominios como texto e imágenes
Ingeniería Civil Informática