Bibliotecas PUCV

Análisis y clasificación de textos con técnicas semi supervisadas aplicado a área de atención al cliente

Repositorio Dspace/Manakin

Buscar en DSpace

Búsqueda avanzada

Mostrar el registro sencillo del ítem

dc.contributor Alfaro Arancibia, Rodrigo Marcelo
dc.creator Pérez Vera, Sebastián Ariel
Fecha Ingreso 2021-10-21T00:47:02Z
Fecha Disponible 2021-10-21T00:47:02Z
Fecha en Repositorio 2021-10-20
Resumen dc.description <p>En los &uacute;ltimos a&ntilde;os la clasificaci&oacute;n de documentos basada en la opini&oacute;n (conocida en ingl&eacute;s bajo los nombres de sentiment classification, sentiment analysis u opinion mining) ha sido objeto de un creciente inter&eacute;s por parte de la comunidad de investigadores del procesamiento del lenguaje natural. El creciente inter&eacute;s por el procesamiento autom&aacute;tico de las opiniones contenidas en documentos de texto, es en parte consecuencia del aumento exponencial de contenidos generados por usuarios en la Web 2.0, y por el inter&eacute;s, entre otros, de empresas y administraciones p&uacute;blicas en analizar, filtrar o detectar autom&aacute;ticamente las opiniones vertidas por sus clientes o ciudadanos.El presente trabajo ha tenido como objetivo la implementaci&oacute;n de un sistema de clasificaci&oacute;n autom&aacute;tica de textos de opiniones, concretamente de las opiniones realizadas por los clientes de una compa&ntilde;&iacute;a el&eacute;ctrica en su &aacute;rea de atenci&oacute;n espec&iacute;ficamente en su cuenta Twitter que tiene destinada para esta finalidad. Los documentos (Tweets generados por los usuarios) fueron clasificados seg&uacute;n categor&iacute;as establecidas (Pregunta, Sugerencia, Informaci&oacute;n Usuarios, Otras e Informaci&oacute;n Empresa), aplicando diferentes t&eacute;cnicas como Arboles de decisi&oacute;n, Maquina de Soporte Vectorial, Algoritmo de Nearest Neighbors y algunas variantes de Naive Bayes. Con la implementaci&oacute;n de este sistema se ha buscado facilitar la clasificaci&oacute;n manual de estas opiniones y permitir una r&aacute;pida respuesta a los documentos que lo requieran. Los resultados obtenidos tras las distintas pruebas que se realizaron han demostrado ser bastantes satisfactorios logr&aacute;ndose los mejores resultados con el m&eacute;todo de Arboles de Decisi&oacute;n, en los cuales se obtuvo un promedio tras 10 rondas de prueba de 97% de Accuracy utilizando la representaci&oacute;n TF-RFL, seguido de la representaci&oacute;n TF-RFL con el m&eacute;todo KNN con la cual se ha logrado un valor de 91,4% Accuracy. Con la realizaci&oacute;n del proyecto, se comprob&oacute; y analizo tambi&eacute;n las dificultades encontradas en la implementaci&oacute;n de un sistema de clasificaci&oacute;n autom&aacute;tica donde la naturaleza de los textos es de opini&oacute;n</p>
Resumen dc.description <p>In recent years, opinion-based classification of documents (sentiment classification, sentiment analysis, or opinion mining) has been the subject of growing interest on the part of the community of natural language processing researchers. The growing interest in automatic processing of the opinions contained in text documents is partly a result of the exponential increase in content generated by users in Web 2.0, and the interest, among others, in companies and public administrations in analyzing, filtering Or automatically detect the opinions expressed by their clients or citizens. The objective of the present work was to implement a system of automatic classification of texts of opinions, specifically the opinions made by customers of an electric company in their area of attention specifically in their Twitter account that is intended for this purpose. The documents (Tweets generated by the users) were classified according to established categories (Question, Suggestion, Information Users, Others and Company Information), applying different techniques such as Decision Trees, Support Vector Machines, Nearest Neighbors Algorithm and some Naive Bayes variants. The implementation of this system has sought to facilitate the manual classification of these opinions and allow a quick response to the documents that require it. The results obtained after the different tests that have been performed have proved to be quite satisfactory, obtaining the best results with the Decision Trees method in which an average of 10 test rounds of 97% of Accuracy was obtained using the TF-RFL representation, Followed by the TF-RFL representation with the KNN method with which a value of 91.4% Accuracy has been achieved. With the realization of the project, it was also verified and analyzed the difficulties encountered in the implementation of an automatic classification system where the nature of the texts is of opinion</p>
Resumen dc.description last modification
Resumen dc.description Licenciado en Ciencias de la Ingeniería
Resumen dc.description Ingeniero Civil en Informáticatítulo
Resumen dc.description <p>En los &uacute;ltimos a&ntilde;os la clasificaci&oacute;n de documentos basada en la opini&oacute;n (conocida en ingl&eacute;s bajo los nombres de sentiment classification, sentiment analysis u opinion mining) ha sido objeto de un creciente inter&eacute;s por parte de la comunidad de investigadores del procesamiento del lenguaje natural. El creciente inter&eacute;s por el procesamiento autom&aacute;tico de las opiniones contenidas en documentos de texto, es en parte consecuencia del aumento exponencial de contenidos generados por usuarios en la Web 2.0, y por el inter&eacute;s, entre otros, de empresas y administraciones p&uacute;blicas en analizar, filtrar o detectar autom&aacute;ticamente las opiniones vertidas por sus clientes o ciudadanos.El presente trabajo ha tenido como objetivo la implementaci&oacute;n de un sistema de clasificaci&oacute;n autom&aacute;tica de textos de opiniones, concretamente de las opiniones realizadas por los clientes de una compa&ntilde;&iacute;a el&eacute;ctrica en su &aacute;rea de atenci&oacute;n espec&iacute;ficamente en su cuenta Twitter que tiene destinada para esta finalidad. Los documentos (Tweets generados por los usuarios) fueron clasificados seg&uacute;n categor&iacute;as establecidas (Pregunta, Sugerencia, Informaci&oacute;n Usuarios, Otras e Informaci&oacute;n Empresa), aplicando diferentes t&eacute;cnicas como Arboles de decisi&oacute;n, Maquina de Soporte Vectorial, Algoritmo de Nearest Neighbors y algunas variantes de Naive Bayes. Con la implementaci&oacute;n de este sistema se ha buscado facilitar la clasificaci&oacute;n manual de estas opiniones y permitir una r&aacute;pida respuesta a los documentos que lo requieran. Los resultados obtenidos tras las distintas pruebas que se realizaron han demostrado ser bastantes satisfactorios logr&aacute;ndose los mejores resultados con el m&eacute;todo de Arboles de Decisi&oacute;n, en los cuales se obtuvo un promedio tras 10 rondas de prueba de 97% de Accuracy utilizando la representaci&oacute;n TF-RFL, seguido de la representaci&oacute;n TF-RFL con el m&eacute;todo KNN con la cual se ha logrado un valor de 91,4% Accuracy. Con la realizaci&oacute;n del proyecto, se comprob&oacute; y analizo tambi&eacute;n las dificultades encontradas en la implementaci&oacute;n de un sistema de clasificaci&oacute;n autom&aacute;tica donde la naturaleza de los textos es de opini&oacute;n</p>
Resumen dc.description <p>In recent years, opinion-based classification of documents (sentiment classification, sentiment analysis, or opinion mining) has been the subject of growing interest on the part of the community of natural language processing researchers. The growing interest in automatic processing of the opinions contained in text documents is partly a result of the exponential increase in content generated by users in Web 2.0, and the interest, among others, in companies and public administrations in analyzing, filtering Or automatically detect the opinions expressed by their clients or citizens. The objective of the present work was to implement a system of automatic classification of texts of opinions, specifically the opinions made by customers of an electric company in their area of attention specifically in their Twitter account that is intended for this purpose. The documents (Tweets generated by the users) were classified according to established categories (Question, Suggestion, Information Users, Others and Company Information), applying different techniques such as Decision Trees, Support Vector Machines, Nearest Neighbors Algorithm and some Naive Bayes variants. The implementation of this system has sought to facilitate the manual classification of these opinions and allow a quick response to the documents that require it. The results obtained after the different tests that have been performed have proved to be quite satisfactory, obtaining the best results with the Decision Trees method in which an average of 10 test rounds of 97% of Accuracy was obtained using the TF-RFL representation, Followed by the TF-RFL representation with the KNN method with which a value of 91.4% Accuracy has been achieved. With the realization of the project, it was also verified and analyzed the difficulties encountered in the implementation of an automatic classification system where the nature of the texts is of opinion</p>
Formato dc.format PDF
Lenguaje dc.language spa
dc.rights autorizado
Materia dc.subject Lenguaje natural
Materia dc.subject Análisis de datos
Materia dc.subject Atención al cliente
Title dc.title Análisis y clasificación de textos con técnicas semi supervisadas aplicado a área de atención al cliente
Tipo dc.type texto

Archivos en el ítem

Archivos Tamaño Formato Ver

No hay archivos asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem