<p>En los últimos años la clasificación de documentos basada en la opinión (conocida en inglés bajo los nombres de sentiment classification, sentiment analysis u opinion mining) ha sido objeto de un creciente interés por parte de la comunidad de investigadores del procesamiento del lenguaje natural. El creciente interés por el procesamiento automático de las opiniones contenidas en documentos de texto, es en parte consecuencia del aumento exponencial de contenidos generados por usuarios en la Web 2.0, y por el interés, entre otros, de empresas y administraciones públicas en analizar, filtrar o detectar automáticamente las opiniones vertidas por sus clientes o ciudadanos.El presente trabajo ha tenido como objetivo la implementación de un sistema de clasificación automática de textos de opiniones, concretamente de las opiniones realizadas por los clientes de una compañía eléctrica en su área de atención específicamente en su cuenta Twitter que tiene destinada para esta finalidad. Los documentos (Tweets generados por los usuarios) fueron clasificados según categorías establecidas (Pregunta, Sugerencia, Información Usuarios, Otras e Información Empresa), aplicando diferentes técnicas como Arboles de decisión, Maquina de Soporte Vectorial, Algoritmo de Nearest Neighbors y algunas variantes de Naive Bayes. Con la implementación de este sistema se ha buscado facilitar la clasificación manual de estas opiniones y permitir una rápida respuesta a los documentos que lo requieran. Los resultados obtenidos tras las distintas pruebas que se realizaron han demostrado ser bastantes satisfactorios lográndose los mejores resultados con el método de Arboles de Decisión, en los cuales se obtuvo un promedio tras 10 rondas de prueba de 97% de Accuracy utilizando la representación TF-RFL, seguido de la representación TF-RFL con el método KNN con la cual se ha logrado un valor de 91,4% Accuracy. Con la realización del proyecto, se comprobó y analizo también las dificultades encontradas en la implementación de un sistema de clasificación automática donde la naturaleza de los textos es de opinión</p>
<p>In recent years, opinion-based classification of documents (sentiment classification, sentiment analysis, or opinion mining) has been the subject of growing interest on the part of the community of natural language processing researchers. The growing interest in automatic processing of the opinions contained in text documents is partly a result of the exponential increase in content generated by users in Web 2.0, and the interest, among others, in companies and public administrations in analyzing, filtering Or automatically detect the opinions expressed by their clients or citizens. The objective of the present work was to implement a system of automatic classification of texts of opinions, specifically the opinions made by customers of an electric company in their area of attention specifically in their Twitter account that is intended for this purpose. The documents (Tweets generated by the users) were classified according to established categories (Question, Suggestion, Information Users, Others and Company Information), applying different techniques such as Decision Trees, Support Vector Machines, Nearest Neighbors Algorithm and some Naive Bayes variants. The implementation of this system has sought to facilitate the manual classification of these opinions and allow a quick response to the documents that require it. The results obtained after the different tests that have been performed have proved to be quite satisfactory, obtaining the best results with the Decision Trees method in which an average of 10 test rounds of 97% of Accuracy was obtained using the TF-RFL representation, Followed by the TF-RFL representation with the KNN method with which a value of 91.4% Accuracy has been achieved. With the realization of the project, it was also verified and analyzed the difficulties encountered in the implementation of an automatic classification system where the nature of the texts is of opinion</p>
last modification
Licenciado en Ciencias de la Ingeniería
Ingeniero Civil en Informáticatítulo
INGENIERIA CIVIL INFORMATICA
<p>En los últimos años la clasificación de documentos basada en la opinión (conocida en inglés bajo los nombres de sentiment classification, sentiment analysis u opinion mining) ha sido objeto de un creciente interés por parte de la comunidad de investigadores del procesamiento del lenguaje natural. El creciente interés por el procesamiento automático de las opiniones contenidas en documentos de texto, es en parte consecuencia del aumento exponencial de contenidos generados por usuarios en la Web 2.0, y por el interés, entre otros, de empresas y administraciones públicas en analizar, filtrar o detectar automáticamente las opiniones vertidas por sus clientes o ciudadanos.El presente trabajo ha tenido como objetivo la implementación de un sistema de clasificación automática de textos de opiniones, concretamente de las opiniones realizadas por los clientes de una compañía eléctrica en su área de atención específicamente en su cuenta Twitter que tiene destinada para esta finalidad. Los documentos (Tweets generados por los usuarios) fueron clasificados según categorías establecidas (Pregunta, Sugerencia, Información Usuarios, Otras e Información Empresa), aplicando diferentes técnicas como Arboles de decisión, Maquina de Soporte Vectorial, Algoritmo de Nearest Neighbors y algunas variantes de Naive Bayes. Con la implementación de este sistema se ha buscado facilitar la clasificación manual de estas opiniones y permitir una rápida respuesta a los documentos que lo requieran. Los resultados obtenidos tras las distintas pruebas que se realizaron han demostrado ser bastantes satisfactorios lográndose los mejores resultados con el método de Arboles de Decisión, en los cuales se obtuvo un promedio tras 10 rondas de prueba de 97% de Accuracy utilizando la representación TF-RFL, seguido de la representación TF-RFL con el método KNN con la cual se ha logrado un valor de 91,4% Accuracy. Con la realización del proyecto, se comprobó y analizo también las dificultades encontradas en la implementación de un sistema de clasificación automática donde la naturaleza de los textos es de opinión</p>
<p>In recent years, opinion-based classification of documents (sentiment classification, sentiment analysis, or opinion mining) has been the subject of growing interest on the part of the community of natural language processing researchers. The growing interest in automatic processing of the opinions contained in text documents is partly a result of the exponential increase in content generated by users in Web 2.0, and the interest, among others, in companies and public administrations in analyzing, filtering Or automatically detect the opinions expressed by their clients or citizens. The objective of the present work was to implement a system of automatic classification of texts of opinions, specifically the opinions made by customers of an electric company in their area of attention specifically in their Twitter account that is intended for this purpose. The documents (Tweets generated by the users) were classified according to established categories (Question, Suggestion, Information Users, Others and Company Information), applying different techniques such as Decision Trees, Support Vector Machines, Nearest Neighbors Algorithm and some Naive Bayes variants. The implementation of this system has sought to facilitate the manual classification of these opinions and allow a quick response to the documents that require it. The results obtained after the different tests that have been performed have proved to be quite satisfactory, obtaining the best results with the Decision Trees method in which an average of 10 test rounds of 97% of Accuracy was obtained using the TF-RFL representation, Followed by the TF-RFL representation with the KNN method with which a value of 91.4% Accuracy has been achieved. With the realization of the project, it was also verified and analyzed the difficulties encountered in the implementation of an automatic classification system where the nature of the texts is of opinion</p>