Bibliotecas PUCV

Análisis del PageRank como factor de peso en la clasificación automática de textos

Repositorio Dspace/Manakin

Buscar en DSpace

Búsqueda avanzada

Mostrar el registro sencillo del ítem

dc.contributor Alfaro Arancibia, Rodrigo Marcelo
dc.creator Jerez Leiva, Waldo Andrés
Fecha Ingreso 2021-10-21T13:23:59Z
Fecha Disponible 2021-10-21T13:23:59Z
Fecha en Repositorio 2021-10-21
Resumen dc.description <p>Hoy en d&iacute;a es posible encontrar una innumerable cantidad de datos e informaci&oacute;n gracias al internet, es por esto que surge la necesidad de administrar todo ese contenido, de manera tal que se pueda volver a acceder a este contenido con mayor facilidad, reduciendo los tiempos de b&uacute;squeda considerablemente. Una de las maneras que se pueden utilizar para la administraci&oacute;n y categorizaci&oacute;n de la informaci&oacute;n es la clasificaci&oacute;n autom&aacute;tica de texto, que a diferencia de su competencia -la clasificaci&oacute;n manual-, es mucho m&aacute;s eficaz. Adem&aacute;s de esto, es necesario utilizar ciertas medidas que logren diferenciar y valorar estos contenidos de la web con el objetivo de detectar lo m&aacute;s relevante, es decir, considerar aquello que tenga m&aacute;s calidad por sobre cantidad. El PageRank es una de las medidas que se utilizan para este trabajo y consiste en determinar la relevancia de un sitio web. Esta t&eacute;cnica utiliza un sistema de evaluaci&oacute;n directamente proporcional entre relevancia y evaluaci&oacute;n, es decir, mientras mayor sea su valor, m&aacute;s importante ser&aacute; el sitio. El experimento al que se apunta, consiste en alterar la finalidad del PageRank de trabajar con sitios web, a realizar los mismos procesos, pero aplic&aacute;ndolos a documentos y art&iacute;culos, generando un indicador llamado TF-PageRank, que permita dar peso al grafo de palabras claves que se generar&aacute; luego de reducir las palabras vac&iacute;as -stopwords- para finalmente analizar el resultado y clasificar el art&iacute;culo seg&uacute;n corresponda</p>
Resumen dc.description <p>Today it is possible to find an innumerable amount of data and information thanks to the internet, that is why it arises the need to manage all that content, in such a way that you can access this content more easily, reducing the times of search considerably. One of the ways that can be used for the management and categorization of information is automatic text classification, which, unlike its competence -manual classification-, is much more effective. In addition to this, it is necessary to use certain measures that manage to differentiate and value these contents of the web with the objective of detecting the most relevant, that is, to consider what has more quality over quantity. PageRank is one of the measures that are used for this work and is to determine the relevance of a website. This technique uses a system of evaluation directly proportional between relevance and evaluation, that is, the greater the value, the more important the site. The experiment aimed at, is to alter the purpose of PageRank to work with websites, to perform the same processes but applying them to documents and articles, generating an indicator called TF-PageRank, which allows to give weight to the graph of keywords that will be generated after reducing the empty words -stop words- to finally analyze the result and classify the article accordingly</p>
Resumen dc.description last modification
Resumen dc.description Licenciado en Ciencias de la Ingeniería
Resumen dc.description Ingeniero Civil en Informáticatítulo
Resumen dc.description <p>Hoy en d&iacute;a es posible encontrar una innumerable cantidad de datos e informaci&oacute;n gracias al internet, es por esto que surge la necesidad de administrar todo ese contenido, de manera tal que se pueda volver a acceder a este contenido con mayor facilidad, reduciendo los tiempos de b&uacute;squeda considerablemente. Una de las maneras que se pueden utilizar para la administraci&oacute;n y categorizaci&oacute;n de la informaci&oacute;n es la clasificaci&oacute;n autom&aacute;tica de texto, que a diferencia de su competencia -la clasificaci&oacute;n manual-, es mucho m&aacute;s eficaz. Adem&aacute;s de esto, es necesario utilizar ciertas medidas que logren diferenciar y valorar estos contenidos de la web con el objetivo de detectar lo m&aacute;s relevante, es decir, considerar aquello que tenga m&aacute;s calidad por sobre cantidad. El PageRank es una de las medidas que se utilizan para este trabajo y consiste en determinar la relevancia de un sitio web. Esta t&eacute;cnica utiliza un sistema de evaluaci&oacute;n directamente proporcional entre relevancia y evaluaci&oacute;n, es decir, mientras mayor sea su valor, m&aacute;s importante ser&aacute; el sitio. El experimento al que se apunta, consiste en alterar la finalidad del PageRank de trabajar con sitios web, a realizar los mismos procesos, pero aplic&aacute;ndolos a documentos y art&iacute;culos, generando un indicador llamado TF-PageRank, que permita dar peso al grafo de palabras claves que se generar&aacute; luego de reducir las palabras vac&iacute;as -stopwords- para finalmente analizar el resultado y clasificar el art&iacute;culo seg&uacute;n corresponda</p>
Resumen dc.description <p>Today it is possible to find an innumerable amount of data and information thanks to the internet, that is why it arises the need to manage all that content, in such a way that you can access this content more easily, reducing the times of search considerably. One of the ways that can be used for the management and categorization of information is automatic text classification, which, unlike its competence -manual classification-, is much more effective. In addition to this, it is necessary to use certain measures that manage to differentiate and value these contents of the web with the objective of detecting the most relevant, that is, to consider what has more quality over quantity. PageRank is one of the measures that are used for this work and is to determine the relevance of a website. This technique uses a system of evaluation directly proportional between relevance and evaluation, that is, the greater the value, the more important the site. The experiment aimed at, is to alter the purpose of PageRank to work with websites, to perform the same processes but applying them to documents and articles, generating an indicator called TF-PageRank, which allows to give weight to the graph of keywords that will be generated after reducing the empty words -stop words- to finally analyze the result and classify the article accordingly</p>
Formato dc.format PDF
Formato dc.format JEPG
Lenguaje dc.language spa
dc.rights autorizado despues 1 año
Materia dc.subject Análisis de datos
Title dc.title Análisis del PageRank como factor de peso en la clasificación automática de textos
Tipo dc.type texto

Archivos en el ítem

Archivos Tamaño Formato Ver

No hay archivos asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem