<p>Hoy en día es posible encontrar una innumerable cantidad de datos e información gracias al internet, es por esto que surge la necesidad de administrar todo ese contenido, de manera tal que se pueda volver a acceder a este contenido con mayor facilidad, reduciendo los tiempos de búsqueda considerablemente. Una de las maneras que se pueden utilizar para la administración y categorización de la información es la clasificación automática de texto, que a diferencia de su competencia -la clasificación manual-, es mucho más eficaz. Además de esto, es necesario utilizar ciertas medidas que logren diferenciar y valorar estos contenidos de la web con el objetivo de detectar lo más relevante, es decir, considerar aquello que tenga más calidad por sobre cantidad. El PageRank es una de las medidas que se utilizan para este trabajo y consiste en determinar la relevancia de un sitio web. Esta técnica utiliza un sistema de evaluación directamente proporcional entre relevancia y evaluación, es decir, mientras mayor sea su valor, más importante será el sitio. El experimento al que se apunta, consiste en alterar la finalidad del PageRank de trabajar con sitios web, a realizar los mismos procesos, pero aplicándolos a documentos y artículos, generando un indicador llamado TF-PageRank, que permita dar peso al grafo de palabras claves que se generará luego de reducir las palabras vacías -stopwords- para finalmente analizar el resultado y clasificar el artículo según corresponda</p>
<p>Today it is possible to find an innumerable amount of data and information thanks to the internet, that is why it arises the need to manage all that content, in such a way that you can access this content more easily, reducing the times of search considerably. One of the ways that can be used for the management and categorization of information is automatic text classification, which, unlike its competence -manual classification-, is much more effective. In addition to this, it is necessary to use certain measures that manage to differentiate and value these contents of the web with the objective of detecting the most relevant, that is, to consider what has more quality over quantity. PageRank is one of the measures that are used for this work and is to determine the relevance of a website. This technique uses a system of evaluation directly proportional between relevance and evaluation, that is, the greater the value, the more important the site. The experiment aimed at, is to alter the purpose of PageRank to work with websites, to perform the same processes but applying them to documents and articles, generating an indicator called TF-PageRank, which allows to give weight to the graph of keywords that will be generated after reducing the empty words -stop words- to finally analyze the result and classify the article accordingly</p>
last modification
Licenciado en Ciencias de la Ingeniería
Ingeniero Civil en Informáticatítulo
INGENIERIA CIVIL INFORMATICA
<p>Hoy en día es posible encontrar una innumerable cantidad de datos e información gracias al internet, es por esto que surge la necesidad de administrar todo ese contenido, de manera tal que se pueda volver a acceder a este contenido con mayor facilidad, reduciendo los tiempos de búsqueda considerablemente. Una de las maneras que se pueden utilizar para la administración y categorización de la información es la clasificación automática de texto, que a diferencia de su competencia -la clasificación manual-, es mucho más eficaz. Además de esto, es necesario utilizar ciertas medidas que logren diferenciar y valorar estos contenidos de la web con el objetivo de detectar lo más relevante, es decir, considerar aquello que tenga más calidad por sobre cantidad. El PageRank es una de las medidas que se utilizan para este trabajo y consiste en determinar la relevancia de un sitio web. Esta técnica utiliza un sistema de evaluación directamente proporcional entre relevancia y evaluación, es decir, mientras mayor sea su valor, más importante será el sitio. El experimento al que se apunta, consiste en alterar la finalidad del PageRank de trabajar con sitios web, a realizar los mismos procesos, pero aplicándolos a documentos y artículos, generando un indicador llamado TF-PageRank, que permita dar peso al grafo de palabras claves que se generará luego de reducir las palabras vacías -stopwords- para finalmente analizar el resultado y clasificar el artículo según corresponda</p>
<p>Today it is possible to find an innumerable amount of data and information thanks to the internet, that is why it arises the need to manage all that content, in such a way that you can access this content more easily, reducing the times of search considerably. One of the ways that can be used for the management and categorization of information is automatic text classification, which, unlike its competence -manual classification-, is much more effective. In addition to this, it is necessary to use certain measures that manage to differentiate and value these contents of the web with the objective of detecting the most relevant, that is, to consider what has more quality over quantity. PageRank is one of the measures that are used for this work and is to determine the relevance of a website. This technique uses a system of evaluation directly proportional between relevance and evaluation, that is, the greater the value, the more important the site. The experiment aimed at, is to alter the purpose of PageRank to work with websites, to perform the same processes but applying them to documents and articles, generating an indicator called TF-PageRank, which allows to give weight to the graph of keywords that will be generated after reducing the empty words -stop words- to finally analyze the result and classify the article accordingly</p>