Páginas que te pueden interesar

viernes, 19 de diciembre de 2014

Tesis - Autocontenida de documentos HTML


En esta tesis doctoral se presenta una propuesta de representación auto contenida de páginas web basada en combinaciones heuríisticas de criterios. Se proponen dos funciones de ponderación de rasgos como parte de la definición general de un modelo de representación de documentos. Con estas funciones se pretende determinar el peso que tiene un rasgo en el contenido de un documento HTML; para ello se establece un marco teórico general apoyado en una hipótesis fundamental: la lectura supone un proceso activo donde tanto el autor de un documento, como el lector del mismo, aportan su experiencia y conocimiento previo al proceso informativo documental.


Se parte con el objetivo principal de desarrollar representaciones basadas únicamente en el contenido textual de los documentos HTML. El ámbito de aplicación sería la clasificación automática y el clustering de páginas web. Estos procesos pueden utilizarse en la creación de directorios web temáticos o aplicarse sobre los resultados devueltos tras una consulta a un motor de búsqueda. Una buena parte de las representaciones empleadas actualmente en estos contextos son de tipo mixto, es decir, basadas en un análisis de la estructura del hipergrafo que forma en sí mismo la Web, así como en un estudio del contenido de texto de la propia página web. Las funciones propuestas tratan de mejorar las representaciones basadas en contenido encontradas en la literatura, y podrían emplearse como representaciones autocontenidas o bien formando parte de representaciones de tipo mixto.




Una de las funciones propuestas en esta tesis, llamada ACC (Analytical Combination of Criteria), se basa en una combinación lineal de criterios heurísticos extraídos de los procesos de lectura y escritura de textos. La otra, FCC (Fuzzy Combination of Crite
ria), se construye a partir de una combinación borrosa, o fuzzy, de esos mismos criterios. Una de las ventajas que ofrecen ACC y FCC es que permiten representar un documento HTML sin necesidad de analizar previamente ninguna colección de referencia. No será necesario extraer información relativa a las frecuencias de aparición de los diferentes rasgos dentro de la colección. Esta propiedad resulta interesante en el contexto de la Web, visto su tamaño actual y su tasa de crecimiento.

Además, en un contexto en el que la heterogeneidad de los contenidos es una de las características principales, las representaciones propuestas permiten la generación de representaciones independientes del tipo de página que se esté considerando, siempre que tengan contenido textual, de modo que no habrá que definir diferentes heurísticas para representar diferentes tipos de documentos.

Para la evaluacióon de las representaciones propuestas se utiliza un algoritmo de clasificación automática Naive Bayes y un algoritmo de clustering de partición. Se ha elegido un algoritmo Naive Bayes por ser un clasificador sencillo que ha ofrecido muy buenos resultados en tareas de clasificación de documentos en numerosos contextos. Del mismo modo, se emplea el algoritmo de clustering de partición k-way via Repeated Bisections, perteneciente a la librería CLUTO, por haber sido aplicado en distintos trabajos de clustering de documentos con muy buen comportamiento.




Tras el análisis de los resultados obtenidos en la evaluación de las funciones propuestas, en comparación con funciones de ponderación clásicas –aplicadas tradicionalmente a la representación de textos– y otras funciones específicas para la representación de paginas web, se puede concluir que las representaciones generadas con ACC y FCC tienen un comportamiento destacable. En el caso de la clasificación Naıve Bayes, se consideraron diferentes funciones de probabilidad con las que se obtuvieron resultados muy diferentes según la representación estudiada. ACC y FCC presentan el comportamiento más estable en términos generales, de entre el conjunto de funciones evaluadas, destacando especialmente cuando se emplean dimensiones de representación pequeñas. Este hecho implica que se puede obtener una misma calidad de clasificación con vectores de representación muy pequeños. En el caso del clustering de páginas web, el comportamiento de las representaciones propuestas en esta tesis resulta aún mejor. Se obtienen, en general, los mejores resultados independientemente del número de grupos considerados. Además, al aumentar el número de clusters, el comportamiento relativo frente al resto de las funciones evaluadas mejora sustancialmente.

Puedes descargar en los enlaces siguientes:

http://adf.ly/uHM6x

http://sh.st/uXs3I

No hay comentarios:

Publicar un comentario

Si tienes alguna duda, escribenos.