Escudo de la República de Colombia
Sistema Nacional de Biliotecas - Repositorio Institucional Universidad Nacional de Colombia Biblioteca Digital - Repositorio Institucional UN Sistema Nacional de Bibliotecas UN

Sistema de generación, administración y consulta de una librería digital de documentos para un portal web / Generation system, management and search of a digital library of documents for a website

Mahecha Nieto, Isabel Andrea (2011) Sistema de generación, administración y consulta de una librería digital de documentos para un portal web / Generation system, management and search of a digital library of documents for a website. Maestría thesis, Universidad Nacional de Colombia.

Texto completo

[img]
Vista previa
PDF - Versión Aceptada
Available under License Creative Commons Attribution Non-commercial No Derivatives.

3MB

Resumen

Los portales web son grandes repositorios de información desorganizada. Muchas veces mantener una política de publicación de documentos es difícil, y finalmente cada parte de la organización publica sus documentos en lugares distintos en una estructura de carpetas particular. El acceso a los documentos se vuelve tedioso porque las personas que necesitan un documento en particular casi siempre desconocen su ubicación. Y a pesar de los hiper-vínculos entre documentos, muchas veces el texto que identifica el enlace no es suficiente para identificar el documento al que hace referencia. Por su parte, las librerías digitales se enfocan en la organización de la información a través de colecciones que permiten agrupar documentos similares lo cual agiliza el proceso de búsqueda de documentos específicos a quienes los consultan. La creación de librerías digitales se ha convertido en una opción económica y ágil, para la organización de documentos sobre diferentes temáticas, almacenados en diversos formatos (texto, audio, imagen, vídeo) en los sitios web. En este trabajo de tesis, se propone un sistema de administración de librerías digitales web de docu- mentos que es capaz de: 1) recuperar e indexar documentos publicados en un portal web, 2) generar una estructura de librería digital y 3) clasificar y permitir la consulta de los documentos a través de una interfaz de navegación. La recuperación e indexación se hace a través de un sistema de recuperación de información. El agrupamiento de los documentos se hace a través de un componente de minería de texto que contiene herramientas para el preprocesamiento de los documentos, y un algoritmo de agrupamiento conceptual. La interfaz de usuario se compone de dos vistas principales, la interfaz de navegación y un módulo de administración. La interfaz de navegación está compuesta por un árbol de categorías y un grafo que relaciona las diferentes categorías entre sí a través de los documentos que pertenecen a cada una de ellas. La interfaz de administración permite el acceso a los parámetros del sistema para la ejecución de los procesos de indexación y agrupamiento de los documentos. El caso de estudio propuesto para probar el prototipo fueron los portales ubicados dentro del dominio web de la Universidad Nacional de Colombia, el cual ofrece el escenario de una organización con múltiples servidores. / Abstract. Web portals are great repositories of information disorganized. Many times maintain a policy of publishing documents is difficult, and eventually each part of the organization publishes its documents in different places in a particular folder structure. Access to documents becomes tedious for those who need a particular document is almost always unknown their location. And although the hyperlinks between documents, often the text that identifies the link is not sufficient to identify the referenced document. For its part, digital libraries focus on the organization of information through libraries that allow you to group similar documents which streamlines the process of searching for specific documents to those who consult them. The creation of digital libraries has become an economical and flexible for the organization of documents on various topics, stored in various formats (text, audio, image, video). In this thesis a management system web digital library of documents is proposed. This system is able to: 1) retrieving and indexing documents on a website, 2) generating a digital library structure based on the content of the web documents and 3) classifying and allowing navigation of the web documents. The indexing and retrieval of the web documents is done through a system of information retrieval extended of the Nutch utility. For generating the structure of the digital library and future classifications, the documents are grouping through a text mining techniques, the system uses tools for preprocessing such as a Lucene, and a conceptual clustering algorithm called LINGO. For exploring and navigating the documents, the system provides a user interface that is composed by a category tree and a graph that relates the different categories with each other through the documents. Additionally, the system has and a management interface that allows setting the system parameters for the processes of indexing and clustering documents. The system of the web digital library proposed was applied to a web site located within the National University of Colombia, which has an environment with multiple servers.

Tipo de documento:Tesis/trabajos de grado - Thesis (Maestría)
Colaborador / Asesor:León Guzmán, Elizabeth
Información adicional:Magister en Ingeniería de Sistemas y Computación.
Palabras clave:Minería de documentos Web; Recuperación de información; Portales Web; Librerías digitales / Document web mining; Information retrieval; Websites; Digital libraries
Temática:0 Generalidades / Computer science, information & general works > 02 Bibliotecología y ciencias de la información / Library & information sciences
6 Tecnología (ciencias aplicadas) / Technology > 62 Ingeniería y operaciones afines / Engineering
Unidad administrativa:Sede Bogotá > Facultad de Ingeniería > Departamento de Ingeniería de Sistemas e Industrial
Código ID:3891
Enviado por : Universidad Nacional de Colombia Biblioteca Digital - Sede Bogotá
Enviado el día :15 Septiembre 2011 14:19
Ultima modificación:15 Septiembre 2011 14:19
Ultima modificación:15 Septiembre 2011 14:19
Exportar:Clic aquí
Estadísticas:Clic aquí
Compartir:

Solamente administradores del repositorio: página de control del ítem

Vicerrectoría de Investigación: Número uno en investigación
Indexado por:
Indexado por Scholar Google WorldCat DRIVER Registry of Open Access Repositories OpenDOAR Metabiblioteca BDCOL OAIster Red de repositorios latinoamericanos DSpace BASE Open archives La referencia Colombiae Open Access Theses and Dissertations Tesis latinoamericanas CLACSO
Este sitio web se ve mejor en Firefox