Escudo de la República de Colombia
Sistema Nacional de Biliotecas - Repositorio Institucional Universidad Nacional de Colombia Biblioteca Digital - Repositorio Institucional UN Sistema Nacional de Bibliotecas UN

Sistema de Recuperación de Información Utilizando Índices Combinados de Términos y Extracción de Información

Ariza Ladino, Carlos Fernando (2012) Sistema de Recuperación de Información Utilizando Índices Combinados de Términos y Extracción de Información. Maestría thesis, Universidad Nacional de Colombia.

Texto completo

[img]
Vista previa
PDF - Versión Aceptada
Available under License Creative Commons Attribution Non-commercial No Derivatives.

1MB

Resumen

En este trabajo se presenta un sistema de recuperación de información basado en índices combinados de términos y extracción de información. Este sistema utiliza entidades nominales y correferencias para enriquecer a un índice combinado de términos, con el _n de disminuir el tiempo de búsqueda requerido para solucionar consultas basadas en frases y obtener mayor cantidad de documentos solución. Para esto se hace uso de un índice de frases parciales que almacena n-gramas basados en entidades nominales y palabras de alta frecuencia. El sistema también posee un modelo de clasificación jerárquica de documentos recuperados que asume que la consulta es un único término. Los resultados obtenidos demuestran que el uso del índice de frases propuesto como alternativa del índice de frases parciales tradicional permite disminuir el tiempo de búsqueda para las consultas que contienen entidades nominales y que la resolución de correferencias en los documentos tiene gran potencial para mejorar la medida de recuerdo del sistema. / Abstract. In this document an information retrieval system based on combined indexes and information extraction is shown. The system uses named entity recognition and coreference resolution to add information to a combined index in order to decrease the search time employed for solving phrase queries and to obtain greater quantities of retrieved documents. The combined index includes a proposed partial phrase index that stores n-grams based on named entities and stopwords. The system also uses a ranking retrieval model that assumes that the query is a single term. The results obtained with our system as compared to the traditional partial phrase index, decreases the search time for solving phrase queries. It is also concluded that the coreference resolution process is potentially a great tool for improving the recall measure of the system.

Tipo de documento:Tesis/trabajos de grado - Thesis (Maestría)
Colaborador / Asesor:León Guzmán, Elizabeth
Información adicional:Magister en Ingeniería - Sistemas y computación. Línea de Investigación: Recuperación y Extracción de Información. Grupo de Investigación: MIDAS
Palabras clave:Índice de Frases; Recuperación de Información; Extracción de Información; Reconocimiento de Entidades Nominales; Resolución de Correferencias; Clasificación Jerárquica / Phrase index; Information Retrieval; Information Extraction; Named entity recognition; Coreference resolution
Temática:0 Generalidades / Computer science, information & general works
Unidad administrativa:Sede Bogotá > Facultad de Ingeniería
Código ID:7020
Enviado por : Universidad Nacional de Colombia Biblioteca Digital -1-Sede Bogotá
Enviado el día :23 Julio 2012 16:35
Ultima modificación:11 Oct 2012 14:52
Ultima modificación:11 Oct 2012 14:52
Exportar:Clic aquí
Estadísticas:Clic aquí
Compartir:

Solamente administradores del repositorio: página de control del ítem

Vicerrectoría de Investigación: Número uno en investigación
Indexado por:
Indexado por Scholar Google WorldCat DRIVER Registry of Open Access Repositories OpenDOAR Metabiblioteca BDCOL OAIster Red de repositorios latinoamericanos DSpace BASE Open archives La referencia Colombiae Open Access Theses and Dissertations Tesis latinoamericanas CLACSO
Este sitio web se ve mejor en Firefox