Escudo de la República de Colombia
Sistema Nacional de Biliotecas - Repositorio Institucional Universidad Nacional de Colombia Biblioteca Digital - Repositorio Institucional UN Sistema Nacional de Bibliotecas UN

Transformación automática de texto a grafos conceptuales

Ordóñez Salinas, Sonia (2011) Transformación automática de texto a grafos conceptuales. Doctorado thesis, Universidad Nacional de Colombia.

Texto completo

[img]
Vista previa
PDF - Versión Aceptada
Available under License Creative Commons Attribution Non-commercial No Derivatives.

2MB

Resumen

Dentro de las estructuras computacionales utilizadas para el procesamiento del lenguaje natural, se encuentran los grafos conceptuales (GCs) que por sus ventajas se pueden convertir en un instrumento eficiente para la representación formal del significado del texto. Usualmente los GCs son creados utilizando una estructura sintáctica que es modificada hasta obtener los GCs, lo que involucra dos procesos costosos: el análisis sintáctico y la transformación al los GCs. Esta tesis propone dos soluciones más simples para la transformación directa de texto a grafos conceptuales, sin involucrar una estructura intermedia. Una solución es a través de la construcción de una gramática especializada. Dicha gramática se crea de forma automática a partir de un recurso léxico existente construido para otro fin. Otra solución propuesta, es a través del desarrollo de un analizador sintáctico basado en un método estadístico no supervisado y pobre en conocimiento. El método usa las estadísticas de coocurrencia de las palabras en un corpus grande (o en Internet) y permite obtener estructuras simplificadas de GCs. Cabe mencionar que para su entrenamiento no se requiere ningún trabajo manual previo ya que se basa en un corpus no preparado, más aún, sólo se requieren las estadísticas de coocurrencia y no se requiere el acceso al corpus mismo, lo que es importante en el caso del uso de los motores de búsqueda en Internet como la fuente de información estadística. / Abstract. One of the computational structures used in natural language processing is the Conceptual Graphs (CGs), which thanks to their advantages can become an efficient tool for formal representation of the meaning of the text. GCs are usually created using some syntactic structure that is modified to obtain the CGs. This involves two costly processes: parsing and transformation to the CGs. This thesis proposes two simpler solutions for converting text to conceptual graphs directly, without involving an intermediate structure. One solution is through the construction of a specialized grammar. This grammar is automatically created from an existing lexical resource that has been built for another purpose. The other proposed solution is through the development of a parser based on a knowledge-poor unsupervised statistical method. The method uses co-occurrence statistics of words in a large corpus (or Internet) and generates simplified CG-like structures. It should be mentioned that the training process does not require any previous manual work because it is based on a raw text corpus. Moreover, it only requires the co-occurrence statistics and does not require access to the corpus itself, which is important for the use of Internet search engines as the source of statistical information.

Tipo de documento:Tesis/trabajos de grado - Thesis (Doctorado)
Colaborador / Asesor:Gelbukh, Alexander
Información adicional:Doctor en Ingeniería de Sistemas y Computación
Palabras clave:Procesamiento de lenguaje natural; Lingüística computacional; Grafos conceptuales; Análisis sintáctico no supervisado; Gramática especializada / Natural language processing; Computational linguistics; Conceptual graphs; Unsupervised parsing; Specialized grammar
Temática:0 Generalidades / Computer science, information & general works
6 Tecnología (ciencias aplicadas) / Technology > 62 Ingeniería y operaciones afines / Engineering
Unidad administrativa:Sede Bogotá > Facultad de Ingeniería > Departamento de Ingeniería de Sistemas e Industrial
Código ID:4095
Enviado por : Universidad Nacional de Colombia Biblioteca Digital - Sede Bogotá
Enviado el día :17 Agosto 2011 13:34
Ultima modificación:30 Dec 2011 14:32
Ultima modificación:30 Dec 2011 14:32
Exportar:Clic aquí
Estadísticas:Clic aquí
Compartir:

Solamente administradores del repositorio: página de control del ítem

Vicerrectoría de Investigación: Número uno en investigación
Indexado por:
Indexado por Scholar Google WorldCat DRIVER Registry of Open Access Repositories OpenDOAR Metabiblioteca BDCOL OAIster Red de repositorios latinoamericanos DSpace BASE Open archives La referencia Colombiae Open Access Theses and Dissertations Tesis latinoamericanas CLACSO
Este sitio web se ve mejor en Firefox