Escudo de la República de Colombia
Sistema Nacional de Biliotecas - Repositorio Institucional Universidad Nacional de Colombia Biblioteca Digital - Repositorio Institucional UN Sistema Nacional de Bibliotecas UN

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

Cadavid Rengifo, Héctor Fabio and Gómez Perdomo, Jonatan (2010) Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas. Ingeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 Ingeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 2248-8723 0120-5609 .

Texto completo

[img]
Vista previa
PDF
578kB
[img] Sin Definir

URL oficial: http://revistas.unal.edu.co/index.php/ingeinv/arti...

Resumen

En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervi- sado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las altera- ciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus pa- ra esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener mues- tras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabi- lidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis., Internet content, used as text corpus for natural language learning, offers important characteristics for such task, like its huge vo- lume, being permanently up-to-date with linguistic variants and having low time and resource costs regarding the traditional way that text is built for natural language machine learning tasks. This paper describes a system for the automatic extraction of large bodies of text from the Internet as a valuable tool for such learning tasks. A concurrent programming-based, hardware-use opti- misation strategy significantly improving extraction performance is also presented. The strategies incorporated into the system for maximising hardware resource exploitation, thereby reducing extraction time are presented, as are extendibility (supporting digi- tal-content formats) and adaptability (regarding how the system cleanses content for obtaining pure natural language samples). The experimental results obtained after processing one of the biggest Spanish domains on the internet, are presented (i.e. es.wikipedia.org). Such results are used for presenting initial conclusions about the validity and applicability of corpus directly ex- tracted from Internet as morphological or syntactical learning input.

Tipo de documento:Artículo - Article
Información adicional:Los autores o titulares del derecho de autor de cada artículo confieren a la revista Ingeniería e Investigación de la Universidad Nacional de Colombia una autorización no exclusiva, limitada y gratuita sobre el artículo que una vez evaluado y aprobado se envía para su posterior publicación ajustándose a las siguientes características: 1.    Se remite la versión corregida de acuerdo con las sugerencias de los evaluadores y se aclara que el artículo mencionado se trata de un documento inédito sobre el que se tienen los derechos que se autorizan y se asume total responsabilidad por el contenido de su obra ante la revista Ingeniería e Investigación, la Universidad Nacional de Colombia y ante terceros. 2.    La autorización conferida a la revista estará vigente a partir de la fecha en que se incluye en el volumen y número respectivo de la revista Ingeniería e Investigación en el Sistema Open Journal Systems y en la página principal de la revista (www.revistaingenieria.unal.edu.co), así como en las diferentes bases e índices de datos en que se encuentra indexada la publicación. 3.    Los autores autorizan a la revista Ingeniería e Investigación de la Universidad Nacional de Colombia para publicar el documento en el formato en que sea requerido (impreso, digital, electrónico o cualquier otro conocido o por conocer) y autorizan a la revista Ingeniería e Investigación para incluir la obra en los índices y buscadores que estimen necesarios para promover su difusión. 4.    Los autores aceptan que la autorización se hace a título gratuito, por lo tanto renuncian a recibir emolumento alguno por la publicación, distribución, comunicación pública y cualquier otro uso que se haga en los términos de la presente autorización.
Palabras clave:Web Corpus, crawler, unsupervised language learning, concurrent programming, corpus web, crawler, aprendizaje no supervisado de lenguajes, programación concurrente
Unidad administrativa:Revistas electrónicas UN > Ingeniería e Investigación
Código ID:19229
Enviado por : Dirección Nacional de Bibliotecas STECNICO
Enviado el día :25 Junio 2014 22:54
Ultima modificación:19 Agosto 2014 04:12
Ultima modificación:19 Agosto 2014 04:12
Exportar:Clic aquí
Estadísticas:Clic aquí
Compartir:

Solamente administradores del repositorio: página de control del ítem

Vicerrectoría de Investigación: Número uno en investigación
Indexado por:
Indexado por Scholar Google WorldCat DRIVER Registry of Open Access Repositories OpenDOAR Metabiblioteca BDCOL OAIster Red de repositorios latinoamericanos DSpace BASE Open archives La referencia Colombiae Open Access Theses and Dissertations Tesis latinoamericanas CLACSO
Este sitio web se ve mejor en Firefox