Escudo de la República de Colombia
Sistema Nacional de Biliotecas - Repositorio Institucional Universidad Nacional de Colombia Biblioteca Digital - Repositorio Institucional UN Sistema Nacional de Bibliotecas UN

Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos

López Forero, Rafael Alfredo (2011) Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos. Maestría thesis, Universidad Nacional de Colombia.

Texto completo

[img]
Vista previa
PDF - Versión Aceptada
Available under License Creative Commons Attribution Non-commercial No Derivatives.

2MB

Resumen

En este trabajo se propone el diseño de un sistema para descubrir conocimiento en la Secretaria Distrital de Salud (SDS), específicamente el detectar patrones y relaciones entre factores de la muestra de citología, el resultado de la muestra, los métodos de planificación y establecer tendencias sobre el comportamiento del cáncer de cuello uterino. Las técnicas a utilizar son basadas en Inteligencia de Negocios y Minería de Datos. Como primer paso se requiere de la integración de los sistemas de información con los que cuenta la SDS, como son: Registro Individual de prestación de servicios (RIPS) y del programa de seguimiento del cáncer de cuello uterino (SCU). Como primer paso, se elaboro el modelo de sistema para identificar el comportamiento de los factores de riesgo del cáncer de cuello uterino. Inicialmente, se presenta el modelo general lógico del sistema para identificar el comportamiento de los factores de riesgo del cáncer de cuello uterino. Se describe cada uno de los elementos considerados en la construcción del modelo. Luego se presenta la arquitectura del modelo, que incluye los pasos seguir en la definición de los modelos de minería. Por último, se presenta el análisis y diseño de la bodega que incluye el diseño del modelo multidimensional, la extracción, trasformación y carga de datos, la construcción e implementación de los cubos OLAP y la generación de reportes de salida. Igualmente, es importante identificar que los reportes se construyeron a partir de los requerimientos del sistema. Como componente de investigación en este proyecto, se diseño e implementó un modelo de minería de datos que permite encontrar patrones y relaciones entre factores de la muestra de citología, el resultado de la muestra, los métodos de planificación y establecer tendencias sobre el comportamiento del cáncer de cuello uterino. Para el proceso de diseño y desarrollo de los modelos de minería de datos se realizó primero la selección, limpieza y transformación de los datos. En esta etapa se realizó el preprocesado y filtrado de los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos). Otra labor que se realizó en la preparación de los datos fue la construcción de atributos, que consiste en construir automáticamente nuevos atributos aplicando alguna operación o función a los atributos originales con objeto de que estos nuevos atributos hicieran más fácil el proceso de minería. Por último en esta etapa se hizo la selección de atributos relevantes. El sistema propuesto en este trabajo ha sido de gran utilidad para la Secretaria Distrital de Salud, y ha sido de gran aporte para la integración de los diferentes sistemas de información. Se ha logrado introducir el concepto de Inteligencia de Negocios en la Entidad. Como producto del trabajo, se realizó el modelo de integración de los sistemas de la Secretaria de Salud e igualmente se construyo una aplicación del concepto de minería de datos, para encontrar las relaciones entre los factores de riesgo de cáncer de cuello uterino. Para esto, se utilizaron los datos de los sistemas de información de la SDS, específicamente los relacionados con las tomas de citologías vaginales. Igualmente, el sistema diseñado, permitió determinar qué factores como el fumar, el iniciar a tener relaciones tempranamente, número de compañeros sexuales, información sobre la planificación, número de partos son factores de riesgo de cáncer de cuello. Igualmente, con los modelos construidos se encuentra que es fácil predecir la presencia de cáncer de cuello uterino si se da la ocurrencia de los factores: Numero de compañeros sexuales, edad de la paciente, edad de inicio de las relaciones sexuales, método de planificación, número de partos, si fuma o no, si es gestante. Por otro lado, combinar clasificadores es una buena alternativa cuando se pretende obtener un modelo de minería de datos. En este sentido se encontró buenos resultados con el modelo de regresión logística y con el modelo de redes neuronales. Por último, a consideración de los expertos cito patólogos de la Secretaria de Salud y considerando que la bodega de datos no se cuenta información de presencia de la infección del virus del papiloma humano, no fue posible a través del proyecto verificar que el principal factor de riesgo de cáncer de cuello uterino es la infección del virus del papiloma humano. Sin embargo, se puede inferir que datos como ser gestante, número de partos, edad de inicio de las relaciones sexuales, que como se vio en los modelos de minería y dado que el virus del papiloma humano se trasmite de una persona a otra durante las relaciones sexuales, se puede concluir que el principal factor de riesgo es la infección del virus del papiloma humano. / Abstract. In this work it intends the design of a system to discover the knowledge in the Health District Secretary (HDS), specifically detecting patterns and relationships between factors of the cytology sample, the result of the sample, the methods of planning and to establish tendencies about the behavior of the cervical cancer. The techniques to use are based on Business Intelligence and Data Mining. As first step it is required the integration of the information systems with which counts the HDS, such as: single record of service delivery (SRSD) and of the program of following of cervical cancer (FCC). As first step, a model of system to identify the behavior of the risk factors of the cervical cancer was elaborated. Initially, the logical general model of the system is presented to identify the behavior of the risk factors of the cervical cancer. Each one of the elements is described took under consideration in the construction of the model. Then the architecture of the model is presented, which includes the steps to follow in the definition of the mining models. Lastly, it is presented the analysis and design of the warehouse which includes the design of the multidimensional model, the extraction, transformation and load of data, the construction and implementation of the OLAP cubes and the generation of output reports. Equally, it is important to identify that the reports were built starting from the requirements of the system. As component of investigation in this project was designed and implemented a model of data mining that allows to find patterns and relationships between factors of the cytology sample, the result of the sample, the methods of planning and to establish tendencies about the behavior of the cervical cancer. For the design process and development of the models of data mining first was carried out the selection, cleaning and transformation of the data. In this stage it was carried out the pre-processing and filtrate of data (so that incorrect, not-valid and unknown values are eliminated,). Another work that was carried out in the preparation of the data was the building of attributes, which consists on to build automatically new attributes applying some operation or function to the original attributes in order to these new attributes made easier the mining process. Lastly in this stage the selection of relevant attributes was made. The system proposed in this work has been of great utility for the Health District Secretary, and it has been of great contribution for the integration of the various information systems. It has been possible to introduce the concept of Business Intelligence in the Agency. As product of the work the integration model of sistems from the Health District Scretary was carried out and equally was building an application of the concept of data mining, to find the relationships between the risk factors of cervical cancer. For this, the data of the information systems of the HDS were used, specifically those related with the takings of vaginal cytologies. Equally, the designed system allowed to determine that factors such as smoking, beginning to have sexual intercourses early, the number of sexual partners, the information about the planning, the number of childbirths, are risk factors of cervical cancer. Equally, with the built models it is found that it is easy to predict the presence of cervical cancer if it presents the occurrence of the factors: number of sexual partners, the age of the patient, age of beginning of the sexual intercourses, method of planning, number of childbirths, smoker or no-smoker, if she is pregnant. On the other hand, to combine classifiers is a good alternative when it is sought to obtain a model of data mining. In this sense good results were found with the model of logistical regression and with the model of neural networks Lastly, to the consideration of experts I quote pathologists of the Health Secretary and considering that the warehouse of data does not have information about the presence of infection of the human papilloma virus, it was not possible through the project to verify that the main risk factor of cervical cancer is the infection of the human papilloma virus. However it can infer that data like being pregnant, the number of childbirths, age of beginning of the sexual intercourses, that as it was seen in the mining models and since the human papilloma virus is transmitted from a person to another during the sexual intercourses, it can conclude that the main risk factor is the infection of the the human papilloma virus.

Tipo de documento:Tesis/trabajos de grado - Thesis (Maestría)
Colaborador / Asesor:León, Elizabeth
Información adicional:MSc. en Ingeniería — Ingeniería de Sistemas y Computación.
Palabras clave:Cáncer de cuello uterino; Minería de datos; Bodega de datos; Regresión logística; Algoritmo de bayes net; Percetron multicapa; Validación cruzada; Inteligencia de negocios; OLAP / Cervical cancer; Data mining; Data warehouse; Logistic regression; Bayes net algorithm; Multilayer percetron; Cross validation; Business intelligence; On line analytical processing
Temática:6 Tecnología (ciencias aplicadas) / Technology > 61 Ciencias médicas; Medicina / Medicine & health
6 Tecnología (ciencias aplicadas) / Technology > 62 Ingeniería y operaciones afines / Engineering
Unidad administrativa:Sede Bogotá > Facultad de Ingeniería > Departamento de Ingeniería de Sistemas e Industrial > Ingeniería de Sistemas
Código ID:3896
Enviado por : Universidad Nacional de Colombia Biblioteca Digital - Sede Bogotá
Enviado el día :13 Septiembre 2011 16:41
Ultima modificación:13 Septiembre 2011 16:41
Ultima modificación:13 Septiembre 2011 16:41
Exportar:Clic aquí
Estadísticas:Clic aquí
Compartir:

Solamente administradores del repositorio: página de control del ítem

Vicerrectoría de Investigación: Número uno en investigación
Indexado por:
Indexado por Scholar Google WorldCat DRIVER Registry of Open Access Repositories OpenDOAR Metabiblioteca BDCOL OAIster Red de repositorios latinoamericanos DSpace BASE Open archives La referencia Colombiae Open Access Theses and Dissertations Tesis latinoamericanas CLACSO
Este sitio web se ve mejor en Firefox