Descargar - ISIT 2015

MÁQUINÁ DE ÁPRENDIZÁJE HIBRIDO PÁRÁ EL
DIÁGNOSTICO TEMPRÁNO DE CÁNCER DE MÁMÁ
CENTENO LEGUÍA, James, CORTEZ VÀSQUEZ, Augusto Parcemón Members Universidad
Nacional Mayor de San Marcos - Peru,
[email protected], [email protected]
Abstract— Breast cancer is a disease with high number of
cases in the country, also is cancer that has a higher rate
than people who are cured if detected the disease in early
stages of the disease, but is now the third cancer generating
more number of deaths in women of Peru. This research is
an effort to contribute to a diagnosis of Breast Cancer more
effective, building a tool to support the medical diagnosis,
which allows a more efficient analysis of mammography,
contributing to reduce the error rate in the diagnosis of
Breast Cancer . This tool uses the technique of multilevel
support vector machine for being the best performance is
based on an analysis of several studies that have been
conducted, surpassing classical statistical techniques,
techniques of neural networks, genetic algorithms..
Keywords: Support Vector Machine, Breast Cancer, Machine
Learning, hybrid machine learning
I. INTRODUCCION
E
L cáncer es una enfermedad bastante antigua, pero no
reconocida por la baja expectativa de vida. Pero que hoy,
los niveles de calidad de vida han aumentado y con ello
las posibilidades de que una persona pueda vivir mucho
más tiempo, es en este escenario en donde el cáncer se
vuelve protagonista puesto que la degeneración celular es
un síntoma de la vejez y en una causa muy probable de
cáncer, haciendo que hoy en día se encuentre entre las
primeras causas de muerte [Who04].
Las máquinas de aprendizaje híbrido han sido
implementadas para resolver el problema de diagnóstico
de cáncer en diferentes investigaciones, en cada una con
diferentes resultados y técnicas utilizadas, consiste
básicamente en coger lo bueno de cada técnica que
podamos integrar y obtener una mejor técnica. De esta
manera se abre un conjunto de posibilidades con relación
a las técnicas que se pueden aplicar.
1.1
Antecedentes del problema
La tarea de diagnóstico que actualmente se realiza en los
hospitales del Perú, requiere del análisis de un conjunto
de diversas variables que requiere que el médico tenga
que realizar muchos análisis de una muestra en un tiempo
corto, por lo que este diagnóstico no garantiza ser
completamente eficiente y confiable, en especial en
estadios de la enfermedad donde no es muy apreciable su
presencia y donde se podría curar con una mayor
facilidad. El número de casos de cáncer de mama
diagnosticados en un estadio avanzado en el Perú es
demasiado alto [MINSA12], esto causado principalmente
a que la tarea de diagnóstico de cáncer de mama que
realiza el médico no cuenta con una herramienta que
garantice un diagnóstico efectivo en las primeras etapas
de la enfermedad, donde se puede acceder a tratamientos
Fig. 1 Muestra la distribución de muertes por diversas
enfermedades que se dieron entre los años 1999 y 2001
[Lopez+01]
menos invasivos y que menos secuelas dejan en
comparación a los tratamientos para prolongar la vida a
las que son sometidos los pacientes de etapas más En el
año 2001 se muestra un estudio realizado a toda un
población entre los años 1999 y 2001 el cual dio los
resultados de la Figura 1. Donde se puede apreciar que el
cáncer es una enfermedad que más muertes ha
ocasionado considerando los diversos órganos en los que
se ha presentado. El año 2004 se realizó un estudio de la
mortalidad tal lo muestra la Figura 2, que tienen las
enfermedades tanto transmisibles, no transmisibles y
otros, en este documento menciona el impacto que tiene
el cáncer en estas estadísticas, siendo mencionado
recurrentemente por las enfermedades con mayores
muertes en diferentes campos y listas.
Perú con 130 muertes por 100000 personas [WHS12].
•
En el 2013 en el informe publicado menciona a
Perú con 130 personas fallecidas por cada 100000.
[WHS1].
Estos reportes nos muestran que año tras año el cáncer
ha estado afectando a la población peruana dando como
resultado la muerte de entre un 0.5% – 1% de la
población del Perú anualmente, estas estadísticas hacen
que desde el año 2012 el Ministerio de Salud apoyado por
instituciones como la Liga de Lucha Contra el Cáncer y
ONGs, promueva y establezca al Cáncer como problema
de Salud Pública, por repercusiones que tiene en la
población peruana, desempeñándose principalmente en
promover las prácticas saludables y la generación de
costumbre de visita médica, de tal manera que se pueda
detectar los inicios de Cáncer en Fases tempranas de la
enfermedad, donde se tiene un mayor posibilidad de cura
y prolongamiento de la vida con una mejor calidad de
vida.
II. MARCO TEÓRICO
Aspecto medico
2.1 Diagnóstico Médico
El diagnóstico se basa en el análisis de datos seguros.
El razonamiento solo será válido cuando descanse sobre
nociones exactas y hechos precisos, pero cuando no se
cumplen estos principios los resultados siempre serán
erróneos. La validez de una deducción depende de la
calidad de las observaciones en que ella se basa, como lo
mencionan en [Diaz+06]Teniendo en cuenta estos
principios, es indispensable exponer algunas premisas
básicas sobre las que se apoya el diagnóstico médico.
Fig. 2 Muestra la mortalidad a nivel mundial, registrada
en el 2004[Who04].
1.2 Problema General
El problema es la baja precisión del diagnóstico médico
a partir de mamografías de Cáncer de Mama.
1.3 Objetivo General
Desarrollar una herramienta basada en una máquina
de soporte vectorial que sirva de apoyo al diagnóstico
médico a partir de mamografías en casos de cáncer de
mama.
1.4 Justificación
Llegado a este punto, tenemos que analizar el impacto
que tuvo el cáncer a los largo de los años en Perú,
basándonos en la misma organización que realiza el
reporte a nivel mundial.
•
Es importante mencionar que según un estudio
estadístico realizado por World Health Stadistic señala
que el Perú fallecieron por causas de cáncer 175 personas
por cada 100000 personas [WHS06].
•
Esta cifra de 175 personas se mantuvo en el año
2007 según la misma organización [WHS07]. Para el 2008
la cifra continua constante en 175 [WHS08].
•
En el año 2009 esta cifra cambio descendiendo a
163 personas [WHS09].
•
Hacia el 2012 el formato volvió y reconoció al
2.2 Mama
Las glándulas mamarias caracterizan, entre otros
rasgos, a los mamíferos. Aparecen muy precozmente en el
embrión, y a lo largo de la vida de la mujer van sufriendo
las distintas fases evolutivas que se corresponden con los
ciclos biológicos femeninos como lo menciona
[Gonzales08] al indicar que están presentes con
diferentes funciones en el paso de la vida. Al terminar la
actividad sexual de la mujer, en la menopausia, la
glándula involuciona y tiende a la atrofia.
Aspecto tecnológico
2.3 Inteligencia artificial
Definida en 1956 por el informático del MIT John
McCarthy como : ‘la ciencia e ingeniería de hacer
máquinas inteligentes, especialmente programas de
cómputo inteligente’.
Se puede simplificar diciendo que la inteligencia
artificial (IA) [Borrajo09] [AEPIA15] está conformada por
las inteligencias no naturales en especímenes no vivos.
Dentro del ámbito de la inteligencia artificial podemos
distinguir distintos tipos de conocimientos y de sistemas
de representación de dichos conocimientos, los cuales
pueden ser aprendidos por la máquina o introducidos en
su memoria por un agente experto.
2.4 Inteligencia computacional
La inteligencia computacional es la rama de la I.A.
conocida como subsimbólica-inductiva que implica
aprendizaje interactivo basado en datos empíricos. Se
centra en el estudio de mecanismos adaptativos que
permitan al sistema comportarse de manera inteligente
sin emplear algoritmos heurísticos, como hace la
inteligencia artificial convencional. Combina elementos de
aprendizaje, evolución, adaptación y lógica difusa, sin
dejar de lado elementos estadísticos, pero siempre en
segundo plano, que aportan un soporte complementario
para los programas y algoritmos..
2.5 Máquina de aprendizaje híbrido
Es un concepto que resume a las máquinas de
aprendizaje automático que hacen uso de más de una
técnica convencional y clásica en uno o varios de sus
procesos de análisis de datos. Algunas técnicas
importantes que se harán revisión en este documento son
las siguientes:
2.5.1 Máquina de Soporte Vectorial
Son un conjunto de algoritmos de aprendizaje
supervisado desarrollados por Vladimir Vapnik y su
equipo en los laboratorios AT&T. Estos métodos están
propiamente relacionados con problemas de clasificación
y regresión. Dado un conjunto de ejemplos de
entrenamiento (de muestras) podemos etiquetar las
clases y entrenar una SVM para construir un modelo que
prediga la clase de una nueva muestra. Intuitivamente,
una SVM es un modelo que representa a los puntos de
muestra en el espacio, separando las clases por un
espacio lo más amplio posible. Cuando las nuevas
muestras se ponen en correspondencia con dicho modelo,
en función de su proximidad pueden ser clasificadas a una
u otra clase. Más formalmente, una SVM construye un
hiperplano o conjunto de hiperplanos en un espacio de
dimensionalidad muy alta (o incluso infinita) que puede
ser utilizado en problemas de clasificación o regresión.
Una buena separación entre las clases permitirá una
clasificación correcta[Cortez+2011], [Hernandez+2011].
2.5.2 Máquina de Soporte Vectorial Multinivel
Los vectores de soporte determinan la información de
conocimiento que tiene una muestra. De esta manera se
construye una distribución en donde un Vector de
Soporte puede guardar la información necesaria para
almacenar el conocimiento que la muestra de datos
provee.
El trabajo de entrenamiento de esta máquina de
aprendizaje radica en la modificación de la posición de los
vectores de soporte de tal manera que necesariamente se
tenga una de las muestras como posible plantilla para
poder comparar nuevas muestras que pertenezcan a una
misma población con características similares por la
técnica de validación de datos que está utilizando.
de las cuáles se obtuvo el análisis en razón de métricas de
sus mamografías anonimizadas.
3.2 Metodología
Methodologies CRISP-DM (CRoss-Industry Standard
Process for Data Mining)
La metodología CRISP-DM es un estándar es la
industria de la minería de datos el cual es bastante
utilizado con buenos resultados tal como lo manifiestan
en la referencia [Palacios10], Presenta las siguientes
actividades:
Comprensión del Negocio o Problema.
Comprensión de los Datos
Preparación de los Datos
Modelado de Datos
Evaluación del Modelo
Despliegue e Implementación
3.3 Herramienta
Se utilizó:
Lenguaje de Programación:
Entorno de Desarrollo:
Java (JDK 1.8)
Netbeans 8.0
Estas tecnologías sustentadas en que se puedan
realizar posteriores estudios con facilidad y puesto que se
encuentra extendido en el mercado actual del Perú
IV. DESARROLLO DE LA SOLUCIÓN
Se utilizó la metodología CRISP-DM es un estándar es
la industria de la minería de datos el cual es bastante
utilizado con buenos resultados tal como lo manifiestan
en la referencia [Palacios10], es por ello que se determina
utilizar esta metodología para la presente investigación.
4.1 Comprensión del Negocio o Problema.
El negocio en el cuál se va aplicar en el Seguro Social de
Salud - ESSALUD, específicamente en la Oficina de
Planeamiento e Inteligencia Sanitaria, en donde se
realizan los análisis epidemiológicos y se proponen
medidas de acción para el tratamiento de las
enfermedades. Esta oficina se encuentra en el
organigrama de ESSALUD en la gerencia de línea:
Prestaciones de Salud, la cual se aprecia mejor en la
Figura 3, donde se muestra el organigrama interno de la
Gerencia de Central de Prestaciones de Salud.
III. METODOLGIA Y HERRAMIENTAS
3.1 Población y muestra
La población estuvo conformada por 1250 mujeres, el
cual es el promedio mensual de pacientes, a partir de los
35 años, atendidas en el servicio de mamografía del
Hospital Nacional Edgardo Rebagliati Martins. Para fines
de la presente investigación se consideró una muestra de
487 mujeres a razón del mejor desempeño del algoritmo,
Fig. 3 Estructura Orgánica de la Gerencia de
Prestaciones de Salud.
En la Oficina de Planeamiento e Inteligencia Sanitaria
actualmente se tiene una base de datos de muestras de
Cáncer de Mama, que se encuentra construida de tal
manera que la organización de los datos de la muestra
estén organizados de manera semejante a la base de datos
pública de la Universidad de Wisconsin. Esto garantiza
que sea posible desarrollar un aplicativo que utilice
técnicas que se probaron en un escenario distinto pero
que por la estructura puedan tener un desempeño
superior.
4.2 Comprensión de los Datos
Los datos para la investigación proceden de las
mamografías anónimas las cuales son proveídas y
analizadas por personal de ESSALUD efectuando un
informe el cual contenga variables a nivel de datos
numéricos que permitan aplicar una técnica de minería
de datos sobre los mismos. Las variables estarán
codificadas con valores enteros entre 1 y 10 siendo las
siguientes:
Clump thickness
Uniformity of cell size
Uniformity of cell shape
Marginal adhesion
Single epithelial cell size
Bare nuclei
Bland chromatin
Normal nucleoli
Mitosis
4.3 Preparación de los Datos
La preparación de los datos se encuentra a partir del
diagnóstico que emita un médico con ayuda de un
software denominado Kateron Pacs (Fig 4)el cuál permite
obtener datos con una alta exactitud a partir de las
Imágenes Médicas.
Fig. 4 Software de análisis de imágenes médicas.
Actualmente se realiza un estudio sobre 532 muestras
que se han tomado del año 2005 de las cuales se tiene un
holgura para la limpieza en caso de imágenes defectuosas
de 32 imágenes, teniendo finalmente un conjunto de
imágenes de prueba de 500 muestras para estudio.
4.4 Modelado de Datos
El modelado de los datos se realiza con validación
cruzada que permita mayor precisión de los datos.
Utilizando la revisión del estado del arte realizada se
procede a seleccionar el modelo utilizado por
[Nasser+10] donde se tiene un modelo completo para el
abordaje de los diversos tipos de cáncer(Fig 5).
Fig. 5 Modelo de Análisis de Datos
4.5 Evaluación del Modelo
La validación del modelo aplicado según [Nasser+10]
es preferible una validación cruzada que estratificado
puesto que la precisión de los datos es más confiable para
muestras médicas que se utilicen.
4.6 Despliegue e Implementación
Luego de la fase de evaluación del modelo se desarrolla
el despliegue en donde se tiene planificado un primer
programa piloto en el Hospital Rebagliati donde se tiene
el mayor índice de pacientes más constantes. Como
segunda etapa se procederá a implementar en los
hospitales nacionales y nivel IV que cuenten con los
profesionales para realizar el levantamiento de la
información. En esta etapa se procederá a evaluar la
situación del proyecto y definir si se desarrolla para otros
tipos de cáncer o en su defecto se despliegue sólo a nivel
de cáncer de mama.
4.7 Consideraciones técnicas con relación al desarrollo
de los algoritmos.
Se utilizó un conjunto de datos de la universidad de
Winsconsin Breast Data Set. El conjunto de datos que
estamos utilizando contiene los detalles de biopsia
tomadas de Wisconsin Hospitales. Se recogió por Wolberg
y Mangasarian en la Universidad del Hospital de
Wisconsin-Madison en 1990 y está disponible en la UCL
repositorio de aprendizaje automático. Hay nueve
atributos con uno variable de clase. El resultado se
representa como clase 2 para una benigna celular y 4 para
la célula maligna. Los valores no son originales como
todos los valores se escalan intervalo 1-10. Hay 478 casos
fuera de los cuales 16 casos fueron incompletos. Hemos
eliminado las 16 instancias y los casos restantes se
distribuyeron de la 315 para casos benignos y 147 para
maligna. Los nueve atributos son las siguientes.
Clump thickness
Uniformity of cell size
Uniformity of cell shape
Marginal adhesion
Single epithelial cell size
Bare nuclei
Bland chromatin
Normal nucleoli
Mitosis
Class variable
Se han realizado diversos estudios en el campo de
clasificación de cáncer de mama utilizando estos atributos
[18].
4.8 Validaciones y pruebas del Sistema.
El desarrollo que se realizó fue en base a los
requerimientos formulados por profesionales de
medicina a los cuales se les consulto sobre los resultados
que se deberían poder observar quedando descrito de la
siguiente manera:
Secciones Desarrolladas del Sistema.
4.8.1 Sección de presentación de datos.
En donde se presentan los datos correspondientes a las
272 muestras que se tienen estudiadas y catalogadas.
Actualmente se encuentra compuesto del total de los
campos requerido y adicionado por 3 campos de control
que se utiliza para realizar un análisis de corrección de las
variables y de los cambios que se vean recomendados
según la obtención de datos.
En esta sección se presentan también un análisis del
conjunto total de los datos que se requieren y que
posteriormente se analizan, permitiendo brindar una
auditoría interna de los datos. Originalmente se presenta
esta interface para organizar el conjunto de épocas que se
requiere para tener una red entrenada y que permita
determinar según un conjunto de parámetros cuales son
las conclusiones respecto a un conjunto de datos.
4.8.2 Sección de leyenda.
En donde se presenta la descripción de cada uno de los
campos de la presentación, los mismos que se tienen a
partir de los atributos de información que se tienen (Fig
6):
# Attribute
Domain
-- ----------------------------------------1. Sample code number id number
2. Clump Thickness
1 - 10
3. Uniformity of Cell Size
1 - 10
4. Uniformity of Cell Shape 1 - 10
5. Marginal Adhesion
1 - 10
6. Single Epithelial Cell Size 1 - 10
7. Bare Nuclei
1 - 10
8. Bland Chromatin
1 - 10
9. Normal Nucleoli
1 - 10
10. Mitoses
1 - 10
11. Class: (2 for benign, 4 for malignant)
Fig 6 Tabla de valores de las variables..
4.8.3 Sección de predicción
En donde se realizan los cálculos de los datos y se
generan los reportes en Excel para que sean analizados
finalmente por médicos.
Esta es el área que nos genera y nos reporta la mayor
carga de procesamiento en la que se encarga del
entrenamiento de la red y que de esta manera se pueda
calcular los vectores de soporte.
4.8.4 Sección de Restricciones
Sirve para poder modificar ligeramente los análisis de
tal manera que se ajuste a las características específicas
de un paciente.
La sección de características permite eliminar y/o
incluir una variable para el tema de la explotación de la
Red Neuronal o Máquina de Soporte Vectorial. Esta es una
opción que es agregada a razón de la recomendación de
un usuario del sistema que opina que en caso de
presentarse una determinada combinación o valor de un
valor entonces se tiene una conclusión muchísimo más
rápida y probablemente mucho más exacta que lo que
puede diagnosticar una sistemas por sí solo.
De esta manera se eliminan datos que puedan
interferir negativamente con los datos de la entrada y los
mismos puedan afectar a las variables sensibles de los
algoritmos haciendo que los mismos sean mucho más
consistentes.
Como criterio propio no se recomienda para las tareas
de entrenamiento puesto que hace que el sesgo fruto de
esa restricción manipule negativamente la fuente de datos
para mostrar un hiperplano que no necesariamente sea el
que presente la mayor distancia.
4.8.5 Validación Cruzada Aleatoria.
Consiste en el método derivado de utilizar la validación
cruzada pero en esta prueba se necesita que se tengan dos
subconjuntos de datos de tal manera que el
dimensionamiento que tienen estos mismos sea aleatorio
e independiente del total de muestras que se haya
realizado en una época anterior de entrenamiento.
Fig 7 Explicación gráfica de la validación cruzada.
La validación cruzada es una técnica ampliamente
usada [Zhong+12] que principalmente se caracteriza por
ser mucho más fina con la construcción del modelo de
prueba y la obtención de la función de clasificación.
Independientemente de cualquier herramienta que se
utilice ha probado ser de los mejores métodos de pruebas
que se han utilizado y probado en otros estudios
anteriormente referenciados y que han demostrado de
esta manera que este método es efectivo.
Como mayor ventaja que posee es que el afinamiento a
la muestra obtenida es la más óptima para el conjunto de
entrada puesto que se enfoca en la atención de un solo
conjunto de datos y su propia optimización sin esperar
posible variaciones en la muestra que se tiene
Entre las desventajas que tiene este método es que en
caso de no tener una buena muestra de datos, los mismos
no pueden ser utilizados porque la función de
clasificación que se obtiene es específica para la muestra
de entrenamiento no siendo adaptable para otras
muestras.
4.9 Pruebas del Sistema.
Las pruebas del sistema se realizaran por los
siguientes parámetros, siendo estos los que determinen
cuál de los algoritmos tiene un mayor desempeño.
•
Especificidad: La especificidad puede ser definida
como la relación del número de los verdaderos positivos
(El resultado) y el número total de registros, es decir, el
número de benigna que ha sido correctamente
clasificados / número total de benigna instancias.
TP/(TP+FN)
•
Sensibilidad: La sensibilidad puede ser definida
como la relación del número de correctos registros
malignos clasificados y número total de maligno registros.
es decir,
TN / (TN + FP)
•
Precisión: Es la relación del número total de
benigna clasificado como benigna y maligna clasificado
como malignos con el número total de instancias. es decir,
(TP + TN) / (TP + TN + FP + FN)
Las pruebas al sistema se realizaron en un ambiente
determinando los siguientes resultados para los datos de
entrada que se tienen siendo la Sensibilidad (capacidad
para detectar la ausencia de la enfermedad en sujetos
enfermos) y la Especificidad (capacidad de la prueba para
detector la ausencia de la enfermedad en sujetos sanos)
Esta prueba generó la siguiente curva ROC que
básicamente es la intersección de la Especificidad y la
Sensibilidad en una curva que registra el conjunto de
comportamientos que han tenido según un determinado
medio.
Finalmente se complete el algoritmo que determina
que tan preciso ha sido el sistema determinando los casos
positivos y casos negativos. Para el caso del usuario lo que
se elige es una prueba muy sensible porque se prefiere
obtener falsos positivos en lugar de falsos negativos, es
decir que el número de enfermos sin detector sea mínimo.
Este es un ejemplo claro para las campañas de
epidemiología en donde se busca una mayor sensibilidad.
Es importante determinar que se requiere o no un valor
alto en especificidad puesto que es variable según la
época de entrenamiento.
V. RESULTADOS
Actualmente se hicieron pruebas con un total de 478
muestra, a través de las cuales se obtuvieron los
resultados de la Figura 5.3, donde se puede concluir que
se tiene un sistema con una alta tasa de acierto en
comparación otros estudios se encuentra altamente
posicionado.
MLS
VM
Specifi
city
Sensiti
vity
Accur
acy
97.25
91.23
95.75
Figura 5.1.
Resultados obtenidos
Especificidad del sistema
Es la probabilidad de clasificar correctamente a un
individuo sano, es decir es la proporción de verdaderos
negativos identificados por la prueba del total de sanos.
En relación a la especificidad del sistema, se puede
comentar que la capacidad para determinar si una
persona sana tiene ausencia de cáncer es bastante alta. Lo
cual lo sitúa como una herramienta de descarte de cáncer
de mamá muy eficiente y comparable con estudios que se
han realizado siendo muy superior a los métodos
estadísticos o sometidos al riesgo del diagnóstico
humano.
Sensibilidad de sistema
Sensibilidad (fracción de verdaderos positivos). Es la
probabilidad de clasificar correctamente a un caso como
enfermo, es decir es la proporción de verdaderos
positivos identificados por la prueba del total de
enfermos. En relación a la Sensibilidad del sistema es
media/baja en comparación de estudios que se han
realizado en otras ramas, pero que aún eso es muchísimo
más superior que los métodos estadísticos actualmente
utilizados y aun siendo mucho mejor que el juicio de
expertos a los que se someten las imágenes actualmente.
Este porcentaje refleja el número de casos de personas
enfermas a las cuales se les diagnostique cáncer, más
conocido como los falsos negativos, siendo personas que
se encuentran desarrollando la enfermedad pero su
diagnóstico fue errado y no se tiene clara la situación que
actualmente se tiene.
VI. CONCLUSIONES
•
Uno de los problemas que se reviste de real
interés es el cáncer de mama dado el alto número de
casos registrados en el país así como el que tiene un
mayor índice de curación en caso de detectarse la
enfermedad en etapas tempranas.
•
En esta investigación se pone de relieve que
hemos puesto en la práctica la implementación de la
técnica MLSVM (Máquina de Soporte Vectorial Multinivel)
caracterizándolo como un máquina de aprendizaje
automático, logrando que tenga un porcentaje de acierto
95.75% lo que al ser utilizado por un médico reduciría el
número de falsos positivos actualmente.
•
La máquina de aprendizaje híbrido MLSVM, es
una técnica que ha demostrado obtener resultados altos,
competentes a la de investigaciones de vanguardia que
actualmente se utilizan.
•
Para esta investigación se comprueba que la
utilización de una técnica proveniente de publicaciones
en revistas indexadas que aún no se muestra en su etapa
comercial mejora los resultados esperados.
•
Esta investigación ha demostrado que se puede
utilizar un origen de datos construidos en similares
características con el Breast Cancer Winsconsin Data Set,
de manera satisfactoria para su posterior aplicación.
•
La
herramienta
desarrollada
permitió
incrementar la precisión del diagnóstico médico a partir
de mamografías de Cáncer de Mama.
•
En relación a la especificidad del sistema, es
decir la proporción de verdaderos negativos identificados
por la prueba del total de sanos, se concluye que la
capacidad para determinar si una persona sana tiene
ausencia de cáncer es bastante alta. Lo cual lo sitúa como
una herramienta de descarte de cáncer de mamá muy
eficiente y comparable con estudios que se han realizado
siendo muy superior a los métodos estadísticos o
sometidos al riesgo del diagnóstico humano.
•
En relación a la sensibilidad de sistema, se
concluye que la proporción de verdaderos positivos
identificados por la prueba del total de enfermos es
media/baja en comparación de estudios que se han
realizado en otras ramas, pero que aún eso es muchísimo
más superior que los métodos estadísticos actualmente
utilizados y aun siendo mucho mejor que el juicio de
expertos a los que se someten las imágenes actualmente.
Este porcentaje refleja el número de casos de personas
enfermas a las cuales se les diagnostique cáncer, más
conocido como los falsos negativos.
VII. REFERENCIAS
[1] [Arroyo+05] jorge arroyo,mahabir prashad, yelkaira vásquez, elena
li, gloria tomás c, actividad citotóxica in vitro de la mezcla de
annona muricata y krameria lappacea sobre células cancerosas de
glándula mamaria, pulmón y sistema nervioso central, rev peru
med exp salud publica 22(4), 2005.
[2] [Austin+13] Peter c. Austin, jack v. t., Jennifer e. h, Daniel Levye,
Douglas s. lee, using methods from the data-mining and machinelearning literature for disease classification and prediction: a case
study examining classification of heart failure subtypes of the sdjournal of clinical epidemiology 66 (2013) 398e407.
[3] [Cortez+11] Áugusto Cortez Maquina de Soporte vectorial”
Algorithmic 2011 ( 2) 2, 2011 43-47.
[4] [Drier+11] Yotam Drier, do two machine-learning based prognostic
signatures for breast cancer capture the same biological processes?
of the plos one march 2011 volume 6 issue 3 e17795.
[5] [Gonzales08] antonio gonzales martin, estudio descriptivo de la
implantación de un programa de detección precoz de cáncer de
mama en el distrito sevilla sur, universidad de sevilla tesis doctoral.
[6] [Hernandez+2009] Jose Hernández “ Introducción a la minería de
datos” Edit Prentice Hall Madrid 2009.
[7] [Ilhan+13] ilhan ilhan, gülay tezel a genetic algorithm–support
vector machine method with parameter optimization for selecting
the tag snps of the sd-journal of biomedical informatics 46 (2013)
328–340.
[8] [Lopez+01]alan d. lopez, colin d. mathers, majid ezzati, dean t.
jamison, and christopher j. l. murray, measuring the global burden
of disease and risk factors, who library cataloguing-in-publication
data.
[9] [Murray00] christopher j.l. murray1y julio frenk, un marco para
evaluar el desempen˜ o de los sistemas de salud, bulletin of the
world health organization 2000, 78 (6): 717–731
[10] [Oms_ent10] dr ala alwan,*, global status report on no
communicable diseases 2010, library cataloguing-in-publication
dataglobal status report on no communicable diseases 2010.
[11] [Oms_ent10] dr ala alwan,*, global status report on no
communicable diseases 2010, library cataloguing-in-publication
dataglobal status report on no communicable diseases 2010
[12] [Pan+12] song pan , serdar iplikci, kevin warwick, tipu z. aziz,
parkinson’s disease tremor classification – a comparison between
support vector machines and neural networks, of the sd-expert
systems with applications 39 (2012) 10764–10771.
[13] .[Re+11] matteo re y giorgio valentini, cancer module genes ranking
using kernelized score functions of the bmc bioinformatics 2012,
13(suppl 14):s3 [see http://www.biomedcentral.com/14712105/13/s14/s3].
[14] [Santomé01] santomé l, baselga j. actualización en cáncer de
mama: aspectos clínicos y terapéuticos. fmc 2001; 8 (9): 597-605.
15.
[Vanneschi+11] leonardo vanneschi, antonella farinaccio,
giancarlo mauri, mauro antoniotti1, paolo provero y mario giacobini a
comparison of machine learning techniques for survival prediction in
breast
cancer
of
the
biodata
mining
2011,
4:12[see
http://www.biodatamining.org/content/4/1/12]
16.
[Weboms05] world health organization, organizacion mundial
de la salud 2013, who library cataloguing-in-publication data
17.
[Who04] world health organization, the global burden of
disease, who library cataloguing-in-publication data,isbn 978 92 4
156371 0 (nlm classification: w 74)
18.
[Who04] world health organization, global health risks : the
global burden of disease, who, isbn 978 92 4 156371 0 (nlm
classification: w 74)
19.
[Who08] department of health statistics and informatics who,
causes of death 2008: data sources and methods, who library
cataloguing-in-publication data world health organization, global health
risks : causes of death 2008: data sources and methods, who library
cataloguing-in-publication data.
20.
[Who09] world health organization, global health risks :
mortality and burder of disease attributable to selected major risks,
who, isbn 978 92 4 156387 1,(classification 105)
21.
[Whs06] world health organization, world health statistics
2006, who library cataloguing-in-publication data
22.
[Whs07] world health organization, world health statistics
2007, who library cataloguing-in-publication data
23.
[Whs08] world health organization, world health statistics
2008, who library cataloguing-in-publication data
24.
[Whs09] world health organization, world health statistics
2009, who library cataloguing-in-publication data
25.
[Whs10] world health organization, world health statistics
2010, who library cataloguing-in-publication data
26.
[Whs11] world health organization, world health statistics
2011, who library cataloguing-in-publication data
27.
[Whs12] world health organization, world health statistics
2012, who library cataloguing-in-publication data
28.
[Whs13] world health organization, world health statistics
2013, who library cataloguing-in-publication data
29.
[Zaharia13] mayer zaharia, cancer as a public health problem
in peru, rev peru med exp salud publica-ins
30.
[Zhong+12] wei zhong, rick chow, jieyue he, clinical charge
profiles prediction for patients diagnosed with chronic diseases using
multi-level support vector machine, of the sd-expert systems with
applications 39 (2012) 1474–1483
31.
[Bibliteca+15] Biblioteca Nacional de Medicina de Estados
Unidos
[see
http://www.nlm.nih.gov/medlineplus/spanish/ency/article/000913.ht
m]
32.
[INC+15] Instituto Nacional del Cancer de Estados Unidos [see
www.cancer.gov]
33.
[BCW2015] Breast Cancer Wisconsin Data Set [see
https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Dia
gnostic)]
34.
[Bennett+92] K. P. Bennett y OL Mangasarian: "robusta
Programación Lineal Discriminación de dos conjuntos linealmente
Inseparable", Métodos de Optimización y Software 1, 1992, 23-34
35.
[Diaz+06] José Díaz Novás, Bárbara Gallego Machado,
Aracelys León González; El diagnóstico médico: bases y procedimientos;
Rev Cubana Med Gen Integr 2006;22(1)
36.
[Borrajo09] BORRAJO, Daniel. Apuntes de la asignatura
Inteligencia Artificial curso 2008-2009. Departamento de informática,
Universidad Carlos III
37.
[AEPIA15] Asociación española de inteligencia artificial
(AEPIA). http://www.aepia.org/
38.
[Puelles+15] PUELLES, Luis, SÁNCHEZ CÁNOVAS, José,
ALBERTOS, Pedro. Inteligencia artificial e inteligencia humana.
39.
[IA15] Inteligencia Artificial y temas relacionados. Wikipedia.
http://es.wikipedia.org/wiki/Inteligencia_artificial
40.
[Sánchez15] SÁNCHEZ G., PÉREZ H., NAKANO M. Growing Cell
Neural Network using Simultaneous Perturbation. Inst. Politécnico
Nacional, Secc. de Estudios de Posgrado e Investigación, Esc. Superior de
Ingeniería Mecánica y y Eléctrica. México D. F.
41.
[Sanchez06] SÁNCHEZ-MONTAÑÉS ISLA, Manuel A. Métodos
Avanzados en Aprendizaje Artificial. Redes neuronales. Universidad
Autónoma de Madrid, 2006
42.
[CSULB15]
History
of
the
perceptron.
http://www.csulb.edu/~cwallis/artificialn/History.htm
43.
[Perce15]
Perceptrón.
Wikipedia
http://es.wikipedia.org/wiki/Perceptr%C3%B3n
44.
[MulPe15]
Multilayer
perceptrons.
http://users.ics.tkk.fi/ahonkela/dippa/node41.html
45.
[PerMu15]
Perceptrón
multicapa.
Wikipedia
http://es.wikipedia.org/wiki/Perceptr%C3%B3n_multicapa
46.
[JIANGSHENG02] YU JIANGSHENG. Method of k-Nearest
Neighbors. Institute of Computational Linguistics Peking University,
China, 2002
47.
[DeLaEscalera+15] DE LA ESCALERA, Arturo, ARMINGOL, José
maría. Apuntes de la asignatura Sistemas de percepción (proveniente
Del libro Visión por Computador, fundamentos y métodos, Arturo de la
Escalera Hueso. Prentice Hall). Departamentos de ingeniería de sistemas
y automática, Universidad Carlos III
48.
[Fernández+15] FERNÁNDEZ REBOLLO, Fernando, BORRAJO
MILLÁN, Daniel, GARCÍA DURÁN, Rocío. Apuntes de la asignatura
Aprendizaje automática. Departamento de informática, Universidad
Carlos III
49.
[HSU15] CHIH-WEI HSU, CHIH-CHUNG CHANG AND CHIH-JEN
LIN. A Practical Guide to Support Vector Classification.