Cáncer de estómago - American Cancer Society

Base de datos II
Facultad de Ingeniería.
Escuela de computación.
Introducción
Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el
desarrollo de sus prácticas de laboratorios, haciendo uso de este antes, durante y después
de la práctica, de tal forma que ofrece un método facilitador en su proceso de
enseñanza/aprendizaje durante esta asignatura.
En el desarrollo de esta asignatura se ha designado realizar las prácticas en 16 sesiones
semanales de laboratorios, los que incluyen 11 prácticas, dos parciales y un proyecto final
durante los cuales, el estudiante aplicará los conceptos y las técnicas fundamentalmente
necesarias para el dominio de programas para el uso, configuración y administración de
ORACLE.
Todas las guías de laboratorio están estructuradas de la siguiente forma:
- Objetivos
- Materiales y equipos
- Introducción teórica
- Procedimiento
- Bibliografía
- Hoja de evaluación( En caso de que la actividad sea evaluada )
La asignatura Base de Datos II,está dividida en cinco unidades durante el ciclo. La unidad
1 Administración avanzada de bases de datos tendrá 3 laboratorios prácticos, la unidad
2 Arquitectura de bases de datos tendrá 2 laboratorios prácticos y la unidad 3 Diseño
de un Datawarehuse tendrá 4 laboratorios prácticos. La unidad 4 Minería de datos
tendrá 3 laboratorios prácticos. Y finalmente la Unidad 5 Calidad de datos y auditoria
de bases de datos tendrá 3 laboratorios prácticos.
Tabla de Contenido
Facultad: Ingeniería.
Escuela: Computación.
Asignatura: Base de datos II.
Pág
Guía 10. Minería de Datos 2
Guía 6
Contenido --------------------------------------------------------------------------------------- 5
a1
Objetivos ---------------------------------------------------------------------------------------- 5
Materiales y equipos --------------------------------------------------------------------------- 5
Introducción.------------------------------------------------------------------------------------ 5
Procedimiento.---------------------------------------------------------------------------------- 7
Investigación ----------------------------------------------------------------------------------- 14
Bibliografía -------------------------------------------------------------------------------------- 14
Tema: MINERIA DE DATOS 2
Contenidos
En la presente guía se utilizaran las herramientas que provee Oracle para la minería de
datos y así mismo se utilizaran los ejemplos preinstalados en el DBMS, para ejemplificar
los conceptos. Así mismo se realizará una breve introducción a los algoritmos que utiliza
Oracle para realizar procesos de minería de datos.
Objetivo Específico
Desarrollar flujos de minería de datos con las herramientas provistas por Oracle.
Materiales y Equipo




Instalador de Oracle
SQL Developer.
Virtual de Windows 2003 server.
Instalador de Jdk.
Introducción Teórica
Oracle Data Mining es un conjunto de librerías incluidas en Oracle Database que permite
descubrir nuevos conocimientos ocultos en los datos almacenados.
ODM ayuda a las empresas a apuntar a sus mejores clientes, encontrar y prevenir el
fraude, descubrir los atributos más influyentes que afectan los Indicadores de Desempeño
Clave (KPIs), y buscar nueva información valiosa oculta en los datos.
ODM permite buscar patrones de datos, identificar los atributos clave, descubrir nuevos
clusters y asociaciones, y revelar conocimientos valiosos. Para abordar estos problemas de
negocio, Oracle Data Mining permite que las empresas busquen nueva información en sus
datos utilizando una amplia gama de algoritmos de avanzada.
Los algoritmos de data mining son técnicas de aprendizaje automático para analizar los
datos y descubrir patrones y relaciones. Oracle proporciona múltiples algoritmos ya que
diferentes algoritmos son efectivos para diferentes tipos de análisis y diferentes problemas
de negocio.
Entre los algoritmos soportados por ODM se encuentran los siguientes, estos permiten
realizar clasificaciones, agrupamiento, predicciones y asociaciones:
 Agrupamiento (k-means, O-Cluster).
 Árboles de decisión.
 Atributo relevante.
 Característica de selección.
 Clasificador bayesiano (naive bayes).
 Máquinas de soporte vectorial (support vector machines).
 Modelos lineales generalizados
 Reglas de asociación (APRIORI).
La mayoría de los algoritmos de data mining pueden separarse en técnicas de data mining
con “aprendizaje supervisado” y “aprendizaje no supervisado”.
El aprendizaje supervisado requiere que el analista de datos identifique un atributo
objetivo o una variable dependiente (por ejemplo, clientes que adquirieron un producto
específico). La técnica de aprendizaje supervisado luego examina cuidadosamente los datos
para buscar patrones y relaciones entre otros atributos y el atributo objetivo (por ejemplo,
las características que indican si un cliente potencial tiene posibilidades de comprar un
producto específico).
Los algoritmos de aprendizaje supervisado de ODM son: Naive Bayes, Árbol de
Decisión, Modelos Lineales Generalizados y Máquinas de Vectores Soporte.
La otra gran categoría de los algoritmos de data-mining es para el “aprendizaje no
supervisado”. En estos escenarios, no existe un ‘atributo objetivo’; en cambio, los
algoritmos de data mining buscan encontrar asociaciones y clusters en los datos
independientemente de cualquier objetivo de negocios definido a priori. Estos algoritmos
incluyen Clustering k-Means mejorado, Clustering de Partición Ortogonal, Reglas de
Asociación (análisis de la cartera de mercado) y Factorización de Matrices No Negativas.
ODM incluye Oracle Data Miner, una interface gráfica de usuarios para el análisis de
datos que tiene el fin de crear, evaluar y aplicar modelos de data mining. Oracle Data
Miner guía al analista de datos a través del proceso data mining con total flexibilidad y
presenta los resultados en formatos gráficos y tabulares. Oracle Data Miner puede generar
el código PL/SQL asociado con una actividad de Recuperación de los Datos.
Procedimiento
Bibliografía
Guía 1
Prerrequisitos.
1. Verificar si en el servidor virtual se encuentra instalado el JDK7.
2. Transferir al servidor virtual el ejecutable de SQLDeveloper 4.
3. Ejercicio de Guia 10 de bases finalizado.
Creación Gráficos
1. Arrastrar al lienzo el componente “Grafico”.
2. Clic derecho en la fuente de datos, seleccionar conectar y luego clic en el
componente “Gráfico“, luego editar en el componente gráfico.
3. En el cuadro emergente seleccionar Histograma y seleccionar los siguientes
valores, que permitirán crear una grafica de edades, al finalizar dar clic en ok.
4. Luego de finalizado generará un grafico de la siguiente forma:
5. ¿Qué conclusiones se pueden obtener al respecto?
_________________________________________________________________________
_________________________________________________________________________
_________________________________________________________________________
_________________________________________________________________________
6. Crear un grafico tipo “Box” dando clic en el icono
graficos, con la siguiente información:
completar la ventana de
7. ¿Qué representa el grafico?
_________________________________________________________________________
_________________________________________________________________________
_________________________________________________________________________
_________________________________________________________________________
Creación de modelos de datos a partir de algoritmos supervisados.
1. En la sección de componentes desplegar los elementos “Modelos”, identificar el
elemento “Clasificación”, arrastrar ese elemento al lienzo de la siguiente forma:
2. Clic derecho en la fuente de datos, seleccionar conectar y luego clic en el
componente “Creación de Clase“, como resultado de esta operación se mostrará la
pantalla “Editar nodo de creación de clasificación”, editar dicha pantalla con los
siguientes valores:
Con estos valores se predecirá comportamientos individuales de compra de seguros, esta
predicción utilizara los algoritmos especificados en la pantalla de “configuración de
modelo”, para indicar valores específicos en cada uno de los algoritmos dar doble clic sobre
cada uno de ellos.
3. Dar clic en aceptar, y ver las propiedades del elemento de “Creación de clase”,
verificar que en la columna crear no se encontraran ningún modelo ejecutado.
4. En la misma ventana de propiedades dar clic en probar y verificar que se tengan los
siguientes parámetros seleccionados:
5. Luego de realizados los cambios, ir al lienzo y dar clic derecho sobre el elemento
“creación de clase” y dar clic en ejecutar:
Esta acción pude tardar unos minutos y provocará que el elemento, al finalizar tenga un
icono verde en la esquina superior derecha.
6. Luego de ejecutado, el estado de los modelos debe de cambiar en la ventana de
propiedades de la siguiente forma:
7. Luego de ejecutado dar clic derecho sobre el elemento “creación de clase” y dar clic
en la opción “comparar resultados”:
8. Como resultado del paso anterior se mostrará la siguiente pantalla:
9. ¿Qué información se obtiene de estos gráficos?
_________________________________________________________________________
_________________________________________________________________________
_________________________________________________________________________
10. ¿Cuál algoritmo es el mejor en la predicción de patrones de acuerdo a las graficas?
Explique
_________________________________________________________________________
_________________________________________________________________________
_________________________________________________________________________
_________________________________________________________________________
11. Aplicar el modelo con las siguientes instrucciones:
a. Especificar el modelo deseado de la ventana de propiedades del nodo
“creación de clases”.
b. Agregar un nuevo origen de datos. (este nodo servirá para aplicar los
datos.)
c. Agregar un Nuevo nodo de “aplicación”.
d. Conectar los nodos de “creación de clases” y el Nuevo “Origen de datos” al
nodo de “Aplicación”.
e. Finalmente ejecute el nodo de “aplicación” para crear datos predictivos del
modelo.
Investigación Complementaria
 ¿Cómo se pueden aplicar modelos en ODM?.
Guía 3
 ¿Cómo se obtienen Predicciones a partir de los modelos?.
Bibliografía
Guía 4
 ORACLE 11g. Curso práctico. Teaching Soft Group.
3 9i. Manual del administrador. Técnicas de gestión de datos Oracle robustas y
fíaORACLE
 Guía
de alto rendimiento. Kevin Loney/ Marlene Thenault.
Guía 4
fía