BÚSQUEDA DE INFORMACIÓN EN INTERNET 6.1 ¿Qué es y cómo

Tecnologías de la Información y la Comunicación
1º Bachillerato
BÚSQUEDA DE INFORMACIÓN EN INTERNET
6.1 ¿Qué es y cómo funciona Internet?
Históricamente, Internet nació como una red de comunicaciones al servicio de
las fuerzas armadas. De hecho, durante la Guerra Fría, fue la propuesta para hacer
posibles las comunicaciones tras un conflicto nuclear. Esta hipótesis inicial fue
determinante en el concepto de lo que posteriormente se convirtió en Internet.
Un conjunto de ordenadores forma una red si están conectados entre sí y son
capaces de intercambiar información. Internet es una red mundial de redes al autónomas
de ordenadores que son capaces de comunicarse entre sí, independientemente de su
arquitectura, de su sistema operativo y del tipo de red a la que pertenezcan. Entender lo
que es Internet supone comprender cómo se intercambia la información a través de esta
red de redes.
A) La transferencia de información a través de Internet
Supongamos que quisiéramos trasladar un castillo medieval escocés desde
Aberdeen (Escocia) hasta Sacramento (California) y que este traslado fuera lo más
económico posible. El proceso precisaría de tres etapas: en primer lugar, sería necesario
desmontar, en origen y pieza a pieza, el castillo; en segundo lugar efectuar el traslado, y,
por último, reconstruirlo en el lugar de destino.
A la hora de desmontarlo, sería necesario etiquetar e identificar cada pieza, así
como definir planos e instrucciones de montaje, de manera que los encargados de la
reconstrucción supiesen interpretarlos y llevarla a cabo de manera eficaz.
Una estrategia directa para realizar el traslado, pero cara, sería contratar uno o
varios medios de transporte elegidos ex profeso y efectuarlo de forma conjunta. Una
segunda opción consistiría en aprovechar cualquier medio de transporte que pasase por
Aberdeen (independientemente del lugar adonde se dirigiese) y colocar en él, de forma
gratuita, las piezas que cupiesen. Estas piezas llegarían a un lugar de destino que no
coincidiría con Sacramento, pero desde este destino intermedio embarcarían en otro
medio de transporte con otro destino diferente (no necesariamente Sacramento). Sin
embargo, si se repitiese este proceso tantas veces como fuera necesario, todas las piezas
llegarían por separado a Sacramento tarde o temprano.
En la reconstrucción del castillo, sería necesario contar con la certeza de que
todas y cada una de las piezas hubiera llegado, así como con la capacidad para entender
e interpretar con claridad las instrucciones para proceder a su montaje.
El proceso de transferencia de información a través de Internet no es
esencialmente muy distinto al planteamiento del ejemplo anterior. Los ordenadores se
transfieren entre sí archivos. Cada archivo se divide en paquetes. Cada paquete sigue
una ruta independiente hasta llegar al destino. Como Internet es una red de redes de
ordenadores, cada red debe tener al menos un ordenador en conexión con la red externa.
A este ordenador se le denomina router. Cada router al que llega un paquete, reconoce
si es para algún ordenador de su red; si no es así, lo reenvía a otra red. De igual modo va
ocurriendo sucesivamente, de router en router, hasta llegar a la red de destino. Una vez
que han llegado todos los paquetes, se procede a reconstruir el archivo.
La principal característica de este sistema de comunicación es que, si un nodo
intermedio presenta problemas, no se interrumpe la misma, sino que se emplea
cualquier otra ruta alternativa.
B) Los protocolos de comunicación
En el proceso anteriormente descrito hay que tener presente una serie de
consideraciones importantes:
Búsqueda de información en Internet
Tecnologías de la Información y la Comunicación
1º Bachillerato
1. Los ordenadores implicados, como ya hemos comentado, independientemente de su
arquitectura, sistema operativo o configuración de red, deben ser capaces de entender
cómo se han particionado los archivos y poder reconstruirlos. Para ello se ha definido
un conjunto de convenciones, reglas o estándares que forma lo que se denomina el
protocolo de comunicación TCP (siglas inglesas de «protocolo de control de
transmisiones»). En otras palabras, es el lenguaje común que poseen las máquinas para
«entenderse».
2. Para poder direccionar cada paquete, es necesario identificar cada ordenador dentro
de la red sin ninguna ambigüedad. Esta identificación se denomina dirección IP
(Internet protocol), pero además el ordenador de origen debe ser capaz de etiquetar cada
paquete y enviarlo de forma unívoca a la dirección IP de destino. Existe, por tanto, un
protocolo encargado de direccionar cada paquete: es precisamente el IP o protocolo de
Internet.
Ambos protocolos, IP y TCP, son básicos en las comunicaciones a través de
Internet y forman parte de una familia que, genéricamente, recibe el nombre de
protocolos TCP/lP.
C) La identificación de cada ordenador
Hemos visto que cada ordenador conectado a Internet precisa de una
identificación, a la que hemos llamado dirección IP. Es algo parecido a lo que ocurre
con nuestra dirección postal.
Una dirección IP es una secuencia de 4 bloques de números de tres cifras
separados por puntos. Cada bloque de números fluctúa entre el 0 y el 255.
Así, por ejemplo, una dirección IP sería: 169.144.234.56.
Cada dirección IP (en la actual versión 4 del IP) tiene asignado un tamaño de 32
bits, distribuidas en los 4 bloques de 8 bits cada uno. Como ya sabes, el grupo de 8 bits
es una secuencia de 8 cifras elegidas entre 0 o 1. Así, cada bloque de números de la
dirección IP está representado por las posibles combinaciones entre 00000000 y
11111111. La primera corresponde a la representación decimal 0 y la última a 255.
Dado lo difícil que nos resultaría a los humanos recordar un conjunto de
direcciones IP (no para las máquinas), se ha generado un sistema jerárquico de nombres
que, de forma equivalente, identifica a cada ordenador y que sustituye a las direcciones
IP. Esta secuencia de caracteres se llama nombre de dominio y responde a un sistema
conocido como DNS (Domain Name System), forma en que los nombres de dominio se
ubican y traducen a su dirección IP correspondiente. Un ejemplo de nombre de dominio
es: mac.cie.uva.es.
Del nombre de dominio se pueden deducir algunas de las características de la
dirección. Así, la terminación es (dominio de primer nivel) hace referencia a España;
uva (subdominio), a que pertenece a la universidad de Valladolid; cie, a la facultad de
ciencias (dentro de dicha universidad), y mac al departamento de matemática aplicada y
computación (de dicha facultad de ciencias). Como podemos observar, existe un orden
jerárquico inverso de concreción desde el país al nombre de la máquina.
D) La conexión a Internet
Pero entonces, ¿qué se precisa para acceder a los servicios de Internet? Para
empezar, vamos a necesitar un proveedor de servicios de Internet o ISP (Internet
service provider): una empresa u organismo que disponga de un ordenador con
conexión permanente a Internet y pueda ofrecernos sus servicios de acceso a ella si
nosotros pasamos a formar parte de su red autónoma. Actualmente, de forma
mayoritaria, son las empresas de telecomunicación y los organismos oficiales o
universidades quienes ejercen esta función. El proveedor nos proporcionará un nombre
de usuario y una clave para reconocer nuestro ordenador y, cuando nos conectemos,
Búsqueda de información en Internet
Tecnologías de la Información y la Comunicación
1º Bachillerato
nos asignará una IP transitoria de las que tiene a su disposición para los ordenadores de
su red. En conexiones permanentes, como la realizada mediante línea digital
asimétrica de abonado (ADSL), las IP que asigna el proveedor pueden ser fijas e
identifican siempre a nuestro ordenador.
En segundo lugar, necesitaremos comunicarnos con nuestro servidor de acceso.
Para ello, generalmente se utilizan las líneas telefónicas, aunque ya existe la posibilidad
de establecer la comunicación por la red eléctrica. Por tanto, necesitamos contar con un
dispositivo de conexión entre el ordenador y la línea telefónica. Si se utiliza la red de
telefonía básica (RTB), el dispositivo es el módem, conector encargado de convertir la
señal digital del ordenador a la analógica de la línea, y viceversa (de ahí su nombre:
modulador-demodulador). Si la línea es digital (es decir, forma parte de la Red Digital
de Servicios Integrados, o RDSI), necesitamos una tarjeta cuya función es adecuar la
velocidad entre el ordenador y la línea. Si utilizamos la tecnología ADSL, necesitamos
un módem específico que convierte las señales que llegan por la línea telefónica normal
en señales de una línea de alta velocidad, y viceversa.
Si ya tenemos la posibilidad de acceso, pues disponemos de un alta en un
proveedor de servicios de Internet y una conexión física, a través de las líneas
telefónicas, es obvio que el siguiente paso es asegurar que nuestro ordenador incorpora
el protocolo TCP/IP. Desde la aparición de Windows 95, todos los sistemas operativos
de este entorno incluyen de manera predeterminada el protocolo. La conexión, en
principio, ya es posible. Sin embargo, en esta fase sólo dispondríamos de esa conexión
como tal. ¿Y ahora qué?
E) El modelo cliente-servidor
Internet no es en sí un servicio, sino un medio de comunicación entre
ordenadores que permite acceder a diferentes servicios. Algunos son muy conocidos,
como el correo electrónico o navegar por las páginas web; otros, no tanto.
El modelo implementado en Internet para diferenciar cada servicio y poder
intercambiar información es conocido por el nombre de modelo cliente-servidor. En
esencia se basa en disponer de dos programas: uno, el cliente, en el ordenador que
precisa un servicio, y otro, el servidor, en el ordenador que presta dicho servicio. El
programa cliente recoge las instrucciones del usuario y solicita la información requerida
al ordenador en el que se encuentra. El sistema de destino recoge la petición y el
programa servidor entra en el sistema y regresa con la información solicitada. Una vez
servida la información, el programa cliente la muestra al usuario y el ordenador de
destino cierra el proceso.
El programa cliente utilizado para acceder a los servicios de Internet gestiona las
comunicaciones, solicita servicios, recibe la información y la muestra en un entorno
adecuado.
6.2 Internet como canal de comunicación
Como ya hemos comentado, Internet se gestó como una respuesta a una
necesidad estratégica de comunicación que tenía el ejército norteamericano. Cuando
aparece Internet como la escisión de Arpanet, la red militar ya mencionada, son las
universidades y centros de investigación quienes más conexiones a la red demandan y
quienes utilizan Internet como canal de comunicación, con finalidades académicas e
investigadoras. El servicio estrella inicialmente fue el correo electrónico.
A) El correo electrónico
El correo electrónico, también conocido por e-mail (abreviatura de electronic
mail), nos permite enviar, a otro u otros usuarios de la red, desde mensajes escritos
(incluso con formato multimedia) hasta archivos adjuntos a los mensajes. Los gestores
de correo (programas cliente de e-mail más conocidos son: Outlook Express, Eudora,
Búsqueda de información en Internet
Tecnologías de la Información y la Comunicación
1º Bachillerato
Mozilla Thunderbird y Netscape Messenger. Además del programa cliente y de la
conexión a Internet, precisamos de una cuenta de correo electrónico; es decir, de una
dirección de correo y del acceso a dos servidores de correo: uno saliente (que manda los
mensajes) y otro entrante (que los recibe). Las cuentas de correo son proporcionadas por
los propios ISP o bien de forma gratuita por otras empresas. El proceso de la mensajería
de correo electrónico es el siguiente:
1. Con nuestro gestor de correo editamos el mensaje y lo enviamos a la dirección del
destinatario a través de nuestro servidor de correo saliente (SMTP).
2. El mensaje llegará a un buzón instalado en el ordenador servidor de correo entrante
(POP3) donde el destinatario tenga abierta su cuenta de correo.
3. Allí permanecerá hasta que el destinatario, utilizando su programa cliente, descargue
sus mensajes desde el buzón de correo hasta su ordenador, donde podrá leerlos,
borrarlos, contestarlos, etcétera.
Como cada servicio de Internet, el correo electrónico tiene su propio protocolo,
denominado POP (post-office protocol).
En la actualidad se ha extendido el correo web (o webmail) que aprovecha la
estructura de la World Wide Web y el HTTP para utilizar este servicio. Presenta la
ventaja de no necesitar un gestor de correo, sino que basta con el navegador que
habitualmente hay en cualquier ordenador.
B) IRC y chats
En 1988 la comunicación se amplía en lo que sería el antecesor del chat en la
Red, con el desarrollo de IRC (Internet Relay Chat, literalmente «charla por relevos a
través de Internet»), que permite la «conversación» simultánea, en tiempo real y
mediante texto escrito en pantalla, de diferentes usuarios que se hayan dado de alta en
este servicio.
Uno de los programas cliente de chat más utilizados es mIRC. Para acceder a
una conversación, hay que conectarse con un servidor de IRC y entrar en uno de los
canales disponibles.
A diferencia del IRC, los chats funcionan (como webmail) utilizando el
navegadar a través de los sitios web, y no precisan de un programa cliente específico.
C) Grupos de discusión o news
El siguiente paso en la evolución del correo electrónico fueron los foros o
grupos de discusión (news). Nacieron como espacios abiertos a la comunicación e
intercambio de información, fundamentalmente en el ámbito científico. Su inicio estuvo
asociado a la red Usenet, que une centros de investigación y universidades de todo el
planeta.
Las news funcionan con estrategias similares al correo electrónico (de hecho
comparten los mismos programas cliente), con la diferencia de que los mensajes se
envían a un espacio al que tiene acceso el resto de usuarios y permanecen allí por
tiempo indefinido. Cada usuario puede consultar todos los mensajes y contestar a cada
uno de ellos. Las respuestas pueden generar nuevas intervenciones y así, sucesivamente,
se va generando una estructura de árbol.
En la Red existen infinidad de grupos de discusión o newsgroups, sobre casi
cualquier temática posible. Al igual que el resto de servicios que hemos comentado con
anterioridad, a los grupos de discusión se puede acceder vía Web.
D) Mensajería instantánea
La mensajería instantánea es la evolución de los IRC y los chats. Aunque con
algunas prestaciones menores que los IRC, los programas de mensajería instantánea
permiten establecer conversaciones (escrita o con voz) con otros usuarios.
Búsqueda de información en Internet
Tecnologías de la Información y la Comunicación
1º Bachillerato
La gran diferencia con los servicios de IRC o chats es que las comunicaciones
son privadas entre un grupo de usuarios que previamente han sido invitados y conocen
las direcciones de correo electrónico del resto de los usuarios.
Los programas cliente de mensajería instantánea más conocidos son ICO,
Yahoo!, Messenger y MSN Messenger de Microsoft. Con anterioridad a utilizar este
último programa, debemos disponer de una cuenta de correo electrónico en las
plataformas de Microsoft, hotmail.com, msm.com o passport.com.
La mensajería instantánea y canales es una alternativa rápida y muy eficaz para
mantener conversaciones en grupo en tiempo real al margen de servidores.
E) Videoconferencia
El aumento progresivo en la velocidad de transferencia de datos ha hecho
posible que, además de texto, imágenes fijas o sonido, se haya podido intercambiar la
imagen de los usuarios conectados en ese momento. La videoconferencia es una
conversación en tiempo real, donde, si los interlocutores disponen de una cámara de
vídeo (webcam) y unos auriculares, pueden intercambiar su voz y su propia imagen. Es
como si dispusieran de un canal de televisión privado.
MS NetMeeting es una aplicación que combina la posibilidad de efectuar
videoconferencia, conversaciones en tiempo real de texto y voz, el intercambio de
información gráfica sobre una pizarra electrónica, la posibilidad de compartir archivos y
aplicaciones. Es, en resumen, una herramienta de trabajo colaborativo, que es
complementada por todos los servicios anteriormente descritos de comunicación vía
Internet.
El trabajo colaborativo es hoy en día uno de los campos que mayor expansión,
crecimiento y desarrollo está teniendo.
6.3. Internet como fuente de información
La gran revolución de Internet se produce a principios de la década de 1990
cuando Tim Berners-Lee crea un nuevo sistema de acceso a la información, la World
Wide Web, combinando dos tecnologías existentes: el hipertexto y los protocolos de
comunicación en Internet. A través de un programa cliente que suele denominarse
navegador, como Internet Explorer, Opera, Mozilla, Firefox o Netscape, se accede a
archivos multimedia, escritos en lenguaje HTML, que contienen texto, imágenes,
sonido o secuencias de vídeo, pero que además, gracias a un sistema de vínculos (el
hipertexto), son capaces de enlazar con otros archivos residentes en el mismo ordenador
o en otro ordenador remoto, creando, de esta manera, una gran telaraña mundial
(traducción literal de World Wide Web) de información entrelazada entre sí.
El éxito de este sistema se debe en gran parte a la sencillez de su uso y a la
espectacular presentación de los contenidos. Paradójicamente, su desarrollo no
respondía a ninguna de estas premisas, sino que pretendía ser un canal de intercambio
de información entre físicos de alta energía de todo el mundo. De hecho, Tim BernerLee, cuando creó la WWW pertenecía al CERN (Laboratorio Europeo de Física de
Partículas).
A) La información en Internet
¿Qué clase de información podemos encontrar en Internet? La popularización
del acceso a la Red ha producido que en Internet convivan cinco grandes espacios:
à Un enorme escaparate comercial y de marketing liderado por las empresas.
à Un lugar de intercambio de información e investigación académica, científica y
tecnológica.
à Un medio a través del que gestionar la información institucional (utilizada por las
administraciones).
Búsqueda de información en Internet
Tecnologías de la Información y la Comunicación
1º Bachillerato
à El espacio donde se desarrollan las aplicaciones gratuitas y los intercambios
(Internet Underground), el verdadero motor de la evolución de Internet.
à La zona donde se dan cita las páginas y proyectos personales. Un ejemplo es la
blogfera que incorpora las weblog (también conocidas como blogs o bitácoras)
donde se recogen de forma cronológica los mensajes, reflexiones y opiniones de uno
o varios autores, sobre una temática en concreto o como diario personal.
Todo este tipo de información, a través de los archivos multimedia, se concreta
en textos, imágenes, audio y vídeo.
B) ¿Cómo encontrar los archivos HTML?
Mediante el navegador accedemos a los archivos multimedia o HTML (más
conocidos como páginas web), donde se recoge la información. Estos archivos, como
es natural, están alojados en ordenadores o servidores remotos conectados a la Red. Para
acceder a uno de estos archivos, debemos conocer la dirección del localizador
uniforme de recursos (URL), la que el recurso tiene en Internet. Esta dirección indica
dónde y cómo localizar cada archivo.
Protocolo
DNS del ordenador o dirección IP
Archivo
Estructura de una URL:
http://www.iesgiraldo.es/index.htm
6.4 Buscadores vía Web
Es, por tanto, necesario conocer la dirección de cada recurso para acceder a él.
Por esta razón en la mayoría de las páginas web se encuentra una sección específica de
enlaces a otras páginas o a otros sitios web.
Sin embargo, la ingente cantidad de información y sitios web que existe en la
actualidad en Internet origina la necesidad de contar con servicios que localicen
aquellos archivos, documentos o información acordes con nuestras necesidades.
Un buscador o motor de búsqueda es un sitio web especializado en servir
como herramienta para la localización de información y otros recursos de Internet.
Inicialmente, los motores de búsqueda formaban parte de un portal, donde compartían
espacio con otros servicios, entre los que se encontraba el propio acceso a Internet.
En la actualidad todos los buscadores comparten herramientas de búsqueda
basada en la localización de textos en los documentos HTML y la utilización de
directorios o índices temáticos donde los resultados de búsqueda están clasificados en
índices jerarquizados mediante categorías y subcategorías.
A) Buscadores de texto
La alternativa a los directorios son los motores de búsqueda, basados en el texto
que aparece en las páginas web. En vez de disponer de un directorio jerarquizado, los
motores de búsqueda parten de un texto introducido por el usuario, que cotejan en una
gran base de datos documental.
El buscador por excelencia es, en la actualidad, Google (www.google.es).
Cuenta con la mayor base de datos existente y tiene una rapidez extraordinaria de
búsqueda. Google fue diseñado por Larry Page y Sergey Brin y se inició en septiembre
de 1998. Además de búsqueda textual, incorpora un directorio, un buscador de
imágenes, otro de noticias, un gestor de grupos de noticias web y está en desarrollo un
buscador específico de video.
Además de Google, existen otros muchos buscadores de entre los que podríamos
destacar a Altavista (www.altavista.com), Lycos (www.lycos.es), Alltheweb
(www.Alltheweb.com), MSN (www.msn.es), buscador de Microsoft que comparte
portal y herramienta de búsqueda o Askjeeves (http://es.ask.com).
Búsqueda de información en Internet
Tecnologías de la Información y la Comunicación
1º Bachillerato
Este último buscador (cuyo logotipo es un mayordomo) incorpora la
peculiaridad de poder realizar preguntas en lenguaje natural del tipo: ¿Cómo realizo un
gazpacho?
Sin embargo, dada la masiva utilización de Google, a lo largo de esta Unidad
haremos constante referencia a él como modelo de buscador. Aunque todos los
buscadores presentan características y propiedades similares, cada uno de ellos tiene
pequeñas diferencias que le caracterizan. Para conocer la utilización específica de cada
buscador, en su página respectiva existe una sección de ayuda en la que se detalla el
proceso de búsqueda.
Búsqueda de información en Internet