¿Cómo utilizar buscador.gub.uy en mi sitio? - Agesic

Portal del Estado Uruguayo
¿Cómo utilizar
buscador.gub.uy
en mi sitio?
Información del Proyecto
BORRADOR – Diciembre 2010
¿Cómo utilizar buscador.gub.uy en mi sitio? | 2
Además de proveer búsquedas especializadas en el Estado uruguayo, buscador.gub.uy tiene la
capacidad de generar resultados personalizados para un único sitio o una familia de sitios.
Si bien configurar esta funcionalidad para un sitio específico no es un procedimiento trivial, las
dificultades técnicas están lejos de ser de alta complejidad. El presente documento intenta brindar la
información necesaria para llevar adelante el proceso de incorporar buscador.gub.uy como motor de
búsquedas personalizadas en un sitio.
Conceptos Básicos
¿Cómo funciona buscador.gub.uy?
buscador.gub.uy está implementado con el motor de búsquedas Google Search Appliance.
Los equipos se encuentran alojados en centros de datos de ANTEL. Para nuestra tarea es
importante dividir esta tecnología en estos tres elementos lógicos:
ƒ
Rastreador
ƒ
Buscador
ƒ
Interfaz
¿Qué es el Rastreador?
Es el proceso que visita su sitio periódicamente para leer el contenido y luego procesarlo
e ingresarlo en un índice.
¿Qué es el Buscador?
Es el proceso que a partir de la pregunta de un usuario (una palabra, numero, oración),
devuelve un conjunto de resultados relevantes. Para realizarlo el Buscador utiliza el índice que confecciona el Rastreador.
¿Qué es la interfaz?
El Buscador devuelve en primera instancia el conjunto de resultados como un documento
XML. La interfaz es quien toma esos resultados y les aplica el formato que finalmente se
despliega en la pantalla.
¿Cómo utilizar buscador.gub.uy en mi sitio? | 3
buscador.gub.uy puede implementar muchas interfaces de búsqueda distintas e independientes.
¿Qué quiere decir que mi sitio sea visitado
por el Rastreador?
Quiere decir que el contenido de su sitio será leído e indexado para ser utilizado por el
Buscador y a partir de ese momento incluir las páginas de su sitio cuando resulten relevantes para la clave de búsqueda del usuario.
¿Puedo saber si el Rastreador está visitando
mi sitio?
Usted puede identificar las visitas del Rastreador filtrando las bitácoras (logs) de su Web
Server por el campo “User Agent”. El Rastreador se identifica como “agesic-crawler”.
¿Puedo tener una interfaz de búsqueda para
mi sitio?
Sí, por supuesto. No solo puede tener una interfaz de búsqueda personalizada, sino
además un índice personalizado, lo que técnicamente se denomina una “Colección”.
¿Qué es una Colección?
Una Colección es un subconjunto del índice, que abarca uno o más dominios. El Buscador tiene capacidad de restringir una búsqueda a una colección determinada, logrando así
múltiples buscadores temáticos diferentes a partir de un único índice.
¿Uno de estos buscadores puede ser para mi
Organismo?
Ese es exactamente el objetivo. Su organismo puede tener una “Interfaz de Búsqueda” y
una Colección (o varias) que permitan buscar en el contenido de su sitio de la forma que
usted lo defina.
¿Cómo utilizar buscador.gub.uy en mi sitio? | 4
¿Están indexadas todas las páginas del
Estado Uruguayo?
Están indexadas todas las páginas estatales de dominios gub.uy, edu.uy, org.uy, net.uy y
mil.uy. También están indexados los principales sitios estatales en dominios com.uy y de
dominios que no son uruguayos, fundamentalmente .com. Se siguen agregando las páginas estatales que faltan en la medida en que se detectan.
Cómo puedo saber si mi sitio ya está en el
índice?
Solo tiene que hacer una búsqueda en buscador.gub.uy agregando el prefijo site: al dominio de su sitio.
Por ejemplo, para saber si hay páginas indexadas del sitio frutales.gub.uy la clave de
búsqueda debe ser site:frutales.gub.uy
Si obtiene resultados, su sitio se encuentra en el índice. La cantidad de resultados le indicará cuántas páginas hay incluidas en total.
¿Cómo hacer que se incluya mi sitio?
Enviando un correo electrónico a contenidosPEU@agesic.gub.uy con la solicitud. Nos
pondremos en contacto con usted y ajustaremos los detalles que fueran necesarios.
También puede contactarse con el equipo del Portal del Estado a esta dirección de correo
electrónico por cualquier otra inquietud que pueda surgirle.
Implementando buscador.gub.uy en mi sitio
Existen 2 modos de utilizar buscador.gub.uy para implementar un buscador en su sitio:
ƒ
Alojado en AGESIC
ƒ
Como Web Service”
En la modalidad Alojado en AGESIC la interfaz de búsqueda reside en buscador.gub.uy.
Usted nos entrega un boceto de una “Caja de búsqueda” y “Pagina de Resultados” y luego de validarlo lo cargamos en nuestros servidores. Usted puede embeber la página de re-
¿Cómo utilizar buscador.gub.uy en mi sitio? | 5
sultados en un IFRAME o simplemente mostrar directamente la página de resultados de
buscador.gub.uy, que tendrán la estética que usted indicó.
En la modalidad Web Service, usted crea un formulario para la caja de búsqueda, y realiza un GET a buscador.gub.uy con los parámetros necesarios (Los detalles de esta modalidad están en el Anexo Web Services). Los resultados se reciben como un documento
XML.
La modalidad Alojado en AGESIC tiene la ventaja de que el buscador, una vez configurado y en marca, no le requerirá programación adicional ni preocupaciones. Por otra parte, la modalidad Web Services, si bien requiere una atención adicional, le brindará mayor
flexibilidad e independencia.
¿Qué es una Caja de Búsqueda?
Las cajas de búsqueda son los elementos en una interfaz grafica que permiten el ingreso
de los términos de búsqueda.
buscador.gub.uy aspira a que todos los sitios que utilizan la herramienta guarden una coherencia estética, por lo que recomienda utilizar un conjunto de cajas de búsqueda predefinido, con múltiples opciones para adaptarse a los requerimientos de cada sitio.
Sumado a esto, también recomienda fuertemente el uso de cajas de búsquedas que añadan
al botón principal un botón que permita buscar directamente en todo el estado a través de
buscador.gub.uy, como forma de contribuir a la difusión de la herramienta.
Se muestran algunos ejemplos de las cajas de búsquedas sugeridas. Se puede encontrar la
familia completa de cajas de búsqueda, en perfecto funcionamiento y con el código fuente
de ejemplo para utilizarlas en http://peu.agesic.gub.uy/buscador
Dos botones, sin cuadro
¿Cómo utilizar buscador.gub.uy en mi sitio? | 6
Dos botones, con cuadro
Dos botones, aplicado en negativo
Un botón, con cuadro
Un botón, sin cuadro
Un botón, en aplicado en negativo
¿Qué es una Página de Resultados?
No es otra cosa que lo que un usuario espera como resultado de una búsqueda. Se muestra
a continuación la de buscador.gub.uy, pero naturalmente la de su sitio tendrá una apariencia distinta.
¿Cómo utilizar buscador.gub.uy en mi sitio? | 7
Anexo 1
Web Services
Se muestran a continuación una serie de ejemplos que muestran distintas opciones del uso de
buscador.gub.uy.
Al final del documento se incluyen las direcciones de los sitios que contienen la referencia completa
del protocolo de búsqueda de GSA.
Ejemplo 1 – búsqueda común en todo el índice
En este ejemplo vamos a hacer una búsqueda del término “fruticola”, en todo el índice (el
índice completo en buscador.gub.uy es llamado “default_collection).
¿Cómo utilizar buscador.gub.uy en mi sitio? | 8
Se realiza un GET a la siguiente URL:
http://buscador.gub.uy/search?site=default_collection&output=xml_no_dtd&q=fruticola
Obtendremos el resultado en formato XML:
<?xml version="1.0" encoding="ISO-8859-1" standalone="no"?>
<GSP VER="3.2">
<TM>0.046990</TM>
<Q>fruticola</Q>
<PARAM name="site" value="default_collection" original_value="default_collection"/>
<PARAM name="output" value="xml_no_dtd" original_value="xml_no_dtd"/>
<PARAM name="q" value="fruticola" original_value="fruticola"/>
<PARAM name="ie" value="UTF-8" original_value="UTF-8"/>
<PARAM name="ip" value="127.10.10.10" original_value="127.10.10.10"/>
<PARAM name="access" value="p" original_value="p"/>
<PARAM name="sort" value="date:D:L:d1" original_value="date%3AD%3AL%3Ad1"/>
<RES SN="1" EN="10">
<M>34</M>
<FI/>
<NB>
<NU>/search?q=fruticola&amp;site=default_collection&amp;lr=&amp;ie=UTF8&amp;output=xml_no_dtd&amp;access=p&amp;sort=date:D:L:d1&amp;start=10&amp;sa=N</NU>
</NB>
<R N="1" MIME="application/pdf">
<U>http://www.mgap.gub.uy/portal/agxppdwn.aspx?7,5,110,O,S,0,1727%3BS%3B1%3B116,</U>
<UE>http://www.mgap.gub.uy/portal/agxppdwn.aspx%3F7,5,110,O,S,0,1727%253BS%253B1%253B116,</UE>
<T>El Ministerio de Ganadería, Agricultura y Pesca, a través de &lt;b&gt;...&lt;/b&gt;</T>
<RK>10</RK>
<ENT_SOURCE>T2-AM54AWJZFQSJB</ENT_SOURCE>
<FS NAME="date" VALUE=""/>
<S>&lt;b&gt;...&lt;/b&gt; través de Estadísticas Agropecuarias (DIEA) comunica: RESULTADOS DE
LA&lt;br&gt; ENCUESTA &lt;b&gt;FRUTICOLA&lt;/b&gt; 2010 Montevideo, 23 de junio de 2010 La
&lt;b&gt;...&lt;/b&gt;
<LANG>es</LANG>
</S>
<HAS><L/><C SZ="" CID="f_CyxouLfzUJ" ENC="UTF-8"/></HAS>
</R>
<R N="2" MIME="application/pdf">
<U>http://www.mef.gub.uy/comap/resoluciones/FRUTICOLA%20LIBERTAD%20S.A.%2073442%2020101015%20MGAP.pdf</
U>
<UE>http://www.mef.gub.uy/comap/resoluciones/FRUTICOLA%2520LIBERTAD%2520S.A.%252073442%252020101015%252
0MGAP.pdf</UE>
<RK>9</RK>
<ENT_SOURCE>T2-AM54AWJZFQSJB</ENT_SOURCE>
<FS NAME="date" VALUE="2010-11-17"/>
<S>Page 1. Page 2. Page 3. Page 4. </S>
¿Cómo utilizar buscador.gub.uy en mi sitio? | 9
<LANG>es</LANG>
<HAS><L/><C SZ="" CID="GYqRpVYy-SMJ" ENC="ISO-8859-1"/></HAS>
</R>
<R N="3">
<U>http://www.frutosdelitoral.org.uy/web/frutihort/com/-/blogs/cluster-fruticola-de-valparaiso-chile?_33_redirect=%2Fweb%2Ffrutihort%2Fcom</U>
<UE>http://www.frutosdelitoral.org.uy/web/frutihort/com/-/blogs/cluster-fruticola-de-valparaiso-chile%3F_33_redirect%3D%252Fweb%252Ffrutihort%252Fcom</UE>
<T>PACPYMES – Novedades</T>
<RK>8</RK>
<CRAWLDATE>21 Nov 2010</CRAWLDATE>
<ENT_SOURCE>T2-AM54AWJZFQSJB</ENT_SOURCE>
<FS NAME="date" VALUE=""/><S/>
<LANG>es</LANG>
<HAS><L/><C SZ="28k" CID="WhsaCKD0PLcJ" ENC="UTF-8"/></HAS>
</R>
<!-- Algunos resultados omitidos para conservar espacio -->
</RES>
</GSP>
Estructura de los Resultados
ƒ
Tag R: Encapsula los detalles de cada resultado
ƒ
ƒ
ƒ
Atributo N: Posición del documento en la lista de resultados
Atributo L: El nivel recomendado de identacion o sangría para mostrar
ese resultado
Atributo MIME: El tipo 'MIME' del documento
(http://es.wikipedia.org/wiki/Multipurpose_Internet_Mail_Extensions)
ƒ
Tag U: La URL del documento (para consumo humano)
ƒ
Tag UE: La URL codificada (para consumo de maquina)
ƒ
Tag T: Titulo del documento
ƒ
Tag RK: Relevancia (interno de GSA)
ƒ
Tag ENT_SOURCE: Nodo Origen (interno de GSA)
ƒ
Tag FS: Detalles adicionales del resultado
ƒ
ƒ
ƒ
Atributo NAME: Nombre del descriptor
Atributo VALUE: Valor del descriptor
Tag S: Fragmento (Snippet) del documento
¿Cómo utilizar buscador.gub.uy en mi sitio? | 10
ƒ
Tag LANG: Lenguaje del documento (detección automática)
ƒ
Tag HAS: Banderas de características
ƒ
Tag L: Soporta el termino de búsqueda link: (interno de GSA)
ƒ
Tag C: Soporta el termino de búsqueda cache: (Existe una copia del documento
accesible desde el cache del buscador)
Ejemplo 2 - Armando la búsqueda
Por lo general las búsquedas se inician desde una Caja de Búsqueda por lo cual explicaremos como confeccionar el código HTML de una caja de búsqueda básica. También
existe la posibilidad de que se quiera armar una búsqueda para obtener resultados XML
que se consumirán por un programa, este caso también está contemplado en los ejemplos.
En http://peu.agesic.gub.uy/buscador hay un conjunto completo de cajas de búsqueda
100% funcionales, de las que se puede tomar código de ejemplo.
Para armar una búsqueda muy simple sólo necesitamos la frase de búsqueda, que pondremos en un parámetro llamado “q”. Este parámetro se complementa con otros: algunos
que modifican la búsqueda y otros que modifican la estética de los resultados HTML.
Los parámetros más importantes son:
ƒ
q: contiene la frase de búsqueda
ƒ
proxystylesheet: especifica el estilo para mostrar los resultados. Si eliminamos
este parámetro, se obtendrán resultados XML en vez de HTML.
ƒ
site: restringe la búsqueda a la colección indicada. Si eliminamos este parámetro
se obtiene resultados de todo el índice.
La siguiente es una UR de consulta para la búsqueda de la clave “yogur frutillado”:
http://buscador.gub.uy/search?q=yogur+frutillado
Pero dado que no incluimos el parámetro proxystylesheet esta búsqueda nos devuelve resultados en formato XML. Supongamos que tenemos una interfaz llamada “frutal” que
aplica a la estética que queremos darle a nuestras búsquedas, lo aplicaríamos con:
¿Cómo utilizar buscador.gub.uy en mi sitio? | 11
http://buscador.gub.uy/search?q=frutillado&proxystylesheet=frutal
Pero dado que no incluimos el parámetro site esta búsqueda utiliza la colección global,
que abarca todo el índice. Podemos restringir la búsqueda a una colección particular más
acotada. Supongamos que existe una colección de todos los sitios que tienen productos
comestibles, que llamaremos “comestibles”. Acotamos la búsqueda con:
http://buscador.gub.uy/search?q=frutillado&proxystylesheet=frutal&site=comestibles
Entonces, para los parámetros aquí expuestos, una caja de búsqueda se implementaría con
el siguiente código HTML:
<form method="GET" action="http://buscador.gub.uy/search">
<input type="text" name="q" size="32" maxlength="256" value="">
<input type="submit" name="btn" value="Buscar cosas ricas">
<input type="hidden" name="proxystylesheet" value="frutal">
<input type="hidden" name="site" value="comestibles">
</form>
¿Cómo consigo información adicional?
La referencia completa del protocolo de búsqueda de GSA está en la dirección:
http://code.google.com/apis/searchappliance/documentation/64/xml_reference.html
La documentación general de GSA se puede encontrar en la dirección:
http://code.google.com/apis/searchappliance/documentation/64/index.html
El foro de discusión sobre GSA se encuentra en:
http://groups.google.com/group/google-search-appliance?hl=en&pli=1
Los ejemplos de cajas de búsqueda para buscador.gub.uy se encuentran en
http://peu.agesic.gub.uy/buscador