Portal del Estado Uruguayo ¿Cómo utilizar buscador.gub.uy en mi sitio? Información del Proyecto BORRADOR – Diciembre 2010 ¿Cómo utilizar buscador.gub.uy en mi sitio? | 2 Además de proveer búsquedas especializadas en el Estado uruguayo, buscador.gub.uy tiene la capacidad de generar resultados personalizados para un único sitio o una familia de sitios. Si bien configurar esta funcionalidad para un sitio específico no es un procedimiento trivial, las dificultades técnicas están lejos de ser de alta complejidad. El presente documento intenta brindar la información necesaria para llevar adelante el proceso de incorporar buscador.gub.uy como motor de búsquedas personalizadas en un sitio. Conceptos Básicos ¿Cómo funciona buscador.gub.uy? buscador.gub.uy está implementado con el motor de búsquedas Google Search Appliance. Los equipos se encuentran alojados en centros de datos de ANTEL. Para nuestra tarea es importante dividir esta tecnología en estos tres elementos lógicos: Rastreador Buscador Interfaz ¿Qué es el Rastreador? Es el proceso que visita su sitio periódicamente para leer el contenido y luego procesarlo e ingresarlo en un índice. ¿Qué es el Buscador? Es el proceso que a partir de la pregunta de un usuario (una palabra, numero, oración), devuelve un conjunto de resultados relevantes. Para realizarlo el Buscador utiliza el índice que confecciona el Rastreador. ¿Qué es la interfaz? El Buscador devuelve en primera instancia el conjunto de resultados como un documento XML. La interfaz es quien toma esos resultados y les aplica el formato que finalmente se despliega en la pantalla. ¿Cómo utilizar buscador.gub.uy en mi sitio? | 3 buscador.gub.uy puede implementar muchas interfaces de búsqueda distintas e independientes. ¿Qué quiere decir que mi sitio sea visitado por el Rastreador? Quiere decir que el contenido de su sitio será leído e indexado para ser utilizado por el Buscador y a partir de ese momento incluir las páginas de su sitio cuando resulten relevantes para la clave de búsqueda del usuario. ¿Puedo saber si el Rastreador está visitando mi sitio? Usted puede identificar las visitas del Rastreador filtrando las bitácoras (logs) de su Web Server por el campo “User Agent”. El Rastreador se identifica como “agesic-crawler”. ¿Puedo tener una interfaz de búsqueda para mi sitio? Sí, por supuesto. No solo puede tener una interfaz de búsqueda personalizada, sino además un índice personalizado, lo que técnicamente se denomina una “Colección”. ¿Qué es una Colección? Una Colección es un subconjunto del índice, que abarca uno o más dominios. El Buscador tiene capacidad de restringir una búsqueda a una colección determinada, logrando así múltiples buscadores temáticos diferentes a partir de un único índice. ¿Uno de estos buscadores puede ser para mi Organismo? Ese es exactamente el objetivo. Su organismo puede tener una “Interfaz de Búsqueda” y una Colección (o varias) que permitan buscar en el contenido de su sitio de la forma que usted lo defina. ¿Cómo utilizar buscador.gub.uy en mi sitio? | 4 ¿Están indexadas todas las páginas del Estado Uruguayo? Están indexadas todas las páginas estatales de dominios gub.uy, edu.uy, org.uy, net.uy y mil.uy. También están indexados los principales sitios estatales en dominios com.uy y de dominios que no son uruguayos, fundamentalmente .com. Se siguen agregando las páginas estatales que faltan en la medida en que se detectan. Cómo puedo saber si mi sitio ya está en el índice? Solo tiene que hacer una búsqueda en buscador.gub.uy agregando el prefijo site: al dominio de su sitio. Por ejemplo, para saber si hay páginas indexadas del sitio frutales.gub.uy la clave de búsqueda debe ser site:frutales.gub.uy Si obtiene resultados, su sitio se encuentra en el índice. La cantidad de resultados le indicará cuántas páginas hay incluidas en total. ¿Cómo hacer que se incluya mi sitio? Enviando un correo electrónico a [email protected] con la solicitud. Nos pondremos en contacto con usted y ajustaremos los detalles que fueran necesarios. También puede contactarse con el equipo del Portal del Estado a esta dirección de correo electrónico por cualquier otra inquietud que pueda surgirle. Implementando buscador.gub.uy en mi sitio Existen 2 modos de utilizar buscador.gub.uy para implementar un buscador en su sitio: Alojado en AGESIC Como Web Service” En la modalidad Alojado en AGESIC la interfaz de búsqueda reside en buscador.gub.uy. Usted nos entrega un boceto de una “Caja de búsqueda” y “Pagina de Resultados” y luego de validarlo lo cargamos en nuestros servidores. Usted puede embeber la página de re- ¿Cómo utilizar buscador.gub.uy en mi sitio? | 5 sultados en un IFRAME o simplemente mostrar directamente la página de resultados de buscador.gub.uy, que tendrán la estética que usted indicó. En la modalidad Web Service, usted crea un formulario para la caja de búsqueda, y realiza un GET a buscador.gub.uy con los parámetros necesarios (Los detalles de esta modalidad están en el Anexo Web Services). Los resultados se reciben como un documento XML. La modalidad Alojado en AGESIC tiene la ventaja de que el buscador, una vez configurado y en marca, no le requerirá programación adicional ni preocupaciones. Por otra parte, la modalidad Web Services, si bien requiere una atención adicional, le brindará mayor flexibilidad e independencia. ¿Qué es una Caja de Búsqueda? Las cajas de búsqueda son los elementos en una interfaz grafica que permiten el ingreso de los términos de búsqueda. buscador.gub.uy aspira a que todos los sitios que utilizan la herramienta guarden una coherencia estética, por lo que recomienda utilizar un conjunto de cajas de búsqueda predefinido, con múltiples opciones para adaptarse a los requerimientos de cada sitio. Sumado a esto, también recomienda fuertemente el uso de cajas de búsquedas que añadan al botón principal un botón que permita buscar directamente en todo el estado a través de buscador.gub.uy, como forma de contribuir a la difusión de la herramienta. Se muestran algunos ejemplos de las cajas de búsquedas sugeridas. Se puede encontrar la familia completa de cajas de búsqueda, en perfecto funcionamiento y con el código fuente de ejemplo para utilizarlas en http://peu.agesic.gub.uy/buscador Dos botones, sin cuadro ¿Cómo utilizar buscador.gub.uy en mi sitio? | 6 Dos botones, con cuadro Dos botones, aplicado en negativo Un botón, con cuadro Un botón, sin cuadro Un botón, en aplicado en negativo ¿Qué es una Página de Resultados? No es otra cosa que lo que un usuario espera como resultado de una búsqueda. Se muestra a continuación la de buscador.gub.uy, pero naturalmente la de su sitio tendrá una apariencia distinta. ¿Cómo utilizar buscador.gub.uy en mi sitio? | 7 Anexo 1 Web Services Se muestran a continuación una serie de ejemplos que muestran distintas opciones del uso de buscador.gub.uy. Al final del documento se incluyen las direcciones de los sitios que contienen la referencia completa del protocolo de búsqueda de GSA. Ejemplo 1 – búsqueda común en todo el índice En este ejemplo vamos a hacer una búsqueda del término “fruticola”, en todo el índice (el índice completo en buscador.gub.uy es llamado “default_collection). ¿Cómo utilizar buscador.gub.uy en mi sitio? | 8 Se realiza un GET a la siguiente URL: http://buscador.gub.uy/search?site=default_collection&output=xml_no_dtd&q=fruticola Obtendremos el resultado en formato XML: <?xml version="1.0" encoding="ISO-8859-1" standalone="no"?> <GSP VER="3.2"> <TM>0.046990</TM> <Q>fruticola</Q> <PARAM name="site" value="default_collection" original_value="default_collection"/> <PARAM name="output" value="xml_no_dtd" original_value="xml_no_dtd"/> <PARAM name="q" value="fruticola" original_value="fruticola"/> <PARAM name="ie" value="UTF-8" original_value="UTF-8"/> <PARAM name="ip" value="127.10.10.10" original_value="127.10.10.10"/> <PARAM name="access" value="p" original_value="p"/> <PARAM name="sort" value="date:D:L:d1" original_value="date%3AD%3AL%3Ad1"/> <RES SN="1" EN="10"> <M>34</M> <FI/> <NB> <NU>/search?q=fruticola&site=default_collection&lr=&ie=UTF8&output=xml_no_dtd&access=p&sort=date:D:L:d1&start=10&sa=N</NU> </NB> <R N="1" MIME="application/pdf"> <U>http://www.mgap.gub.uy/portal/agxppdwn.aspx?7,5,110,O,S,0,1727%3BS%3B1%3B116,</U> <UE>http://www.mgap.gub.uy/portal/agxppdwn.aspx%3F7,5,110,O,S,0,1727%253BS%253B1%253B116,</UE> <T>El Ministerio de Ganadería, Agricultura y Pesca, a través de <b>...</b></T> <RK>10</RK> <ENT_SOURCE>T2-AM54AWJZFQSJB</ENT_SOURCE> <FS NAME="date" VALUE=""/> <S><b>...</b> través de Estadísticas Agropecuarias (DIEA) comunica: RESULTADOS DE LA<br> ENCUESTA <b>FRUTICOLA</b> 2010 Montevideo, 23 de junio de 2010 La <b>...</b> <LANG>es</LANG> </S> <HAS><L/><C SZ="" CID="f_CyxouLfzUJ" ENC="UTF-8"/></HAS> </R> <R N="2" MIME="application/pdf"> <U>http://www.mef.gub.uy/comap/resoluciones/FRUTICOLA%20LIBERTAD%20S.A.%2073442%2020101015%20MGAP.pdf</ U> <UE>http://www.mef.gub.uy/comap/resoluciones/FRUTICOLA%2520LIBERTAD%2520S.A.%252073442%252020101015%252 0MGAP.pdf</UE> <RK>9</RK> <ENT_SOURCE>T2-AM54AWJZFQSJB</ENT_SOURCE> <FS NAME="date" VALUE="2010-11-17"/> <S>Page 1. Page 2. Page 3. Page 4. </S> ¿Cómo utilizar buscador.gub.uy en mi sitio? | 9 <LANG>es</LANG> <HAS><L/><C SZ="" CID="GYqRpVYy-SMJ" ENC="ISO-8859-1"/></HAS> </R> <R N="3"> <U>http://www.frutosdelitoral.org.uy/web/frutihort/com/-/blogs/cluster-fruticola-de-valparaiso-chile?_33_redirect=%2Fweb%2Ffrutihort%2Fcom</U> <UE>http://www.frutosdelitoral.org.uy/web/frutihort/com/-/blogs/cluster-fruticola-de-valparaiso-chile%3F_33_redirect%3D%252Fweb%252Ffrutihort%252Fcom</UE> <T>PACPYMES – Novedades</T> <RK>8</RK> <CRAWLDATE>21 Nov 2010</CRAWLDATE> <ENT_SOURCE>T2-AM54AWJZFQSJB</ENT_SOURCE> <FS NAME="date" VALUE=""/><S/> <LANG>es</LANG> <HAS><L/><C SZ="28k" CID="WhsaCKD0PLcJ" ENC="UTF-8"/></HAS> </R> <!-- Algunos resultados omitidos para conservar espacio --> </RES> </GSP> Estructura de los Resultados Tag R: Encapsula los detalles de cada resultado Atributo N: Posición del documento en la lista de resultados Atributo L: El nivel recomendado de identacion o sangría para mostrar ese resultado Atributo MIME: El tipo 'MIME' del documento (http://es.wikipedia.org/wiki/Multipurpose_Internet_Mail_Extensions) Tag U: La URL del documento (para consumo humano) Tag UE: La URL codificada (para consumo de maquina) Tag T: Titulo del documento Tag RK: Relevancia (interno de GSA) Tag ENT_SOURCE: Nodo Origen (interno de GSA) Tag FS: Detalles adicionales del resultado Atributo NAME: Nombre del descriptor Atributo VALUE: Valor del descriptor Tag S: Fragmento (Snippet) del documento ¿Cómo utilizar buscador.gub.uy en mi sitio? | 10 Tag LANG: Lenguaje del documento (detección automática) Tag HAS: Banderas de características Tag L: Soporta el termino de búsqueda link: (interno de GSA) Tag C: Soporta el termino de búsqueda cache: (Existe una copia del documento accesible desde el cache del buscador) Ejemplo 2 - Armando la búsqueda Por lo general las búsquedas se inician desde una Caja de Búsqueda por lo cual explicaremos como confeccionar el código HTML de una caja de búsqueda básica. También existe la posibilidad de que se quiera armar una búsqueda para obtener resultados XML que se consumirán por un programa, este caso también está contemplado en los ejemplos. En http://peu.agesic.gub.uy/buscador hay un conjunto completo de cajas de búsqueda 100% funcionales, de las que se puede tomar código de ejemplo. Para armar una búsqueda muy simple sólo necesitamos la frase de búsqueda, que pondremos en un parámetro llamado “q”. Este parámetro se complementa con otros: algunos que modifican la búsqueda y otros que modifican la estética de los resultados HTML. Los parámetros más importantes son: q: contiene la frase de búsqueda proxystylesheet: especifica el estilo para mostrar los resultados. Si eliminamos este parámetro, se obtendrán resultados XML en vez de HTML. site: restringe la búsqueda a la colección indicada. Si eliminamos este parámetro se obtiene resultados de todo el índice. La siguiente es una UR de consulta para la búsqueda de la clave “yogur frutillado”: http://buscador.gub.uy/search?q=yogur+frutillado Pero dado que no incluimos el parámetro proxystylesheet esta búsqueda nos devuelve resultados en formato XML. Supongamos que tenemos una interfaz llamada “frutal” que aplica a la estética que queremos darle a nuestras búsquedas, lo aplicaríamos con: ¿Cómo utilizar buscador.gub.uy en mi sitio? | 11 http://buscador.gub.uy/search?q=frutillado&proxystylesheet=frutal Pero dado que no incluimos el parámetro site esta búsqueda utiliza la colección global, que abarca todo el índice. Podemos restringir la búsqueda a una colección particular más acotada. Supongamos que existe una colección de todos los sitios que tienen productos comestibles, que llamaremos “comestibles”. Acotamos la búsqueda con: http://buscador.gub.uy/search?q=frutillado&proxystylesheet=frutal&site=comestibles Entonces, para los parámetros aquí expuestos, una caja de búsqueda se implementaría con el siguiente código HTML: <form method="GET" action="http://buscador.gub.uy/search"> <input type="text" name="q" size="32" maxlength="256" value=""> <input type="submit" name="btn" value="Buscar cosas ricas"> <input type="hidden" name="proxystylesheet" value="frutal"> <input type="hidden" name="site" value="comestibles"> </form> ¿Cómo consigo información adicional? La referencia completa del protocolo de búsqueda de GSA está en la dirección: http://code.google.com/apis/searchappliance/documentation/64/xml_reference.html La documentación general de GSA se puede encontrar en la dirección: http://code.google.com/apis/searchappliance/documentation/64/index.html El foro de discusión sobre GSA se encuentra en: http://groups.google.com/group/google-search-appliance?hl=en&pli=1 Los ejemplos de cajas de búsqueda para buscador.gub.uy se encuentran en http://peu.agesic.gub.uy/buscador
© Copyright 2024