¿Cómo funciona un motor de búsqueda?

La mayoría de los buscadores parten del uso de
índices o de robots o 'arañas' de donde sale la información
Buscar información en internet es tan sencillo como escribir una
palabra referente al tema de tu interés, dar click y ¡listo! pero
¿sabes todo lo que hay detrás de una búsqueda en la Red?
Para encontrar lo que buscas entre cientos de millones de páginas
que existen en la World Wide Web, los motores de búsqueda (Internet
Search Engines), mejor conocidos simplemente como
"buscadores" son programas asociados a un sitio que sirven
para localizar coincidencias entre la información que buscas y la
que existe en distintos índices o bases de datos en la Red.
Cada búsqueda te ofrece como resultado, el acceso a un gran número
de enlaces (links) hacia distintas páginas donde puede estar la
información que buscas, aunque precisamente el tipo de resultados
que obtienes, tanto en su número como en su utilidad, depende mucho
del buscador que utilices.
Con índices o con 'arañas'
La mayoría de los buscadores parten del uso de índices o bien de
robots buscadores o "arañas" (spiders) de donde sale la
información y enlaces que el usuario pide al ingresar una palabra y
da click a la búsqueda.
El manejo con índices se refiere a cuando las páginas son
clasificadas de acuerdo con categorías y subcategorías asociadas
además a palabras clave, de manera que al hacer tu búsqueda,
directamente se empata la palabra con su coincidencia dentro de uno
de dichos índices, abriendo las carpetas con todos los enlaces de
la misma clasificación que contengan la palabra.
Este tipo de buscadores son muy efectivos cuando se conoce bien el
tema y más bien se quiere profundizar la información ya que desde
el registro existe un control, incluso humano, para la clasificación
de páginas de acuerdo con el tema y subtemas.
Sin embargo, cuando se trata de búsquedas más generales o donde
partes de cero, las búsquedas basadas en "arañas" son más
eficientes ya que no se limitan a una categoría lo que evita
problemas cuando por ejemplo utilizas una palabra que tiene varios
significados y cambia de acuerdo con el contexto que se utilice como
puede ser gato (animal, juego o herramienta), saco (guardar, vestir,
acción) o cola (fila, pegamento, parte del cuerpo), por ejemplo.
Entre telarañas
Las arañas son programas "robot" que rastrean la red con
búsquedas simultáneas partiendo de sitios populares y dispersándose
a través de los distintos enlaces que contienen, todo en función
de los contenidos que manejan en relación con la palabra clave que
escribes en el buscador.
Google utiliza varias arañas, generalmente tres a la vez, logrando
buscar entre más de 300 conexiones a páginas web abiertas al mismo
tiempo, y con cuatro arañas el sistema puede recorrer más de 100 páginas
por segundo generando cerca de 600 KB de datos por segundo, lo que
se traduce en búsquedas mucho más rápidas y amplias.
Además, Google tiene un servidor dedicado a proveer URL
(direcciones de internet) directamente a las arañas al tener su
propio DNS (Domain Name Server) para hacer más rápidas las búsquedas,
esto sin contar que para no perder tiempo, en cada página Google
deja atrás palabras "inútiles" como artículos y
conjunciones.
Dependiendo del tipo de arañas es el tipo y resultado de la búsqueda,
y por ejemplo Lycos aunque también utiliza robots de búsqueda
automática, sus arañas tienen como característica que mantienen
un rastro en sus búsquedas para ir mejorando las búsquedas
posteriores, mientras que las arañas de Altavista dan resultados más
incluyentes porque checan todas las palabras, incluso a nivel de
conjunciones o interjecciones.
El más importante
Uno de los problemas comunes cuando se tienen muchos resultados en
una búsqueda es saber cuál es el más importante o el que mejor
nos va servir, problema que aumenta cuando las búsquedas no se
realizan por categorías y subcategorías (índices) donde uno como
usuario puede elegir la ruta y el sitio que más se acerca a lo que
queremos.
Y es que no siempre el primer enlace es el más útil, entonces ¿cómo
es que se acomodan los resultados?
Cada buscador tiene sus criterios para ordenar los resultados
(ranking) y varían desde criterios de selección humana (calidad de
la fuente, credibilidad o popularidad, entre otros) o de referencias
de terceros, hasta cuestiones de mercadotecnia y pago de cuotas para
salir al principio de las listas.
Por eso, muchas veces la misma palabra puede producir listas
diferentes o bien con los mismos elementos pero ordenados en forma
distinta, sobre todo cuando el usuario hace búsquedas simples que
además suelen arrojar cantidades exageradas de resultados, como la
palabra "casa" que arroja ¡más de 10 millones de páginas!
¿estás dispuesto a revisarlas todas?
Nunca olvides que más allá de elegir el buscador que quieras, es
importante que aprendas a utilizar también las funciones de búsqueda
avanzada o el uso de operadores booleanos (and, or, not, followed
by, near, o comillas para tratar palabras como frases) para darle
una manita a tu buscador.
Por lo menos en lo que se terminan de desarrollar los buscadores del
futuro que en vez de trabajar simplemente con base en palabras
clave, integran el uso de meta etiquetas, análisis estadísticos de
preferencias y costumbres, manejo de palabras y contextos, donde la
computadora y el sitio serán lo suficientemente inteligentes para
reconocer al usuario, gustos e intereses, y agregar esta información
como filtros para hacer más precisas sus búsquedas, además con un
lenguaje más natural como cuando le preguntas algo a un amigo y si
le preguntas sobre elefante directamente te lleve al nuevo disco y
no a un viaje entre paquidermos de Asia y Africa.
Por Guillermo López |