Los principales buscadores de
Internet construyen sus bases de datos usando robots
comúnmente denominados spiders (arañas), crawlers o webcrawlers. Estos robots son potentes programas que recorren la
Web de
forma automática y buscan textos, a través de los documentos HTML
(u otro tipo de formatos como pdf, imágenes, etc.), donde se
incluyan determinadas palabras. Estos textos, junto con las direcciones
URL que los contienen, son indexados, clasificados
y almacenados en grandes bases de datos para que los internautas,
posteriormente, dirijan allí sus consultas e interroguen a la base de datos
buscando alguna palabra o frase.
Los robots vuelven a recorrer periódicamente estas páginas para buscar alguna
modificación o la incorporación de nuevas palabras. Así, la actualización
se realiza de forma automática. En general, los robots comienzan con un listado
de enlaces y
URLs preseleccionadas y, recurrentemente, visitan
los documentos que se referencian desde las mismas.
Así pues, en la red hay varios
sistemas de búsqueda e indización basados en robots
software que:
-
recuperan y procesan todas las páginas web que encuentran
-
extraen información de referencia (índices) sobre las páginas, esto es, las indizan
-
los índices se almacenan en bases de datos que ofrecen servicios de búsqueda basados en expresiones y palabras clave
- Gigabot (robot de Gigablast)
- Googlebot (robot de Google)
- Mozilla Compatible Agent (robot de Yahoo)
- Msnbot (robot de MSN)
De esta forma, podemos definir un robot como un programa que recorre una estructura de
hipertexto recuperando un enlace y todos los enlaces que están referenciados
para, a partir de ahí, alimentar las grandes bases de datos de los
motores de búsqueda de la Web. Por el
contrario, los
Índices y
Directorios suelen formarse de forma manual operados por humanos (o de forma
automática, pero una vez que los humanos han introducido los datos en el índice por categorías y
subcategorías) y no
recuperan automáticamente los enlaces incluidos en las páginas web, sino que
sólo se limitan a hallar lo que las personas previamente incluyen en ellos,
pudiendo como ventaja, clasificar fácilmente por secciones
los temas de las páginas web.
Para ver en la práctica cómo funciona un robot, existe una
herramienta gratuita en la red que simula lo que ve exactamente un buscador
cuando visita una página web. Al introducir una URL, esta herramienta muestra
lo que ve el buscador, la información que éste podría indizar y un análisis de
los enlaces encontrados en la página:
Searh Engine
Robots: los robots adoptan numerosas denominaciones. Casi todas ellas
tienen que ver con la metáfora de la Web como telaraña en la que estos robots se
mueven como virus. Sin embargo, lo único que hace un robot es visitar los sitios
y extraer los enlaces que están incluidos dentro de estos.
He aquí los principales tipos y denominaciones de robots:
Arañas (Spiders)
Es un robot, pero otorga resultados más fríos.
Gusanos (Worms)
Es un robot, pero otorga resultados más fríos.
Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original.
Orugas (Web crawlers)
Es lo mismo que un robot, pero hay que aclarar que es un tipo específico de robot.
Hormigas (WebAnts)
Se pueden utilizar robots para diferentes propósitos:- Indexar
- Validar HTML u otros lenguajes
- Validar enlaces
- Monitorear "qué hay de nuevo"
- Generar imágenes, mapas, etc.
http://www.hipertexto.info/documentos/robot_agent.htm
http://www.abcdatos.com/buscadores/robot.html
No hay comentarios:
Publicar un comentario