Navegas & utilizas las redes: Robot de Busqueda (Díaz Barriga.P.187)

¿Qué es un Robot de busqueda?

Los principales buscadores de Internet construyen sus bases de datos usando robots comúnmente denominados spiders (arañas), crawlers o webcrawlers. Estos robots son potentes programas que recorren la Web de forma automática y buscan textos, a través de los documentos HTML (u otro tipo de formatos como pdf, imágenes, etc.), donde se incluyan determinadas palabras. Estos textos, junto con las direcciones URL que los contienen, son indexados, clasificados y almacenados en grandes bases de datos para que los internautas, posteriormente, dirijan allí sus consultas e interroguen a la base de datos buscando alguna palabra o frase. Los robots vuelven a recorrer periódicamente estas páginas para buscar alguna modificación o la incorporación de nuevas palabras. Así, la actualización se realiza de forma automática. En general, los robots comienzan con un listado de enlaces y URLs preseleccionadas y, recurrentemente, visitan los documentos que se referencian desde las mismas.

Así pues, en la red hay varios sistemas de búsqueda e indización basados en robots software que:

recuperan y procesan todas las páginas web que encuentran
extraen información de referencia (índices) sobre las páginas, esto es, las indizan
los índices se almacenan en bases de datos que ofrecen servicios de búsqueda basados en expresiones y palabras clave

Ejemplos de robots son:

Gigabot (robot de Gigablast)
Googlebot (robot de Google)
Mozilla Compatible Agent (robot de Yahoo)
Msnbot (robot de MSN)

De esta forma, podemos definir un robot como un programa que recorre una estructura de hipertexto recuperando un enlace y todos los enlaces que están referenciados para, a partir de ahí, alimentar las grandes bases de datos de los motores de búsqueda de la Web. Por el contrario, los Índices y Directorios suelen formarse de forma manual operados por humanos (o de forma automática, pero una vez que los humanos han introducido los datos en el índice por categorías y subcategorías) y no recuperan automáticamente los enlaces incluidos en las páginas web, sino que sólo se limitan a hallar lo que las personas previamente incluyen en ellos, pudiendo como ventaja, clasificar fácilmente por secciones los temas de las páginas web.

Para ver en la práctica cómo funciona un robot, existe una herramienta gratuita en la red que simula lo que ve exactamente un buscador cuando visita una página web. Al introducir una URL, esta herramienta muestra lo que ve el buscador, la información que éste podría indizar y un análisis de los enlaces encontrados en la página: Searh Engine

Robots: los robots adoptan numerosas denominaciones. Casi todas ellas tienen que ver con la metáfora de la Web como telaraña en la que estos robots se mueven como virus. Sin embargo, lo único que hace un robot es visitar los sitios y extraer los enlaces que están incluidos dentro de estos.

He aquí los principales tipos y denominaciones de robots:

Arañas (Spiders)
Es un robot, pero otorga resultados más fríos.

Gusanos (Worms)
Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original.
Orugas (Web crawlers)
Es lo mismo que un robot, pero hay que aclarar que es un tipo específico de robot.
Hormigas (WebAnts)

Se pueden utilizar robots para diferentes propósitos:

Indexar
Validar HTML u otros lenguajes
Validar enlaces
Monitorear "qué hay de nuevo"
Generar imágenes, mapas, etc.

http://www.hipertexto.info/documentos/robot_agent.htm
http://www.abcdatos.com/buscadores/robot.html

Navegas & utilizas las redes

sábado, 19 de noviembre de 2016

Robot de Busqueda (Díaz Barriga.P.187)

No hay comentarios:

Publicar un comentario