viernes, 8 de noviembre de 2013

Cómo hacer un Web Bot

Los motores de búsqueda, como Google o Yahoo!, sacan las páginas web en sus resultados de búsqueda mediante el uso de robots de Web (también a veces llamado arañas o crawlers), que son programas que exploran el Internet y sitios web de índices en una base de datos. Bots Web pueden hacer uso de los lenguajes de programación, incluyendo C, Perl, Python y PHP, todo lo cual permiten a los ingenieros de software para escribir scripts que llevan a cabo tareas de procedimiento, como la exploración Web y la indexación. 



Abra una aplicación de edición de texto, como el Bloc de notas, que se incluye con Microsoft Windows o TextEdit de Mac OS X, en la que se autor de una aplicación Web bot Python.



Inicie la secuencia de comandos Python al incluir las siguientes líneas de código, y la sustitución de la dirección URL de ejemplo con la dirección URL del sitio web que desea analizar y el nombre de la base de datos de ejemplo, con la base de datos que se almacena los resultados:



importación urllib2, re, string enter_point = 'http://www.exampleurl.com' nombre_bd = 'example.sql'



Incluya las siguientes líneas de código para definir la secuencia de operaciones que el bot Web seguirá:



def uniq (ss): set = {} mapa (set.__setitem__, SEC, []) set.keys Volver ()



Obtener la URL en la estructura de la página web mediante el uso de las siguientes líneas de código:



def geturls (url): items = [] = petición urllib2.Request (url) request.add.header ('usuario', 'Bot_name ;)) content = urllib2.urlopen (petición) read () items = re.. findall ('href = http://.?, contenido) urls = [] urls regreso



Definir la base de datos que el bot Web usará y especificar qué tipo de información se debe guardar para terminar haciendo que el bot Web:



db = open (nombre_bd, 'a') allurls = uniq (geturls (enter_point))



Guarde el documento de texto y subirlo a un servidor o un ordenador con conexión a internet donde se puede ejecutar el script y comenzar a escanear páginas web.



 

1 comentario: