English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Scraping de imágenes de Baidu a través de palabras clave en Python

Herramienta utilizada: Python2.7 Haga clic aquí para descargar

marco scrapy

sublime text3

I. Configuración de Python (versión de Windows)

 1.Instalar Python2.7 ---Luego ingrese python en cmd, si la interfaz es como la siguiente, entonces la instalación ha sido exitosa

 2.Integración del marco Scrapy----Ingrese la línea de comandos: pip install Scrapy

La interfaz de éxito de la instalación es la siguiente:

Hay muchos casos de fracaso, aquí se da un ejemplo:

Solución:

Otras errores pueden buscar en Baidu.

II. Comienza a programar.

1.Crawl sitios web estáticos sin medidas anti-crawling. Por ejemplo, Baidu Tieba, DouBan Shu.

Por ejemplo-Un tema de 'Desktop Bar'https://tieba.baidu.com/p/2460150866?red_tag=3569129009

El código de Python es el siguiente:

Comentarios de código: Se introdujeron dos módulos urllib y re. Se definen dos funciones, la primera es obtener todos los datos de la página web objetivo, la segunda es obtener la imagen objetivo en la página web, recorrer la página web y ordenar las imágenes obtenidas de acuerdo con el número 0.

Nota:知识点 de módulo re:

Imágenes de efecto de crawling:

La ruta de salvaguarda de las imágenes por defecto está en el mismo directorio del archivo .py creado.

2. Crawling imágenes con medidas antiscrawling de Baidu Image. Como Baidu Image, etc.

Por ejemplo, para buscar por palabras clave "meme", https://image.baidu.com/search/index#63;tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

Las imágenes se cargan de manera rollover, primero se crawled las más prioritarias30 imágenes.

El código es el siguiente:

Comentarios de código: importar4Módulos, el módulo os se utiliza para especificar la ruta de salvaguarda. Las dos primeras funciones son las mismas. La tercera función utiliza una declaración if y la excepción tryException.

El proceso de crawling es el siguiente:

Resultados de la crawling:

Nota: Al escribir código en Python, se debe prestar atención a la alineación, y 'and' no debe mezclarse con Tab y espacio, lo que lleva a errores.

Eso es todo el contenido de este artículo, espero que el contenido de este artículo pueda ayudar a todos a aprender o trabajar de alguna manera, también espero que todos den más apoyo a la tutorial de gritos!

Declaración: Este contenido se ha obtenido de la red, es propiedad del autor original, ha sido contribuido y subido por usuarios de Internet de manera autónoma, este sitio web no posee los derechos de propiedad, no ha sido procesado editorialmente y no asume ninguna responsabilidad legal. Si encuentra contenido sospechoso de violación de derechos de autor, por favor envíe un correo electrónico a: notice#w proporcionando evidencia relevante.3Aviso: Este contenido se ha obtenido de la red, es propiedad del autor original, se ha subido por usuarios de Internet de manera autónoma, este sitio web no posee los derechos de propiedad, no se ha procesado editorialmente y no asume ninguna responsabilidad legal. Si encuentra contenido sospechoso de violación de derechos de autor, por favor envíe un correo electrónico a: notice#w proporcionando evidencia relevante, una vez verificada, este sitio eliminará inmediatamente el contenido sospechoso de violación de derechos.

Te gustará