English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Método de Python para extraer enlaces de página web

La siguiente es la implementación más simple, primero captura la página de destino, luego obtiene los enlaces mediante la coincidencia de patrones del atributo href de las etiquetas a

El código siguiente es:

import urllib2
import re
url = 'http://www.sunbloger.com/'
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\./]+)
para a en links:
  imprimir a

Resumen

Este es el contenido completo del artículo, espero que el contenido de este artículo pueda ayudarles en su aprendizaje o trabajo, si tienen alguna pregunta, pueden dejar un mensaje para la comunicación.

Te gustará también