Pykhtml

Pykhtml es un módulo Python para escribir raspadores / arañas del sitio web.
Descargar ahora

Pykhtml Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • BSD License
  • Precio:
  • FREE
  • Nombre del editor:
  • Paul Giannaros
  • Sitio web del editor:
  • http://paul.giannaros.org/pykhtml/

Pykhtml Etiquetas


Pykhtml Descripción

Pykhtml es un módulo de Python para escribir raspadores / arañas del sitio web. Pykhtml es un módulo de Python para escribir raspadores / arañas del sitio web. Considerando que los métodos tradicionales se centran en escribir el código para analizar HTML / FORMS, PYKHTML utiliza el excelente motor KHTML para hacer todo el trabajo de caminata. Por lo tanto, maneja las páginas web muy bien (incluso las más graves) y es bastante rápido (implementado en C ++. ). Como un bono, el módulo maneja a JavaScript y las cookies de forma transparente. La tecaCHYKHTML requiere Pykde 3 (y, por lo tanto, a su vez PYQT 3 + KDE LIBS). Si desea ejecutar Pykhtml en servidores sin una pantalla X, se requiere XVFB. Afortunadamente, estos requisitos deben aparecer con la mayoría de las distribuciones de Linux Modernas, y el soporte para Windows / Mac debería aparecer en los próximos meses. Mostrar un poco de CodeKay. Aquí hay un ejemplo (uno de los muchos ejemplos incluidos en el paquete) que raspa el título y la navegación desde esta página, con un comentario excesivo para brindarle una sensación de qué programación con Pykhtml es como: Importar Pykhtmlpykhtmlurl = "http: // paul. giannaros.org/pykhtml"def ExtractBitsFromage (navegador): # getelementsbytagname devuelve un generador, por lo que convertimamos la lista a una lista y accedemos a la lista Title = title = (browser.document.delementsbytagname ("title")) imprimir " Título: ", Title.Text # Obtenga el texto de la navegación de los elementos de navegación = [] # Primero obtenga el contenedor de los elementos de la lista ... navegación de navegación = navegador.document.getelementbyid (" navegación ") # ... y luego bucle Sobre los elementos de LI que encontramos para ListItem en NavegaciónElement.getelementsByTagName ("Li"): # Dentro del elemento de la lista es un anclaje de anclaje = listitem.children # y el texto dentro del anclaje es lo que queremos navegación. Append (ancla .text) Imprimir "Navegación:", "|" .join (navegación) # parada aquí, hemos terminado pykhtml.stopeven Tloop () Def Main (): Browser = pykhtml.browser () # El navegador se pasa como un parámetro para extraerBitsBromage # cuando se llama (cuando la página ha cargado) Browser.load (Pykhtmlurl, ExtractBomsFromage) # Pykhtml .starteventloop () principal ()


Pykhtml Software relacionado

pafiledb

PAFILEDB es un script que permite a los webmasters tener una base de datos de archivos para descargar en su sitio. ...

782

Descargar