| Raspados Un marco para raspar y raspar en sitios web de varias páginas |
Descargar ahora |
Raspados Clasificación y resumen
- Nombre del editor:
- Peter Jones
- Sitio web del editor:
- http://rubyforge.org/users/pjones/
- Sistemas operativos:
- Mac OS X
- Tamaño del archivo:
- 38 KB
Raspados Etiquetas
Raspados Descripción
Un marco para rastrear y raspar en sitios web de múltiples páginas. A diferencia de otros marcos de raspado, el Marco de Scrapes está diseñado para poder trabajar con sitios web "sucios". Es decir, los sitios web que no estaban diseñados para que sus datos extraeran los programas. X licencia de consorcio. Aquí hay algunas características clave de "raspes": · Selección basada en reglas y extracción de datos que pueden usar selectores CSS o expresiones Pseudo XPath. · Sistema de almacenamiento en caché para que durante el desarrollo no tiene que descargar las páginas continuamente desde un servidor web mientras experimenta con sus selectores y extractores · Sistema de validación que ayuda a detectar cambios en el sitio web que de otra manera invalidará sus reglas de extracción · Soporte para iniciar una sesión con el servidor web, y pasar las cookies de sesión al servidor web · Cuando todo lo demás falla, puede ejecutar una página web a través del procesador XSLTPROC XSLT para generar un documento XML que se puede ejecutar a través de su analizador basado en reglas · Conjunto útil de métodos de post-procesamiento, como Normalize_Name ¿Qué hay de nuevo en este lanzamiento: · Primera versión pública.
Raspados Software relacionado