inverso Clasificación y resumen
- Nombre del editor:
- Tim Cuthbertson
inverso Etiquetas
inverso Descripción
Extracción estadística de contenido HTML en Python UNFLUFF es una herramienta de extracción de contenido estadística escrita en Python: elimine la pelusa inútil de las páginas HTML arbitrarias. Basado en los métodos discutidos (e implementados) en varios lugares, pero más directamente: * http://www.spicylogic.com/allenday/blog / 2008 / 05/27 / Statistical-HTML-Content-Extraction / * http://www2003.org/cdrom /papers/refereed/p583/p583-gupta.htmlan experimento / trabajo en progreso.usage: La herramienta de línea de comandos puede O tomar un archivo o una URL para extraer. Imprime el árbol de contenido a STDOUT: UNFLUFF /PATH/TE/SOMETHOME.HTMLORUNFLUFF -U 'http://some-website.com/interesting-article.html'thnfuff Library tiene algunas funciones, que casi todas hacen el Lo mismo a través de diferentes formatos: Importar unfluffunfluff.from_url ('http: // lo que sea /') unffluff.from_file ('/tmp/input.html') unfluff.from_string ("< contenido en línea
") De estas son las extensiones nativas (c), lo que significa que está mejor en buscarlas en su amable paquete de vecindario. Requisitos: · Python · LXML · Scipy
inverso Software relacionado