htmltotext

Extraer texto y algunos Metainfo de HTML, afrontando las páginas mal formadas, así como sea posible.
Descargar ahora

htmltotext Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • GPL
  • Precio:
  • FREE
  • Nombre del editor:
  • Richard Boulton
  • Sitio web del editor:
  • http://lemurconsulting.com

htmltotext Etiquetas


htmltotext Descripción

Extraiga el texto y algunos Metainfo de HTML, afrontando las páginas mal formadas, así como sea posible. HTMLToteXT es un paquete de Python que se escribió para un motor de búsqueda, para permitirle extraer el contenido textual y los metadatos de las páginas HTML. Intenta lidiar con los conjuntos de caracteres de marcado no válidos y especificados incorrectamente, y elimina las etiquetas HTML (dividir las palabras en las etiquetas apropiadamente). También descarta los contenidos de las etiquetas de script y las etiquetas de estilo. Bien como texto del cuerpo de la página, extrae el título de la página y el contenido de la descripción de Meta y las etiquetas de palabras clave. También analiza las etiquetas de los robots meta para determinar si la página debe ser indexada. El analizador HTML utilizado por este módulo se extrajo de la biblioteca de los motores de búsqueda de Xapian (y específicamente, desde la utilidad de indexación de Omindex en esa biblioteca). Requisitos: · Python


htmltotext Software relacionado

De Openphyra

Openphyra es un marco modular y extensible para la respuesta de la pregunta de dominio abierto (QA). ...

483

Descargar

metaf2xml

Metaf2xml analiza y decodifica los mensajes MEAR y TAF y los almacena como XML. ...

122

Descargar