Jericó HTML analizador

Parser HTML de código abierto y abierto para su Mac
Descargar ahora

Jericó HTML analizador Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • GPL
  • Precio:
  • FREE
  • Nombre del editor:
  • M Jericho
  • Sitio web del editor:
  • http://jericho.htmlparser.net/doc/index.html
  • Sistemas operativos:
  • Mac OS X
  • Tamaño del archivo:
  • 1.7 MB

Jericó HTML analizador Etiquetas


Jericó HTML analizador Descripción

Parser HTML de código abierto y abierto para su Mac Jericho HTML Parser es una biblioteca de Java de código abierto que permite el análisis y la manipulación de las partes de un documento HTML, incluidas las etiquetas del lado del servidor, mientras se reproduce verbatim cualquier HTML inválido o no reconocido. Jericó HTML Parser también proporciona funciones de manipulación de formulario HTML de alto nivel. Aquí hay algunas características clave de "Jericho HTML Parser": · · La presencia de HTML mal formateado no interfiere con el análisis del resto del documento, lo que hace que la biblioteca sea ideal para su uso con HTML "Mundo real" que ahuyta a otros parsers. · Las etiquetas PHP, JSP, ASP, PSP y Mason Server son reconocidas explícitamente por el analizador. Esto significa que el HTML normal aún está analizado correctamente, incluso si hay etiquetas de servidor dentro de ellos, lo que es común, por ejemplo, al configurar dinámicamente los atributos de elementos. · · No es un evento ni un analizador a base de árboles, sino que utiliza una combinación de una simple búsqueda de texto, reconocimiento de etiquetas eficiente y un caché de posición de etiqueta. El texto de todo el documento de origen se carga por primera vez en la memoria, y luego solo los segmentos relevantes buscaban los caracteres relevantes de cada operación de búsqueda. · · En comparación con un analizador basado en árboles como DOM, los requisitos de memoria y recursos pueden ser mucho mejores si solo las secciones pequeñas del documento deben ser analizadas o modificadas. HTML incorrecto o mal formateado puede ignorarse fácilmente, a diferencia de los analizadores a base de árboles que deben identificar cada nodo en el documento de arriba a abajo. · · En comparación con un analizador basado en eventos como SAX, la interfaz está en un nivel mucho más alto y más intuitivo, y se crea fácilmente una representación de árbol de la jerarquía del elemento del documento si es necesario. · · Las posiciones de inicio y finalización en el documento de origen de todos los segmentos analizados son accesibles, lo que permite la modificación de solo segmentos seleccionados del documento sin tener que reconstruir todo el documento de un árbol. · · La fila y el número de columna de cada posición en el documento de origen son fácilmente accesibles. · · Proporciona una interfaz simple pero completa para el análisis y la manipulación de los controles de formulario HTML, incluida la extracción y la población de valores iniciales, y la conversión a los modos de pantalla de solo lectura o de datos. El análisis de los controles de la forma también permite que los datos recibidos del formulario se almacenen y se presenten de manera adecuada. · · Los tipos de etiquetas personalizados se pueden definir y registrarse fácilmente para el reconocimiento del analizador. · · Funcionalidad incorporada para extraer todo el texto de HTML Markup, adecuado para alimentarse en un motor de búsqueda de texto como Apache Lucene. · · Funcionalidad incorporada para renderizar el marcado HTML con formato de texto simple. · · Funcionalidad incorporada para formatear el código fuente HTML que sangra elementos de acuerdo con su profundidad en la jerarquía del elemento de documentos. · · Funcionalidad incorporada para compactar código fuente HTML eliminando todo espacio en blanco innecesario.


Jericó HTML analizador Software relacionado

Bygga

BYGA es una herramienta potente y flexible para construir sitios web pequeños a medianos ...

209 747 KB

Descargar