Pdftxtstream

A PDF Texto y biblioteca de extracción de metadatos disponibles para Java, Python y .NET.
Descargar ahora

Pdftxtstream Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • Other/Proprietary Li...
  • Precio:
  • USD 1900.00 | BUY the full version
  • Nombre del editor:
  • Snowtide Informatics Systems, Inc.
  • Sitio web del editor:
  • http://snowtide.com/

Pdftxtstream Etiquetas


Pdftxtstream Descripción

Una biblioteca de extracción de texto y metadatos PDF disponible para Java, Python y .NET. PDFTextStream Project es un texto PDF y una biblioteca de extracción de metadatos disponibles para Java, Python y .NET.IT Admite todas las versiones de la especificación del documento PDF, (incluido V1.6, utilizado por Acrobat 7), extracción de texto codificado con doble byte Conjuntos de caracteres (incluidos los chinos, japoneses y coreanos), descifrado de documentos cifrados de 40 bits y 128 bits, y extracción de todos los metadatos de documentos proporcionados por documentos PDF (incluidos datos de formularios, marcadores y anotaciones). Se incluye la fácil integración con Yakarta Lucene. Requisitos: · Apache Lucene ¿Qué hay de nuevo en este lanzamiento: · Se agregó un método .isstruckThoughThe () a com.snowtide.pdf.textunit, lo que indica si un personaje tiene un estricto atraído a través de él. · El soporte mejorado de PDFTExtStream para asignaciones de caracteres incrustadas. · El cálculo del espacio en blanco entre las palabras se ha fijado para tener en cuenta adecuadamente el espacio en blanco que se codifica explícitamente en los documentos de origen PDF. · El manejo mejorado de PDFTExTstream de codificaciones de contenido compuesto, que anteriormente podrían fallar, lo que resulta en algunos rangos de contenido de PDF "ignorado" durante la extracción. · Se corrigió un error en VisualOutputTarget donde se dividiría el texto de una sola línea sobre varias líneas · Alineación vertical mejorada del texto extraído utilizando VisualOutPutTarget · Mejore los extractos producidos por VisualOutPutTarget para eliminar el espacio en blanco espurio entre palabras estrechamente adyacentes


Pdftxtstream Software relacionado

Pilúcida

Pylucid es un sistema de gestión de contenido ligero escrito en Pure Python CGI. ...

128

Descargar

Cornelios

Un sistema operativo virtual basado en la web que se ejecuta en la parte superior de un sistema host. ...

123

Descargar