| Pdftxtstream A PDF Texto y biblioteca de extracción de metadatos disponibles para Java, Python y .NET. |
Descargar ahora |
Pdftxtstream Clasificación y resumen
- Licencia:
- Other/Proprietary Li...
- Precio:
- USD 1900.00 | BUY the full version
- Nombre del editor:
- Snowtide Informatics Systems, Inc.
- Sitio web del editor:
- http://snowtide.com/
Pdftxtstream Etiquetas
Pdftxtstream Descripción
Una biblioteca de extracción de texto y metadatos PDF disponible para Java, Python y .NET. PDFTextStream Project es un texto PDF y una biblioteca de extracción de metadatos disponibles para Java, Python y .NET.IT Admite todas las versiones de la especificación del documento PDF, (incluido V1.6, utilizado por Acrobat 7), extracción de texto codificado con doble byte Conjuntos de caracteres (incluidos los chinos, japoneses y coreanos), descifrado de documentos cifrados de 40 bits y 128 bits, y extracción de todos los metadatos de documentos proporcionados por documentos PDF (incluidos datos de formularios, marcadores y anotaciones). Se incluye la fácil integración con Yakarta Lucene. Requisitos: · Apache Lucene ¿Qué hay de nuevo en este lanzamiento: · Se agregó un método .isstruckThoughThe () a com.snowtide.pdf.textunit, lo que indica si un personaje tiene un estricto atraído a través de él. · El soporte mejorado de PDFTExtStream para asignaciones de caracteres incrustadas. · El cálculo del espacio en blanco entre las palabras se ha fijado para tener en cuenta adecuadamente el espacio en blanco que se codifica explícitamente en los documentos de origen PDF. · El manejo mejorado de PDFTExTstream de codificaciones de contenido compuesto, que anteriormente podrían fallar, lo que resulta en algunos rangos de contenido de PDF "ignorado" durante la extracción. · Se corrigió un error en VisualOutputTarget donde se dividiría el texto de una sola línea sobre varias líneas · Alineación vertical mejorada del texto extraído utilizando VisualOutPutTarget · Mejore los extractos producidos por VisualOutPutTarget para eliminar el espacio en blanco espurio entre palabras estrechamente adyacentes
Pdftxtstream Software relacionado