| Mtenco Mgueser es una parte independiente de Libmnogosearch, que permite adivinar el conjunto de caracteres y el lenguaje de un archivo de texto. |
Descargar ahora |
Mtenco Clasificación y resumen
- Nombre del editor:
- Alexander Barkov
- Sitio web del editor:
- http://www.mnogosearch.org/guesser/
Mtenco Etiquetas
Mtenco Descripción
Mgueteser es una parte independiente de Libmnogosearch, que permite adivinar el conjunto de caracteres y el lenguaje de un archivo de texto. Mgueteser es una parte independiente de Libmnogosearch (un núcleo del motor de búsqueda de MNOGO) que permite adivinar el conjunto de caracteres y el lenguaje de un archivo de texto.mgueser se implementa utilizando la técnica de "categorización de texto basada en n-gramo" que se implementa en Textcat Language Adigniter escrito en Perl (http://www.let.rug.nl/~vannoord/Textcat/). Mgueteser es significativamente más rápido que Textcat, especialmente en textos grandes. Este paquete consiste en c algoritmos basados en N escrito, así como una serie de mapas para textos en varios idiomas y conjuntos de caracteres. Eche un vistazo a la Directorio de "Mapas" de este paquete para verificar los idiomas y los conjuntos de caracteres compatibles actualmente. Qué es nuevo en esta versión: · Se agregó la opción -D Línea de comando para cargar los mapas de idioma desde un directorio no predeterminado. · Un colon También se admite la lista de directorios a favor. · Se agregó la opción-Línea de comando -T para especificar cuántos n-gramos principales se impriman en el mapa de salida. · El valor predeterminado es 200, que puede disminuir para un mejor rendimiento o aumentado para Mejor calidad de detección. · Se agregaron unos 30 nuevos mapas de modelo .UsageMevesser requiere datos de texto simple a STDIN. Tenga en cuenta que otros formatos "casi texto" como HTML devolverán malos resultados. En los lanzamientos posteriores, posiblemente agregaré un conmutador de línea de comandos para informar a Mgueser que los datos de entrada son HTML. Mgueser funciona bien para textos con tamaño a partir de 500 bytes y más. Los textos más cortos se adivinan no tan bien. Para adivinar el lenguaje y el conjunto de caracteres de algunos archivos de texto. Mgueser devuelve valores entre 0 y 1.Sí, también puede mostrar un número específico de los mejores resultados usando el interruptor de línea de comandos -n. Por ejemplo, este comando mostrará 3 mejores resultados: Mguesser -N3
Mtenco Software relacionado