Texto :: ngrams

Texto :: ngrams es un análisis de ngrama flexible (para caracteres, palabras y más).
Descargar ahora

Texto :: ngrams Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • Perl Artistic License
  • Precio:
  • FREE
  • Nombre del editor:
  • Simon Cozens
  • Sitio web del editor:
  • http://search.cpan.org/~simon/Sub-Versive-0.01/Versive.pm

Texto :: ngrams Etiquetas


Texto :: ngrams Descripción

Texto :: ngrams es un análisis de ngrama flexible (para caracteres, palabras y más). Texto :: ngrams es un análisis de ngrama flexible (para caracteres, palabras y más) .synopsisfor for predeterminado análisis N-gram de cadena: Use texto :: ngrams; My $ ng3 = texto :: ngrams-> nuevo; $ ng3-> process_text ('abcdefg1235678hijklmnop'); Imprimir $ ng3-> to_string; mi @ngramsarray = $ ng3-> get_ngrams; uno también puede alimentar tokens manualmente: use texto :: ngrams; My $ ng3 = texto :: ngrams-> nuevo; $ ng3-> feed_tokens ('a'); $ ng3-> feed_tokens ('b'); $ ng3-> feed_tokens ('c'); $ ng3-> feed_tokens ('d'); $ ng3-> feed_tokens ('E'); $ ng3-> feed_tokens ('f'); $ ng3-> feed_tokens ('g'); $ ng3-> feed_tokens ('h'); Podemos elegir n-gramos de varios tamaños, por ejemplo: My $ ng = texto :: ngrams-> nuevo (Windowsize => 6); o diferentes tipos de n-gramos, por ejemplo, : My $ ng = texto :: ngrams-> nuevo (tipo => byte); My $ ng = texto :: ngrams-> nuevo (tipo => palabra); My $ ng = texto :: ngrams-> Nuevo (Type => UTF8); Para procesar una lista de archivos: $ ng-> process_files ('somefile.txt', 'otrosfile.txt'); Este módulo implementa texto n- Análisis de gram, que respalde varios tipos de análisis, incluidos el carácter y la palabra n-grams. El texto del módulo :: los ngrams es muy flexible. Por ejemplo, permite a un usuario alimentar manualmente una secuencia de tokens. Maneja varios tipos de tokens (carácter, palabra), y también permite una gran flexibilidad en el reconocimiento automático y la alimentación de tokens y la forma en que se combinan en un n-gramo. Cuenta todas las frecuencias N-gram hasta la longitud máxima especificada. El formato de salida está destinado a ser prácticamente legible por el hombre, mientras que también se puede cargar el módulo. El módulo se puede usar desde la línea de comandos a través del script ngrams.pl proporcionado con el paquete. Limitaciones: · Si un usuario personaliza un tipo, Es posible que un N-gramo resultante sea ambiguo. De esta manera, a diferentes n-gramos se pueden contar como uno. Con tipos predefinidos de n-gramos, esto no debería suceder. Por ejemplo, si un usuario elige que un token puede contener un espacio, y usa espacio como un separador N-gram, entonces un trigrama como este "x x x x" es ambiguo. · Método Process_File no maneja los tokens de múltiples líneas de forma predeterminada. Esto puede ser fijo, pero no parece valer la pena la complicación del código. Hay varias maneras en torno a esto, si realmente necesita tales fichas: una forma es preprocesarlas. Otra forma es leer tanto texto según sea necesario a la vez que use Process_Text, que maneja tokens de múltiples líneas. Requisitos: · Perl


Texto :: ngrams Software relacionado