jtago

Una solución de software libre que combina un conjunto de tokenisers que tratan intuitivamente con lenguaje natural
Descargar ahora

jtago Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • GPL
  • Nombre del editor:
  • Andy Roberts
  • Sistemas operativos:
  • Windows All / Unix
  • Tamaño del archivo:
  • 83 KB

jtago Etiquetas


jtago Descripción

Las cuerdas de tokenización en sus tokens / palabras constituyentes pueden resultar difíciles de ejemplos no triviales. En particular, cuando se trata de un lenguaje natural, debe tener en cuenta la puntuación también para aislar las palabras. Cada uno de los tokenisers adopta una estructura similar a Java.util.StringTokenizer en términos de cómo crear una instancia de las clases y extraer los tokens. Esto significa que son fáciles de usar. Puede escribir, copiar y pegar, o incluso cargar un archivo de texto en la aplicación. Debe seleccionar su tokeniser de elección (y cualquier opción de interés) y luego presione el botón Tokenise. Sus resultados se mostrarán tan pronto como se procesen y tenga la opción de guardar los resultados en el archivo, si elige. La GUI es particularmente útil para experimentar con métodos de tokenización en un entorno de enseñanza (como un curso de NLP). También será de interés para aquellos que deseen utilizar la Biblioteca JTokeniser, pero no tienen la experiencia de programación Java para utilizar el código directamente. Jtokeniser se compone de cuatro tokenisistas que todos se extienden desde una clase de tokeniser ABTRACT: · WhitespacetokeniSer: esto divide una cadena sobre todas las ocurrencias de espacios en blanco, que incluyen espacios, recién llegados, pestañas y líneas. · StringTokeniser: esto es básicamente lo mismo que Java.util.StringTokenizer con algunos métodos adicionales (y se extiende desde Tokeniser). Sin embargo, su comportamiento predeterminado es actuar como un Whitespacetokeninerser, puede especificar un conjunto de caracteres que se utilizarán para indicar delimitadores de palabras. · REGEXTokeniSer: este tokeniser es mucho más flexible, ya que puede usar expresiones regulares para definir un token. Entonces, "\ W +" significa cada vez que coincida con una o más letras, considerará que una palabra. De forma predeterminada, utiliza una expresión regular equivalente a un tokeniser de espacio en blanco. · RegexseParatorTokeniser: se puede considerar como un StringTokeniser avanzado. Mientras que StringTokeniser se limita a definir delimitadores como un conjunto de caracteres individuales, el regexseParatorTokeniser puede utilizar expresiones regulares para un enfoque más rico y flexible. · BreakititerArTokeniser: uno de los tokenisers más sofisticados en la biblioteca, aunque solo debe usarse en cadenas de lenguaje natural para aislar las palabras. También viene con reglas incorporadas sobre cómo encontrar palabras, sabiendo cómo ignorar la puntuación, etc. · SENTENTETEOKENERSER: esto también utiliza un interruptador como el anterior, pero sintonizado para encontrar límites de oración. Los "tokens" en este tokeniser son, de hecho, las oraciones individuales.


jtago Software relacionado

Porqi

PORQI es una biblioteca que no transforma de forma invasiva el código Java para usar llamadas asíncronas ...

214 95 KB

Descargar

Xtas

API XML XML de XML dirigida a * Manipulación * Datos XML de ambos: fuentes no persistentes y persistentes ...

260 3.1 MB

Descargar

Schifra

Schifra es una biblioteca de códigos de corrección de errores de Reed Solomon muy robustos, altamente optimizados y extremadamente configurables. ...

204 63 KB

Descargar