Texto :: Bloom

Texto :: Bloom puede evaluar la firma de floración de un conjunto de términos.
Descargar ahora

Texto :: Bloom Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • Perl Artistic License
  • Precio:
  • FREE
  • Nombre del editor:
  • Andrea Spinelli and Walter Vannini
  • Sitio web del editor:
  • http://search.cpan.org/~aspinelli/Text-Document-1.07/Bloom.pod

Texto :: Bloom Etiquetas


Texto :: Bloom Descripción

Texto :: Bloom puede evaluar la firma de floración de un conjunto de términos. Texto :: Bloom puede evaluar la firma de la floración de un conjunto de términos.Synopsis My $ B = Texto :: Bloom-> Nuevo (); $ b-> calcular (QW (FOO BAR BAZ)); My $ SIG = $ B-> WRITETOSTRING (); $ b-> writetofile ('afile.sig'); My $ B2 = Texto :: Bloom :: NewfromFile ('Afile.SIG'); My $ B3 = Texto :: Bloom-> Nuevo (); $ b3-> calcular (QW (Foo Bar Barbaz)); MY $ SIM = $ B-> Similitud ($ B2); My $ B4 = Texto :: Bloom :: Newfromstring ($ SIG); Texto :: Bloom aplica la técnica de filtrado de la floración al análisis estadístico de los documentos. Los términos en el documento se cuantifican utilizando una representación base-36 radix; Cada término corresponde así a un entero en el rango 0..p-1, donde P es un primo, actualmente establecido en el mayor primo menor que 2 ^ 32. Cada valor cuantificado se asignan a D enteros en el rango 0..size -1, donde el tamaño es un número entero menos que P, actualmente 2 ^ 17, utilizando una familia de funciones hash, calculada por la función hashv. Cada valor hash se usa como índice en un vector de bits grande. Los bits correspondientes a los términos presentes en el documento se establecen en 1; Todos los demás bits están establecidos en 0.F de curso, las colisiones pueden hacer que el mismo bit se configure dos veces, por diferentes términos. Se deduce que, si el documento contiene n términos distintos, en el vector de bit resultante a lo sumo, los bits n * d se establecen en 1.La cadena de bits resultante es una representación muy compacta de la presencia / ausencia de términos en el documento, y es Por lo tanto, caracterizado como una firma. Además, no depende de un diccionario preestablecido de términos. Se puede usar la firma para: probar si un conjunto determinado de términos está presente en el documento, informando qué fracción de los términos son comunes a dos documentos. La representación del bit puede ser escrito y leer de un archivo. Texto :: Bloom prepende un encabezado a la corriente de bits; Además, siempre que el paquete comprima :: Zlib está disponible, el vector del bit se comprime, de modo que los requisitos del espacio en disco se reducen drásticamente, especialmente para documentos pequeños. La función hash es obviamente un componente crucial del filtro; La implementación de referencia utiliza una representación de las cadenas RADIX. Por lo tanto, cada término debe coincidir con la expresión regular /[0-9A-z-+/. Hay bastantes alternativas viables, que pueden perseguirse subclasificando y redefiniendo el método Quantizev.Requirements: · Requisitos de Perl: · Perl


Texto :: Bloom Software relacionado

Neem

Neem es una biblioteca que proporciona una implementación de la multidifusión epidémica. ...

148

Descargar