El proyecto lemur

Aplicación de recuperación de información y modelado de información
Descargar ahora

El proyecto lemur Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • Freeware
  • Precio:
  • FREE
  • Nombre del editor:
  • The Lemur Team
  • Sitio web del editor:
  • http://www.lemurproject.org/
  • Sistemas operativos:
  • Mac OS X
  • Tamaño del archivo:
  • 63.6 MB

El proyecto lemur Etiquetas


El proyecto lemur Descripción

Modelado de idiomas y aplicación de recuperación de información. El kit de herramientas Lemur es una aplicación gratuita y de código abierto diseñada para facilitar la investigación en el modelado de idiomas y la recuperación de la información. El kit de herramientas de Lemur incluye tecnologías como ad hoc y recuperación distribuida, lenguaje transversal, resumen, filtrado y clasificación. Aquí hay algunas características clave de "The Lemur Project": · Idiomas sofisticados de consulta estructurada (utilizando informations y indri) · Soporte para XML y recuperación de documentos estructurados. · Se utiliza comúnmente con una amplia gama de colecciones de pruebas de investigación (por ejemplo, TREC CDS 1-5, WT10G, RCV1, GOV, GOV2) · Indice sus páginas web con una capacidad de búsqueda de sitios "fuera de la caja" · Interfaces interactivas para Windows, Linux y Web · Recuperación de información distribuida y aplicaciones de cluser de documentos. · Código multiplataforma, rápido y modular escrito en C ++ · Apis C ++, Java y C # · Software libre y de código abierto. · En uso durante más de 6 años por una comunidad de usuarios grandes y en crecimiento. Indexación: · Métodos de indexación múltiples para colecciones pequeñas, medianas y grandes (terabyte) · Soporte incorporado para el texto inglés, chino y árabe. · Porter y Krovetz Word stemming · Indexación incremental · Soporte de indexación fuera de la caja para TREC Texto, TREC Web, texto liso, HTML, XML, PDF, Mbox, Microsoft Word y Microsoft PowerPoint · Índices Anotaciones de texto en línea y offset (por ejemplo, parte de la parte del discurso y las entidades nombradas) · Indexas Atributos de documentos Recuperación: · Apoya los principales enfoques de modelado de idiomas tales como Indri y Kl-Divergence, así como el espacio vectorial, TF.idf, Okapi y las informaciones · Relevancia y retroalimentación de pseudo-relevancia. · Expansión del término de comodín (usando Indri) · Pasaje y recuperación de elementos XML. · Recuperación cruzada cruzada · Alisado a través de Dirichlet Priors y cadenas de Markov. · Soporta los Priors de documentos arbitrarios (por ejemplo, rango de página, profundidad de la URL) ¿Qué hay de nuevo en este lanzamiento: · 2799440 Terminfo devuelto por IndriterminFolist no tiene posiciones · 2794361 HarvestLinks no crean directorios de cosecha · 2788507 KrovetzStStStStStTransformation puede desbordar un tampón · 27855504 AnchretoTextanNotator puede desbordar un búfer · 2787935 PageRank Dumps Core Si la ruta de enlaces es mala · 2784994 artículo equivocado · 2783665 TextTokenizer termina prematuramente los atributos de etiqueta citados · 2782954 Indri :: Postre :: Htmlparser :: HandletAg puede desbordar un búfer · 2772914 Irevalgui.jar da resultados locos · 2772846 bin / ireval.jar es un archivo .jar inválido (lemur v48) · 2770916 DocumentLength Buffer Corruption con múltiples hilos · 2747981 WARCDOCUMENTERATERATOR MEJE DOCUMENTOS EN EL ARCHIVO DE WARC · 2747707 TextTokenizer no reconoce algunos atributos de etiqueta citados


El proyecto lemur Software relacionado

Qtada

A ADA2005 Language Enlaces a las bibliotecas QT C ++ y herramientas asociadas ...

239 2.5 MB

Descargar