Terrier

Un kit de herramientas de java probabilístico para construir motores de búsqueda.
Descargar ahora

Terrier Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • MPL
  • Precio:
  • FREE
  • Nombre del editor:
  • University of Glasgow
  • Sitio web del editor:
  • http://ir.dcs.gla.ac.uk/terrier/

Terrier Etiquetas


Terrier Descripción

Un kit de herramientas de java probabilístico para construir motores de búsqueda. Proyecto Terrier es un kit de herramientas de Java probabilístico para crear motores de búsqueda. Es un software para el rápido desarrollo de la web, la intranet y los motores de búsqueda de escritorio. De manera más general, es una plataforma modular para construir aplicaciones de recuperación de información a gran escala, proporcionando funcionalidades de recuperación probabilística. Viene con una aplicación de búsqueda de escritorio. Terrier tiene varias características de vanguardia que incluyen enfoques de recuperación probabilística sin parámetros (como la divergencia de los modelos de aleatoriedad), las metodologías automáticas de expansión / re-formulación de consulta y técnicas de compresión de datos eficientes. Terrier viene con una poderosa aplicación de búsqueda de escritorio de prueba de concepto y capacidades completas de TREC, incluida la capacidad de indexar, consultar y evaluar las colecciones estándar de TREC, como AP, WSJ, WT10G, .gov y .gov2. Terrier está escrito en Java y se ha utilizado con éxito para la recuperación de ADHOC, la búsqueda en la web y la recuperación de idiomas cruzados, en un entorno centralizado o distribuido. Actualmente, también se está utilizando para ejecutar varias aplicaciones. Aquí hay algunas características clave de "Terrier": · Abrir código fuente (Licencia Pública de Mozilla) · Escrito en Java multiplataforma. · Estructuras de datos de disco altamente comprimidas. · Manejo de colecciones de documentos a gran escala. · Archivo directo para una expansión de consulta eficiente. · API modulares y abiertas de indexación y consulta. · Testbed para la indexación y recuperación de las colecciones de prueba estándar TREC. · Aplicación de consulta interactiva. · Aplicación de búsqueda de escritorio para buscar varios tipos de documentos. · Entrada / salida de enteros gamma, unarios y codificados binarios para comprimir flujos o archivos de acceso aleatorio. · Evaluación estándar de TREC ad-hoc y resultados de recuperación de búsqueda de artículos conocidos. · Indexación de las colecciones de documentos etiquetadas, así como documentos de varios formatos, como HTML, PDF o archivos de Microsoft Word, Excel y PowerPoint. · Indexación de información de campo. · Indexación de información de posición en una palabra, o un nivel de bloque. · Soporte para modelos de recuperación clásicos, como el modelo de lenguaje TF-IDF, BM25 y Ponte-Croft, y la expansión de la consulta de Rocchio. · Proporciona una serie de modelos de ranking de documentos de divergencia de la aleatoriedad (DFR). · Proporciona una serie de modelos de ponderación a término DFR sin parámetros para la expansión de consulta automática. · Lenguaje de consulta avanzada que admite y / no operadores, frase y búsqueda de proximidad. · Procesamiento flexible de términos a través de una tubería de componentes, como removedores de paradas y estanterías. ¿Qué hay de nuevo en este lanzamiento: · Esta es una actualización sustancial, que incluye un nuevo soporte para Hadoop, principalmente un mapa Hadoop Reduce el sistema de indexación, lo que permite que las grandes colecciones de documentos se indexan de manera altamente distribuida. · También se incluyen varias mejoras menores, incluyendo un mejor soporte para la colección IIT CDIP1 (TREC Legal Peach), y varias correcciones de errores. · Esto pretende ser la versión definitiva en la serie 2.x.


Terrier Software relacionado