Texto :: Grabar :: Deduper

Explosidad completa, parcial y cercana registros de texto duplicados
Descargar ahora

Texto :: Grabar :: Deduper Clasificación y resumen

Anuncio publicitario

  • Rating:
  • Licencia:
  • Perl Artistic License
  • Precio:
  • FREE
  • Nombre del editor:
  • Kim Ryan
  • Sitio web del editor:
  • http://search.cpan.org/~kimryan/Locale-SubCountry-1.37/lib/Locale/SubCountry.pm

Texto :: Grabar :: Deduper Etiquetas


Texto :: Grabar :: Deduper Descripción

Extractores separados completos, parciales y cercanos a duplicados. Texto :: Grabar :: Detuper es un módulo PERL con grabaciones de texto completo, parciales y cercanas a duplicados. HSYNOPSIS Use texto :: Grabar :: Dedante; MY $ DEDUTPER = Nuevo texto :: Grabar :: Dedante; # Encuentre y elimine las líneas completas que se duplican $ DEDUTPER-> DEDUPE_FILE ("orig.txt"); # Dedupe coma separó los registros, duplicados definidos por varios campos $ DEDUTPER-> Field_Separator (','); $ DEDUPER-> ADD_KEY (Field_Number => 1, Ignore_case => 1); $ DEDUPER-> ADD_KEY (Field_Number => 2, Ignore_Whitespace => 1); # Los registros únicos van a archivos names_uniqs.csv, DUPES a NOMBLES_DUPES.CSV $ DEDUPER-> DEDUPE_FILE ('nombres.csv'); # Encuentra los dupones 'cerca' al permitir que los alias de Nombre dados mis% Nick_Names = (Bob => 'Robert', ROB => 'Robert'); MY $ NEOT_DEDUPER = Nuevo texto :: Grabar :: Deduper (); $ Near_deDuper-> Add_Key (Field_Number => 2, Alias ​​=> \% Nick_Names) o MORE; $ neear_deduper-> dedupe_file ('nombres.txt'); # Crear un informe de texto, names_report.txt para identificar todos los duplicados $ near_deduper-> report_file ('nombres.txt', all_records => 1); # Encuentra 'cerca' dupres en una matriz de registros, devolviendo referencias # a una matriz única y duplicada My ($ UNIQS, ​​$ DUPES) = $ Near_deDuper-> Dedupe_array (@Some_Records); Este módulo le permite tomar un archivo de texto de registros y divídalo en un archivo único y un archivo de registros duplicados. Los corrords se definen como un conjunto de campos. Los campos pueden estar separados por espacios, comas, pestañas o cualquier otro delimitador. Los registros están separados por una nueva línea. Si no se especifican opciones, se creará un duplicado solo cuando todos los campos en un registro (toda la línea) se duplican. Especificando las opciones un registro duplicado se define por qué campos o campos parciales deben No se produce más de una vez por registro. También hay opciones para ignorar la sensibilidad de casos, el espacio en blanco líder y finalizado. Se pueden definir duplicados "cerca" o "difusos". Esto se hace creando alias, como Bob => Robert. Este módulo es útil para encontrar duplicados que han sido creados por múltiples entradas de datos, o fusión de registros similares. Requisitos: · Perl


Texto :: Grabar :: Deduper Software relacionado