Google Ngram ViewerEl Google Ngram Viewer o Google Books Ngram Viewer és un motor de cerca en línia que representa les freqüències de qualsevol conjunt de cadenes de cerca utilitzant un recompte anual de n -grams que es troben en fonts impreses publicades entre 1500 i 2019 als corpus de text de Google en anglès, xinès (simplificat), alemany, hebreu, italià, rus o espanyol. També hi ha alguns corpus especialitzats en anglès, com l'anglès americà, l'anglès britànic i la ficció anglesa.[1] El programa pot cercar una paraula o una frase, incloses les faltes d'ortografia o un galimaties. Els n -grams coincideixen amb el text dins del corpus seleccionat, opcionalment utilitzant l'ortografia sensible a majúscules (que compara l'ús exacte de les lletres majúscules), i, si es troben en 40 llibres o més, es mostren com a gràfic. . El Google Ngram Viewer admet cerques de parts de parla i comodins.[1] S'utilitza habitualment en recerca.[2][3] HistòriaEl programa va ser desenvolupat per Jon Orwant i Will Brockman i va ser llançat a mitjans de desembre de 2010. Es va inspirar en un prototip anomenat Bookworm creat per Jean-Baptiste Michel i Erez Aiden de l'Observatori Cultural de Harvard, Yuan Shen del MIT i Steven Pinker.[4] L'Ngram Viewer es va basar inicialment en l'edició de 2009 del Google Books Ngram Corpus. A Juliol 2020[update] , el programa admet corpus de 2009, 2012 i 2019. Funcionament i restriccionsLes comes delimiten els termes de cerca introduïts per l'usuari, indicant cada paraula o frase separada a trobar. L'Ngram Viewer retorna un gràfic de línies gràfics. Com a ajustament per haver publicat més llibres durant alguns anys, les dades es normalitzen, a nivell relatiu, pel nombre de llibres publicats en cada any. A causa de les limitacions de la mida de la base de dades Ngram, només les coincidències que es troben en almenys 40 llibres s'indexen a la base de dades. CorporaEls corpora utilitzats pel cercador estan compostos per total_counts, 1-grams, 2-grams, 3-grams, 4-grams, i 5-grams arxius per a cada idioma. El format de cada fitxer té el format tab-separated data. Cada línia té el següent format [5]
El Google Ngram Viewer utilitza match_count per produir el gràfic. Per exemple, la paraula "Wikipedia" del fitxer versió 2 de N-gram en anglès està arxivada com: [6]
LimitacionsEl conjunt de dades ha estat criticat per la seva confiança en l'OCR inexacte, una sobreabundància de literatura científica i per incloure un gran nombre de textos amb data i categorització incorrecta.[7][8] A causa d'aquests errors, i perquè no es controla el biaix [9] (com ara la creixent quantitat de literatura científica, que fa que altres termes apareguin disminuir en popularitat), és arriscat utilitzar aquest corpus per estudiar el llenguatge o provar teories. . Com que el conjunt de dades no inclou metadades, pot ser que no reflecteixi un canvi lingüístic o cultural general [10] i només pot indicar aquest efecte. S'han proposat directrius per fer recerca amb dades de Google Ngram que aborden molts dels problemes comentats anteriorment.[11] Problemes d'OCREl reconeixement òptic de caràcters, o OCR, no sempre és fiable i és possible que alguns caràcters no s'escanegin correctament. En particular, errors sistèmics com la confusió de s i f en textos anteriors al segle XIX (a causa de l'ús de la s llarga, que era semblant en aparença a f ) poden causar biaix sistèmic. Tot i que Google Ngram Viewer afirma que els resultats són fiables a partir de 1800, un OCR deficient i les dades insuficients fan que les freqüències donades per a idiomes com el xinès només siguin precises a partir de 1970, i les parts anteriors del corpus no mostren cap resultat per a termes comuns., i dades d'alguns anys que contenen més del 50% de soroll.[12][13] Referències
Bibliografia
Enllaços externs |