Kuinka käyttää Ngram Viewer -työkalua Google-kirjoissa

Ngram, jota kutsutaan yleisesti nimellä N-grammaa, on tilastollinen analyysi tekstistä tai puhesisällöstä, jotta löydettäisiin jonkinlaisen kohteen n (numero) tekstissä. Se voi olla kaikenlaisia ​​asioita, kuten foneemeja, etuliitteitä, lauseita tai kirjaimia. Vaikka N-gramma on hieman epäselvä tutkijan ulkopuolella, sitä käytetään tosiasiallisesti monilla eri aloilla, ja sillä on paljon vaikutuksia ihmisille, jotka tekevät tietokoneohjelmia, jotka ymmärtävät ja vastaavat luonnollisella puhuvalla kielellä. Tämä pähkinänkuoressa olisi Googlen kiinnostus ajatukseen.

Google Books Ngram Viewerin tapauksessa analysoitava teksti tulee suuresta määrästä kirjoja, jotka Google on skannannut yleisistä kirjastoista Google-kirjojen hakukoneensa täyttämiseksi. Google-kirjoista Ngram Viewer, he viittaavat tekstiin, jonka aiot etsiä "korpukseksi". Ngram Viewerin karkea on jaettu kielellä, vaikka voit erikseen analysoida britti- ja amerikkalaista englantia tai kerätä ne yhteen. Se päättyy erittäin mielenkiintoiseksi vaihtaa brittien ja amerikkalaisten käyttö ehdoista ja nähdä kaavioita muutosta.

Kuinka Ngram toimii

  1. Siirry Google-kirjoihin Ngram Viewer osoitteessa books.google.com/ngrams.
  2. Erät erottuvat kirjainkoodeista, toisin kuin Google-haut, joten muista käyttää oikeita nimikkeitä.
  3. Kirjoita mihin tahansa lauseeseen tai lauseisiin, joita haluat analysoida. Muista erottaa jokainen lause pilkulla. Google ehdottaa, "Albert Einstein, Sherlock Holmes, Frankenstein", jotta pääset alkuun.
  4. Kirjoita sitten päivämääräalue. Oletusarvo on 1800-2000, mutta uusia kirjoja on kirjoittanut (viimeisin julkaisu on Googlen dokumentaatio, mutta se saattaa olla muuttunut.)
  5. Valitse korpus. Voit etsiä vieraita kieliä tai englantia, ja tavallisten valintojen lisäksi saatat nähdä alhaalta "Englanti (2009) tai American English (2009)". Nämä ovat vanhempia korpuja, joita Google on päivittänyt, mutta saatat joutua tekemään vertailut vanhoja tietojoukkoja vastaan. Useimmat käyttäjät voivat jättää ne huomiotta ja keskittyä viimeisimpiin korpuksiin.
  6. Aseta tasoitustaso. Tasoitus viittaa siihen, kuinka sujuva kuvaaja on lopussa. Tarkka esitys olisi tasoitusaste 0, mutta sitä voi olla vaikea lukea. Oletusasetuksena on 3. Useimmissa tapauksissa sinun ei tarvitse säätää tätä.
  1. Paina Etsi paljon kirjoja -painiketta. (Voit myös vain painaa Enter-painiketta hakupyyntöön.)

Mitä Ngram näyttää?

Google-kirjat Ngram Viewer tuottaa kaavion, joka edustaa tietyn ilmaisun käyttöä kirjoissa ajan kuluessa. Jos olet antanut useamman kuin yhden sanan tai lauseen, näet värikoodatut rivit vastaamaan eri hakutermejä. Tämä on melko samanlainen kuin Google Trends , vain haku kattaa pidemmän ajan.

Tässä on todellinen esimerkki. Olemme olleet uteliaita etikka-piiraista äskettäin. Heitä mainitaan Laura Ingalls Wilderin Pikku talossa Prairie- sarjassa, mutta emme olleet koskaan kuullut tällaisesta. Käytimme ensimmäisen kerran Googlen verkkohakemusta etikka-piiraista. Ilmeisesti heitä pidetään osana amerikkalaista etelää ruokaa ja todella valmistetaan etikkaa. He kuuntelevat aikoja, jolloin kaikilla ei ollut pääsyä tuoreisiin tuotteisiin kaikkina vuodenaikoina. Onko se koko tarina?

Haastattelimme Google Ngram Vieweriä ja joitain mainintoja piiraista sekä 1800-luvun alkupuolella että 1800-luvun lopulla, paljon mainintoja 1940-luvulla ja yhä useampia mainintoja viime aikoina (kenties jonkin verran pientä nostalgiaa). ongelma tietojen kanssa tasoitustasolla 3. 1800-luvulla mainitaan edellä mainitun maininta. Ei varmasti ole yhtä monta mainintaa jokaista piiraa vuosittain viiden vuoden ajan? Se, mitä tapahtuu, on se, koska tuolloin ei ole julkaistu paljon kirjoja, ja koska tiedot ovat sileitä, se vääristää kuvaa. Todennäköisesti oli yksi kirja, joka mainitsi etikkapiirin, ja se sai vain keskiarvon välttää piikki. Asettamalla tasoitus 0: ksi, voimme nähdä, että näin on juuri. Piikki keskittyy 1869, ja toinen piikki 1897 ja 1900.

Eikö kukaan puhu etikkaa piesistä muualla? He luultavasti puhuivat niistä piiraista. Todennäköisiä reseptejä oli kelluva ympäri paikkaa. He eivät vain kirjoittaneet kirjoista, ja se on rajoitettu näistä Ngram-hauista.

Kehittyneet Ngram-haut

Muistatko kuinka sanoimme, että Ngrams voisi koostua kaikenlaisista eri tekstihakuista? Googlen avulla voit porata melko vähän myös Ngram Viewerin kanssa. Jos haluat etsiä kalaa verbin sijaan kalaa substantiivi, voit tehdä sen käyttämällä tunnisteita. Tässä tapauksessa etsit "fish_VERB"

Google tarjoaa täydellisen luettelon käyttämistäsi komennoista ja muista kehittyneistä asiakirjoista verkkosivuillaan.