Linuxin äänentunnistuksen tila

by Gary Newell

esittely

Vietän runsaasti aikaa artikkeleiden tutkimiseen ja melko usein ajattelen artikkelin aiheita, kun kävelen rautatieasemalle tai ulos ja yleisesti.

Eräänä iltana kävellessäni 1,5 kilometriä asemalle työstäni ajattelin, "Eikö olisi hyvä, jos voisin tallentaa mitä halusin sanoa ja sitten kirjoittaa sen automaattisesti tekstitiedostoon, jonka voisin muokata ja muotoilla myöhemmin" .

Olen käyttänyt monia pitkiä tunteja, tarkastelemalla eri vaihtoehtoja puheentunnistukseen ja saneluihin, mukaan lukien tallennus suoraan mikrofonin avulla käyttäen saneluohjelmistoa Linuxissa, tallentamalla tiedosto MP3- tai WAV-muotoon ja muuntamalla se komentoriviltä sekä käyttämällä Chromea ja Android-sovelluksia.

Tässä artikkelissa korostetaan havaintoja kovan työn jälkeen.

Linux-asetukset

Yritetään löytää sanelu- ja äänentunnistusohjelmisto Linuxissa ei ole niin helppoa kuin se voisi olla, ja käytettävissä olevat vaihtoehdot eivät ole niin älykkäitä.

Tällä wikipedia-sivulla on luettelo mahdollisista vaihtoehdoista, kuten CMU Sphinx, Julius ja Simon.

Käytän tällä hetkellä SparkyLinuxia, joka perustuu Debianin testaukseen, ja voin kertoa teille, että ainoa käytettävissä oleva äänentunnistuspaketti on Sphinx.

Alkuperäiset Linux-ohjelmat, jotka päädyin yrittämään, olivat PocketSphinx, jota käytin muuntaa WAV-tiedostoja tekstiksi ja Freespeech-VR, joka on python-sovellus, jonka avulla voit tallentaa suoraan mikrofonin kautta.

Olen myös kokeillut muutamia Chrome-sovelluksia, kuten VoiceNote II ja Dictanote.

Lopulta yritin "Sanelu ja sähköposti" ja "Talk And Talk Dictation" Android Apps.

Freespeech-VR

Freespeech-VR ei ole saatavilla vakiovarastoissa. Olen ladannut tiedostot täältä.

Kun olet ladannut ja purkanut zip-tiedoston sisällön, avasin päätelaitteen ja siirtynyt kansioon, johon tiedostot oli otettu.

Kirjoitin seuraavan komennon avaa freespeech-vr.

sudo python freespeech-vr

Minulla on pari kuulokkeita, joissa on melko miellyttävä mikrofoni ja melko selkeä eteläisen englannin aksentti.

Seuraava teksti näkyi freespeech-vr-ikkunassa:

Tervetuloa testausyksikön koirille Tänään on varmistettu, miten hoidettuja testejä on testattava Kun teksti Käyttää järjestelmätapaa Puhe I, joka yksi oli vain toivoa pysyä ja yhdestä kanojen kultainen järjestelmä Ea, kun nimeni seuraava toimisto vaatii puhelinta Tämä tiedosto Pian tarpeet tapa puhelimen Hands-Space sphinx Going Se ei ole puhelimia jaetaan Koulutettu ja ja työkalut Käytä puhetta Kun olet valmis Sano Käytetty tiedosto Viimeinen tarina A ja käyttää sitä, kun on hyvin miten menestys Tämä Linux oli niin kuin vältät on

Haluan vain sanoa nyt, että tämä ei ole koirien yksikkö verkkosivuilla eikä missään vaiheessa maininnut mitään tekemistä Golden kanaa. Olin itse asiassa yrittänyt kuvata puheentunnistusohjelmiston käyttämistä.

Yritin ohjelmiston muutamia kertoja, mukaan lukien vaihteleva piki ja nopeus, mutta tarkkuus oli huono.

PocketSphinx

PocketSphinx voi ottaa WAV-tiedoston ja muuntaa sen tekstiksi komentorivillä.

PocketSphinx on saatavana Debianin arkistojen kautta, ja sen pitäisi olla saatavana useimmille jakeluille.

Pääasiassa PocketSphinxin kanssa löytänyt ongelma on se, että käytät virtuaalitodellisuuden käsitteitä, kielitiedostoja, sanakirjoja ja kuinka kouluttaa järjestelmää.

PocketSphinxin asentamisen jälkeen sinun tulee mennä CMP Sphinx -verkkosivustolle ja lukea mahdollisimman paljon tietoa. Sinun on myös ladattava seuraava mallitiedosto.

Yhdysvaltain englantilaisen geenikielen malli

(Jos et ole äidinkieli englanti, valitse haluamasi kielimalli).

PocketSphinxin ja Sphinxin dokumentaatiota yleensä on vaikea ymmärtää maallikoille, mutta sanakirjatiedostojen avulla voidaan käyttää luetteloa mahdollisista sanoista ja kielimalleista, joissa on luettelo mahdollisista lausumista.

Testattaessa PocketSphinxä käytin omaa ääntäni äänittämistä, Al Pacinosta "Devils Advocate" -katkostekstiä ja "Morgan Freemanin" -kopiota. Tämän aiheena oli kokeilla erilaisia ääniä ja minulle ei ole ketään, joka voi kertoa tarinan yhtä selvästi kuin Morgan Freeman ja kukaan ei anna Al Pacinon kaltaista linjaa.

Jotta PocketSphinx toimisi, se tarvitsee WAV-tiedoston ja sen täytyy olla tietyssä muodossa. Jos tiedosto on MP3-muodossa, ffmpeg-komennolla voit muuntaa sen WAV-muotoon:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 tuotosfilename.wav

PocketSphinxin käyttämiseen on käytettävä seuraavaa komentoa:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-fi-us.lm 2> voice2.log

pocketsphinx_continuous vie WAV-tiedoston ja muuntaa sen tekstiksi.

Edellä mainitussa komennossa pocketsphinx: n sanotaan käyttävän sanakirjatiedostoa nimeltä "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" kielimallilla "cmusphinx-5.0-en-us.lm". Tekstiksi muunnettava tiedosto kutsutaan voice2.wav: ksi (mikä on nauhoittamani äänitys). Lopuksi 2> sijoittaa kaikki verbose-lähdöt, joita et välttämättä tarvitse tiedostossa nimeltä voice2.log. Testin todelliset tulokset näkyvät pääteikkunassa.

Tulokset ääntä käyttäen ovat seuraavat:

tervetuloa seuraavaan noin no tällä viikolla aihe, joka tunnustamista ohjelmisto minuutin

Tulokset eivät ole niin hirvittäviä kuin freespeech-vr: llä, mutta niitä ei vieläkään voida käyttää. Sitten yritin käyttää PocketSphinxia Al Pacinon kanssa, mutta tämä ei palannut lainkaan tuloksia.

Lopulta yritin käyttää Morgan Freemanin ääntä elokuvasta "Bruce Almighty" ja tässä ovat tulokset:

000000000: me häntä
000000001: ovat kaikki niin kovaa Joo päivä, että juuri nyt Joo tämä on eniten olemme olleet olen osa kuuma
000000002: hississä, joka on avain ulos baseball-kisasta tai tietää mitä tehdä elämässä
000000003: mitkä niistä tulevat toipumaan
000000004: he eivät kirjoittaneet sitä
000000005: he ovat minulle heti
000000006: sinun on oltava sääntöjä
000000007: Olen odottanut sinua
000000008: ja hän oppi täällä, joka oli kuva oli tappaja joulupuolue
000000009: osoittautuu yksi tapa kirjoittaa o. perse ajattelin vain harvat käyttävät aina yhtä
000000010: kuten ongelma yhtenäinen ei anna hänelle hyvää olen arvioitavani heitä hetkellä, jolloin emme kaikki, mitä luulet olevani maailmassa, kodeissa ja olen nähnyt sen
000000011: isä, jolla on se
000000012: mitä paljon tästä
000000013: Annetaan se
000000014: kaikki ne, jotka eivät kuulu paljon
000000015: syksyllä
000000016: pitäkää vain minulle
000000017: se on tyytymätön, jos ajattelen myös, että heillä on sellainen, että se kaikki, että avioliitossa oli ei me teemme pidin toisin kuin tapa

Testaani tuskin voidaan pitää tieteellisenä ja PocketSphinxin kehittäjät saattavat sanoa, että en käytä ohjelmistoa oikein. Käytössä on myös tekniikka nimeltä ääniopetus, jota voidaan käyttää parempien sanakirjojen ja kielitiedostojen luomiseen.

Minun perimmäinen mielipide on kuitenkin se, että jokapäiväiseen käyttöön on vain liian vaikea.

VoiceNote II

VoiceNote II on Chrome-sovellus, joka käyttää Google Voice -tunnistussovellusliittymää.

Jos käytät Chrome- tai Chromium-selaimia, voit asentaa VoiceNote II Web Storen kautta .

VoiceNote II -kuvakkeet on järjestetty outo tavalla, koska sinun on määritettävä kieli alareunassa ja muokkauspainike on myös alhaalla, mutta tallennuspainike on oikeassa yläkulmassa.

Ensimmäinen asia, mitä sinun tarvitsee tehdä, on valita kieli ja tämä voidaan saavuttaa klikkaamalla maailmankuvaketta.

Aloita tallennus napsauttamalla mikrofonikuvaketta ja aloittaaksesi puhetut mikrofoniasi. Parhaat tulokset, jotka löysin hitaasti puhumisesta, olivat avainasemassa, jotta ohjelmistolla olisi mahdollisuus pysyä mukana.

Tulokset eivät olleet suuria, kuten seuraavassa on nähtävissä:

Hei ja tervetuloa liittymään. Tietoja nykyisestä artikkeleista äänestä tekstin muuntamiseen dunelm farrell taantuma 2008 tuloksina ja se sanoi hyvin tuettu paras tapa löysin ääni tekstin addon näyttää 2014debian tai rpm paketti avaa se äänen tyyppi puheen tekstin avaa se, jos haluat valita vs valitsi edinburgh ranskalaisen saksan saada sinut aika yhdistyneessä kingdomstart merellä microphonewhat olet valmis kirjoittamaan tekstin tekstitiedosto itsuccess hyvin, että on hyvin vakio Englanti aksentti Etelä-Englannista paras, mutta menen tekstiin tämä torrentalong todellisen asiakirjan kanssa ja voit nähdä virheitä, jotka tekevät sinulle kuuntelevia ystäviä

Dictanote

Dictanote on toinen Chrome-sovellus, jota voidaan käyttää saneluihin ja se on tullut intuitiivisemmaksi, mutta tulokset eivät ole parempia kuin VoiceNote II.

Käytin vain Dictanoten demoversion, joka estää sinua luomasta uusia asiakirjoja, mutta sen avulla voit puhua tekstissä, joka on jo editori. Olin kykenevä testaamaan äänentunnistus, mutta tulokset eivät olleet parempia kuin VoiceNote II ja siksi en allekirjoittanut pro-versiota.

Sanelu ja posti

"Dictation And Mail" on Android-sovellus, joka käyttää natiivia Googlen äänentunnistusliittymää.

"Dictation and Mail" tulokset olivat paljon parempia kuin mihin tahansa muuhun tähän mennessä toteutettuun ohjelmaan.

Tervetuloa Linuxiin., tänään puhumme äänen muuntamisesta tekstiksi

Dictation and Mailin temppu on puhua hitaasti ja lausua niin kuin voit myös tasaisella aksentilla.

Kun olet päättänyt puhua, voit lähettää tulokset itse.

Talk ja Talk-sanelu

Toinen Android-sovellus, jota yritin käyttää, oli "Talk And Talk Dictation".

Sovelluksen käyttöliittymä oli paras joukko ja äänentunnistus toimi todella hyvin. Äänityksen tallentamisen jälkeen pystyin jakamaan tulokset eri tavoin myös sähköpostilla.

Tervetuloa linux about.comiin tänään puhumme puheen muuntamisesta tekstiksi

Kuten näet, yllä oleva teksti on niin selkeä kuin voit mahdollisesti odottaa. Puhuminen hitaasti on avain.

Yhteenveto

Native Linuxilla on jonkinlainen tapa vietellä äänentunnistusta ja nimenomaan diktaatiota. Joissakin sovelluksissa käytetään Google Voice -ohjelmaa, mutta niitä ei ole vielä lueteltu arkistoissa.

ChromeOS-sovellukset ovat hieman parempia, mutta ylivoimaisesti parhaat tulokset saavutettiin Android-puhelimella. Ehkä puhelimessa on parempi mikrofoni ja siksi äänentunnistusohjelmisto on paremmat mahdollisuudet muuntamiseen.

Äänentunnistukseen tulee todella käyttökelpoinen, joten sen on oltava intuitiivisempi ja vähemmän asennusta tarvitaan. Sinun ei tarvitse kiertää kielimalleja ja sanakirjoja, jotta se olisi ymmärrettävää.

Arvostan kuitenkin, että äänentunnistuksen koko taideteos on erittäin haastava, koska kaikilla on erilainen ääni ja alueella on lukuisia murteita yhdestä maasta, jotka ovat huolissaan satoja eri puolilta maailmaa käytetyistä kielistä.

Analyysi on siksi, että äänentunnistusohjelmisto on edelleen käynnissä.