Ang State Of Linux Voice Recognition

Pasiuna

Gigugol nako ang daghang panahon sa pagsiksik alang sa mga artikulo ug sa kasagaran akong gihunahuna ang hilisgutan alang sa usa ka artikulo samtang naglakaw sa istasyon sa tren o sa panahon sa gawas ug sa kinatibuk-an.

Usa ka gabii samtang naglakaw sa mga 1.5 ka milya ngadto sa estasyon gikan sa akong trabaho ako naghunahuna "dili ba maayo kon akong isulat kung unsa ang gusto nakong isulti ug dayon i-translate kini awtomatiko sa usa ka text file nga akong ma-edit ug pormat sa ulahi sa" .

Gigugol nako ang daghang mga oras nga pagtan-aw sa nagkalain-laing mga opsyon nga anaa alang sa pag-ila sa tingog ug pagdikta lakip ang pagrekord direkta pinaagi sa usa ka mikropono gamit ang dictation software sa Linux, pagrekord sa file ngadto sa MP3 o WAV format ug pag-convert niini pinaagi sa command line, ingon man paggamit Chrome ug mga aplikasyon sa Android.

Gipunting niining artikuloha ang akong mga nahibal-an human sa mga adlaw nga lisud nga trabaho.

Mga Opsyon sa Linux

Ang pagsulay sa pagpangita sa dictation ug voice recognition software sa Linux dili sayon ​​ingon nga kini mahimo ug ang mga opsyon nga anaa dili kana nga maalamon.

Kini nga panid sa wikipedia adunay listahan sa mga potensyal nga mga opsyon lakip ang CMU Sphinx, Julius ug Simon.

Gigamit nako ang SparkyLinux nga gibase sa Debian Testing sa pagkakaron ug ako makasulti kanimo nga ang bugtong pakpak sa pag-ila sa tingog nga anaa sa mga repository mao ang Sphinx.

Ang mga lumad nga mga programa sa Linux nga akong gisulayan mao ang PocketSphinx, nga akong gigamit sa pag-convert sa WAV files ngadto sa text ug sa Freespeech-VR nga usa ka aplikasyon sa python nga nagtugot kanimo sa pagrekord diretso gikan sa mikropono.

Gisulayan usab nako ang pipila ka apps sa Chrome lakip na ang VoiceNote II ug Dictanote.

Sa katapusan gisulayan nako ang "pagdiktar ug Email" ug "Diksyonaryo sa Talk And Talk" Android Apps.

Freespeech-VR

Ang Freespeech-VR dili makita sa standard repositories. Gi-download nako ang mga file gikan dinhi.

Human sa pag-download ug pagkuha sa mga sulod sa zip file akong giablihan ang terminal ug gi-navigate ngadto sa folder diin ang mga file gikuha.

Gikutlo nako ang mosunod nga sugo aron buksan ang freespeech-vr.

sudo python freespeech-vr

Ako adunay usa ka parisan sa mga headphone nga adunay medyo desente nga mikropono ug usa ka klaro nga tin-aw nga southern English nga tuldok.

Ang mosunod nga teksto makita sa freespeech-vr window:

Welcome sa yunit sa mga iro sa outcome Karon Adunay pagsiguro Sa unsa nga paagi sa pagdumala sa mga pagsulay sa usa ka aron sa pagsulay Sa diha nga sa text Paggamit sa usa ka sistema sa paagi Sa pagsulti nga ako sa Sa usa sa matag usa lamang Sa usa Sa Paglaum sa pagpabilin Ug Ang sa Means sa usa ka manok nga bulawan ingon nga sistema Ang Ea sa diha nga kini ang akong ngalan ang sunod nga tawag sa telepono Kini nga file Sa wala madugay usa ka mga kaso sa telepono sa Hands- Space ang sphinx Going Nga dili usa ka telepono ipaambit Usa ka nabansay ug mga himan Paggamit sa pagpamulong Sa dihang natapos ka na Usa ka gigamit nga file Last a istorya A Ug sa paggamit sa usa ka Sa diha nga kini mao ang kaayo nga kalampusan Kini nga Linux mao ang sama sa imong paglikay mao ang

Buot kong isulti karon nga dili kini ang Unit Of Dogs website ug wala'y punto nga akong gihisgutan ang bisan unsa nga buhaton sa mga Golden nga manok. Sa tinuud gisulayan nako paghulagway ang proseso sa paggamit sa voice recognition software.

Gisulayan nako ang software sa pipila ka mga higayon lakip na ang nagkalainlain nga pitch ug speed apan ang katukma dili maayo.

PocketSphinx

Ang PocketSphinx makahimo sa pagkuha sa WAV file ug pag-convert niini sa text gamit ang command line.

Ang PocketSphinx anaa pinaagi sa mga repository sa Debian ug kinahanglan nga magamit alang sa kadaghanan nga mga distribusyon.

Ang nag-unang isyu nga akong nakit-an uban sa PocketSphinx mao nga kinahanglan nimo ang usa ka degree sa mga konsepto sa pagkilala sa tingog, mga file sa pinulongan, mga diksyonaryo ug unsaon pagbansay sa sistema.

Human sa pag-instalar sa PocketSphinx ikaw kinahanglan nga moadto sa website sa CMU Sphinx ug basahon ang daghan nga impormasyon kutob sa mahimo. Kinahanglan usab nimo i-download ang mosunod nga modelo nga file.

(Kon dili ka lumad nga mamumulong sa pinulongang Ingles pagpili sa modelo sa pinulongan nga angay alang kanimo).

Ang dokumentasyon alang sa PocketSphinx ug Sphinx sa kinatibuk-an lisud nga masabtan alang sa lay person apan gikan sa unsa ang akong mahimo sa mga file sa dictionary nga gigamit aron sa paghatag sa usa ka listahan sa posible nga mga pulong ug mga modelo sa pinulongan adunay usa ka lista sa mga potensyal nga paglitok.

Sa pag-eksamin sa PocketSphinx gigamit nako ang recording sa akong kaugalingong tingog, usa ka snippet gikan sa Al Pacino sa "The Devils Advocate" ug usa ka snippet gikan sa "Morgan Freeman". Ang punto niini mao ang pagsulay sa nagkalainlaing mga tingog ug alang kanako walay usa nga makasaysay sa usa ka sugilanon nga klaro sama sa Morgan Freeman ug walay usa nga naghatag sa usa ka linya sama sa Al Pacino.

Alang sa PocketSphinx sa pagtrabaho kini nagkinahanglan sa WAV file ug gikinahanglan nga kini sa usa ka pormat. Kon ang file naa sa MP3 format gamita ang ffmpeg nga komand sa pag-convert niini ngadto sa WAV format:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Aron makadagan ang PocketSphinx gamita ang mosunod nga sugo:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

Ang pocketsphinx_continuous nagkinahanglan og file sa WAV ug nag-usab kini sa teksto.

Diha sa command above pocketsphinx giingnan nga mogamit sa usa ka file sa diksiyonaryo nga gitawag "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" gamit ang model nga "cmusphinx-5.0-en-us.lm". Ang file nga gi-convert ngadto sa teksto gitawag nga voice2.wav (nga usa ka recording nga akong gihimo sa akong tingog). Sa katapusan ang 2> nagbutang sa tanan nga mga verbose output nga dili kinahanglan kinahanglan nga usa ka file nga gitawag voice2.log. Ang aktwal nga mga resulta sa pagsulay gipakita sa sulod sa terminal nga bintana.

Ang mga resulta nga gamiton ang akong tingog mao ang mosunod:

pag-abi-abi sa sunod mahitungod sa dili kini nga semana nga hilisgutan mahitungod sa unsang pagkilala nga software sa usa ka minuto

Ang mga resulta dili ingon ka makalilisang sama sa freespeech-vr apan dili pa gayud magamit. Dayon gisulayan nako ang paggamit sa PocketSphinx uban ni Al Pacino apan wala kini mamatikdan.

Sa katapusan akong gisulayan ang paggamit sa tingog ni Morgan Freeman gikan sa sine nga "Bruce Almighty" ug ania ang mga resulta:

000000000: kami sa iya
000000001: ang tanan nga lisud kaayo ang adlaw nga karon mao na kini mao ang labing kita nga buhi nga ako bahin sa mainit
000000002: sa elevator kinsa ang yawe gikan sa gamay nga baseball o sayo o mahibal-an kung unsay buhaton sa kinabuhi
000000003: unsa man ang maulian
000000004: wala nila kini isulat
000000005: anaa sila kanako sa gawas
000000006: kinahanglan nga magmando ka
000000007: ako nagpaabut kanimo
000000008: ug nakakat-on siya dinhi nga usa ka ilustrasyon mao ang killer christmas party
000000009: kini nahimong usa sa paagi sa pagsulat o. asno nga akong gihunahuna nga diyutay lang ang magamit
000000010: sama sa problema nga nagkahiusa dili makahatag siya sa kaayohan nga ako ang gibana-bana nga kanila nianang higayona sa diha nga kami wala sa tanan nga sa imong hunahuna nga ako sa kalibutan nga mga balay ug ako nakakita nga
000000011: usa ka amahan nga adunay kini
000000012: unsa ka daghan mahitungod niini
000000013: kana nga gihatag
000000014: ang tanan nimo nga mga butang nga dili mahulog sa daghan
000000015: diha sa pagkapukan
000000016: maayo nga naghupot alang kanako
000000017: kini usa ka dili malipayon kon ako maghunahuna usab nga sila adunay usa ka nga ang nga ang tanan sa nga naminyo sa usa ka dili kita gusto ko ang dili sama sa dalan

Ang akong pagsulay dili kaayo mahunahuna nga siyentipiko ug ang mga developers sa PocketSphinx mahimong moingon nga wala ko gamiton ang software sa husto. Adunay usab usa ka pamaagi nga gitawag nga pagbansay sa tingog nga mahimong magamit aron makahimo og mas maayo nga mga dictionaries ug mga file sa pinulongan.

Ang akong pangagpas nga hunahuna mao nga kini lisud kaayo alang sa sumbanan sa adlaw-adlaw nga paggamit.

VoiceNote II

Ang VoiceNote II usa ka Chrome App nga naggamit sa API sa pag-ila sa Google Voice.

Kung gigamit mo ang Chrome o Chromium browsers imong ma-install ang VoiceNote II pinaagi sa Web Store .

Ang mga hulagway sa VoiceNote II gibutang sa usa ka katingad-an nga paagi nga kinahanglan nimo i-set up ang pinulongan sa ilawom sa bintana ug ang edit button anaa usab sa ubos, apan ang record button anaa sa taas nga posisyon.

Ang unang butang nga kinahanglan nimo nga buhaton mao ang pagpilig usa ka pinulongan ug mahimo kini nga makab-ot pinaagi sa pag-klik sa world icon.

Aron magsugod sa pagrekord, i-klik ang icon sa mikropono ug sugdi pagsulti sa imong mikropono. Kay ang labing maayo nga mga resulta nga akong nakit-an nga hinay nga nagsulti mao ang yawe aron ang software adunay kahigayunan nga magpadayon.

Ang mga resulta dili maayo sama sa makita sa ubos:

Hello ug maayong pagkonektar. About.com todays articles about voice to text conversion dunelm farrell recession 2008 as conversions and it said well supported the best way i found voice text addon to show 2014debian or rpm package open it voice type to speech to text open it if you want to choose Gipili sa edinburgh french german ang makuha nimo ang oras sa united kingdomstart sa sea microphonwhat imong nahuman pagsulat sa imong teksto ingon nga usa ka text file sa paghatag og maayo sa maayo nga kaayo nga standard nga accent gikan sa habagatan sa england nga labing maayo alang niini apan moadto ako sa textvia niini nga torrentalong uban sa aktwal nga dokumento ug imong makita ang mga sayop nga nakapahimo kanimo alang sa mga naminaw

Dictanote

Ang Dictanote usa ka lain nga Chrome App nga mahimong gamiton alang sa mga katuyoan sa pagdiktar ug makit-an ingon nga labaw nga intuitive apan ang mga resulta dili mas maayo kay sa VoiceNote II.

Gigamit lamang nako ang demo nga bersyon sa Dictanote nga makapugong kanimo sa pagmugna og bag-ong mga dokumento apan kini makapahimo kanimo nga makigsulti sa teksto nga anaa na sa editor. Akong nasulayan ang pag-ila sa tingog apan ang mga resulta dili mas maayo kay sa VoiceNote II ug mao nga wala ako mopirma alang sa pro nga bersyon.

Pagdikta Ug Mail

Ang "pagdiktar ug Mail" usa ka Android Application nga naggamit sa lumad nga Google voice recognition API.

Ang mga resulta gikan sa "pagdiktar ug Mail" mas maayo kay sa bisan unsang laing programa nga gisulayan hangtud niining puntoha.

hello welcome sa Linux bahin sa., karon atong gihisgutan ang mahitungod sa pag-usab sa tingog ngadto sa teksto

Ang lansis nga "Dictation and Mail" mao ang pagsulti sa hinay-hinay ug paglitok ingon man usab sa imong mahimo uban ang usa ka tono.

Human nimo mahuman ang pagsulti mahimo ka mag email sa mga resulta sa imong kaugalingon.

Talk And Talk Dictation

Ang laing Android Application nga akong gisulayan mao ang "Talk And Talk Dictation".

Ang interface alang sa kini nga app mao ang labing maayo sa hugpong ug ang pag-ila sa tingog maayo kaayo. Human sa pagrekord sa dictation nga nakahimo ko sa pagpakigbahin sa mga resulta sa nagkalain-laing mga paagi lakip na pinaagi sa email.

welcome sa linux about.com karong adlawa naghisgot kami mahitungod sa pag-usab sa sinultihan sa teksto

Ingon sa imong makita ang teksto sa ibabaw mao ang mahitungod sa ingon nga tin-aw kutob sa imong mahimo nga makadahom nga makuha. Ang hinay nga pagsulti mao ang yawe.

Sumaryo

Ang Lumad nga Linux adunay pipila ka mga paagi sa pag-adto kalabut sa pagkilala sa Tingog ug partikular nga pagdikta. Adunay pipila ka mga aplikasyon nga naggamit sa Google Voice API apan wala pa kini gilista sa mga repository.

Ang mga aplikasyon sa ChromeOS mas gamay apan ang labing maayo nga mga resulta nakab-ot gamit ang akong Android phone. Tingali ang telepono adunay mas maayo nga mikropono ug busa ang software sa pag-ila sa tingog adunay mas maayo nga kahigayunan sa pagkakabig.

Kay ang pag-ila sa tingog aron mahimong maayo nga gamiton kini kinahanglan nga mahimong labaw ka mas intuitive nga dili kaayo gikinahanglan ang setup. Kinahanglan nga dili ka kinahanglan nga magkagubot sa mga modelo sa pinulongan ug mga diksyonaryo aron mahimo kining masabtan.

Apan gipasalamatan ko nga ang tibook nga art sa pag-ila sa tingog lisud kaayo tungod kay ang tanan adunay lain nga tingog ug adunay daghan nga mga dialekto gikan sa rehiyon ngadto sa rehiyon sa usa ka nasud nga wala'y kabalaka mahitungod sa gatusan ka pinulongan nga gigamit sa tibuok kalibutan.

Busa, ang akong pag-analisar mao nga ang software sa pag-ila sa tingog nagpadayon gihapon sa pag-uswag.