Linux- ի ձայնի ճանաչում

Ներածություն

Ես շատ ժամանակ եմ ծախսում հոդվածներ ուսումնասիրելու համար եւ շատ հաճախ մտածում եմ թեմայի մասին հոդվածի մասին, երբ քայլում եմ դեպի երկաթուղային կայարան կամ երբ դուրս է գալիս եւ ընդհանրապես:

Մի երեկո, երբ ես աշխատում էի 1,5 մղոն հեռավորության վրա կայարանում աշխատելիս, ես մտածեցի, որ «չէի լինի լավը, եթե կարողանամ գրել այն, ինչ ուզում էի ասել եւ հետո այն ավտոմատ կերպով տառադարձել տեքստային ֆայլի վրա, որը կարող եմ խմբագրել եւ ձեւակերպել ավելի ուշ»: .

Ես շատ երկար ժամանակ անցկացրեցի ձայնի ճանաչման եւ թելադրման տարբեր տարբերակների վրա, ներառյալ ձայնագրման ուղղությամբ ուղղորդված անմիջապես միկրոֆոնով Linux- ում թելադրման ծրագրային ապահովման միջոցով, ձայնագրելով ֆայլը MP3- ին կամ WAV ֆորմատով եւ այն վերծանել հրամանի տողում, ինչպես նաեւ օգտագործել Chrome- ը եւ Android- ի ծրագրեր:

Այս հոդվածում իմ ուշադրությունը շոշափում է ծանր աշխատանքի օրերից հետո:

Linux տարբերակները

Linux- ում թիկունքային եւ ձայնային ճանաչման ծրագրեր գտնելու փորձը այնքան էլ հեշտ չէ, քանի որ դա կարող է լինել, եւ առկա տարբերակները այնքան էլ խելացի չեն:

Այս վիքիփուսի էջում առկա են հնարավոր ընտրանքների ցանկը, ներառյալ CMU Sphinx, Julius եւ Simon:

Ես օգտագործում եմ SparkyLinux, որը հիմնվել է Debian Testing- ի վրա, եւ ես կարող եմ ասել, որ պահոցներում առկա ձայնային ճանաչման միակ փաթեթը Սփինսն է:

Տեղական Linux ծրագրերը, որոնք ես ավարտեցի, փորձեցինք PocketSphinx- ը, որն օգտագործում էր WAV ֆայլերը տեքստային եւ Freespeech-VR- ը, որը python հավելված է, որը թույլ է տալիս անմիջապես ձայնագրել միկրոֆոն:

Ես նաեւ փորձեցի մի քանի Chrome ծրագրեր, այդ թվում VoiceNote II եւ Dictanote:

Վերջապես փորձեցի «թելադրանք եւ էլփոստ» եւ «խոսել եւ խոսել թելադրանք» Android ծրագրերը:

Freespeech-VR- ը

Freespeech-VR- ը հասանելի չէ ստանդարտ պահեստներում: Ներբեռնվեցինք ֆայլերը այստեղից:

ZIP ֆայլի բովանդակության ներբեռնումից եւ արդյունահանելուց հետո ես բացեցի տերմինալ եւ նավարկվեցի այն թղթապանակում, որտեղ ֆայլերը հանվեցին:

Ես մուտքագրել եմ հետեւյալ պատվեր, բացելու freespeech-vr:

դատարկ պիթոն freespeech-vr

Ես ունեմ մի զույգ ականջակալներ, բավականաչափ արժանապատիվ միկրոֆոնով եւ բավականին հստակ հարավային անգլերեն շեշտադրմամբ:

Freespeech-vr պատուհանում հետեւյալ տեքստը հայտնվեց.

Ողջունում ենք արդյունքների միավորի շներին Այսօրվանից ապահովում ենք, թե ինչպես կառավարել թեստերը Պետք է փորձարկել Երբ տեքստը Օգտագործում է համակարգային եղանակի ելույթը Ես մեկի համար էր միայն Մի հույսով մնալու համար, եւ միջոցների մի chickens golden որպես համակարգ The Ea, երբ իմ անունը հաջորդ զանգը զանգահարում է հեռախոսը Այս ֆայլը Շուտով բավարար դեպքեր հեռախոսը ձեռքերում Space- ի սֆինսը Գնում է, որ հեռախոսները չեն կիսվելու Դասավանդված եւ գործիքներ Օգտագործեք խոսելու Երբ խոսում եք Սայ օգտագործված ֆայլ պատմությունը A Օգտագործելով, երբ այն շատ լավ է, թե ինչպես է հաջողությունը Այս Linux- ն էր, ինչպես Դուք խուսափում եք

Ես պարզապես ուզում եմ ասել, որ սա ոչ թե Շների կայքէջի կայքէջն է, եւ ոչ մի կետում ոչ մի կապ չունեմ Ոսկե հացերի հետ: Ես իրականում փորձում էի նկարագրել ձայնային ճանաչման ծրագրային ապահովման օգտագործման գործընթացը:

Ես մի քանի անգամ փորձեցի ծրագրային ապահովումը, այդ թվում, տարբեր դաշտ եւ արագություն, բայց ճշգրտությունը վատ էր:

PocketSphinx- ը

PocketSphinx- ը կարող է վերցնել WAV ֆայլ եւ տեքստի փոխարկել հրամանի տողից:

PocketSphinx- ը հասանելի է Debian պահոցներով եւ պետք է մատչելի լինի առավել տարածման համար:

Հիմնական խնդիրը, որը ես գտա PocketSphinx- ի հետ, այն է, որ ձայնի ճանաչման, լեզվի ֆայլերի, բառարանների եւ համակարգը վերապատրաստելու համար գրեթե պետք է աստիճան:

PocketSphinx- ի տեղադրումից հետո դուք պետք է գնաք CMU Sphinx- ի կայքում եւ հնարավորին չափ շատ կարդացեք: Դուք նաեւ պետք է ներբեռնեք հետեւյալ մոդելի ֆայլը:

(Եթե դու բնիկ անգլերենի խոսնակ չես, ընտրեք լեզվական մոդելը, որը համապատասխանում է ձեզ):

PocketSphinx- ի եւ Sphinx- ի փաստաթղթերը ընդհանուր առմամբ դժվար է հասկանալ, թե ինչ է նշանակում մարդուն, բայց այն, ինչ ես կարող եմ անել, բառարանի ֆայլերը օգտագործվում են հնարավոր բառերի ցանկը ապահովելու համար, եւ լեզվական մոդելները ունեն պոտենցիալ խոսքեր:

PocketSphinx- ը փորձելու համար օգտագործել եմ իմ սեփական ձայնը, Al Pacino- ի «Սատանայական փաստաբան» հատվածը եւ «Morgan Freeman» - ի հատվածը: Խնդիրն այն էր, որ փորձեն տարբեր ձայներ, եւ ինձ համար չկա ոչ ոք, ով պատմություն չի կարող պատմել, ինչպես Morgan Freeman- ն, եւ ոչ ոք չի տալիս Ալ Պաչինոյի նման գծեր:

PocketSphinx- ի համար աշխատելու համար անհրաժեշտ է WAV ֆայլ եւ այն պետք է լինի որոշակի ձեւաչափով: Եթե ​​ֆայլը MP3 ձեւաչափում է, ապա ffmpeg- ի հրամանն օգտագործեք այն WAV ֆորմատով:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx- ի գործարկման համար օգտագործեք հետեւյալ հրահանգը.

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic- ֆայլը voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous- ը վերցնում է WAV ֆայլ եւ փոխակերպում է տեքստին:

Վերեւում հրամանատարության մեջ գրված է, որ օգտագործվում է «/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic» բառարանի ֆայլը «cmusphinx-5.0-en-us.lm» լեզվական մոդելի հետ: Տեքստի փոխարկվող ֆայլը կոչվում է voice2wav (որը ձայնի ձայնով իմ ձայնը): Ի վերջո, 2> տեղերը տեղադրում են բոլոր մանրամասն արդյունքները, որոնք դուք պարտադիր չէ, որ voice2.log ֆայլում եք: Թեստի փաստացի արդյունքները ցուցադրվում են տերմինալային պատուհանի մեջ:

Իմ ձայնով օգտագործվող արդյունքները հետեւյալն են.

Բարի գալուստ հաջորդ շաբաթ, այս շաբաթվա թեման, որի մասին ճանաչման ծրագիրը մեկ րոպեի ընթացքում

Արդյունքները ոչ այնքան սարսափելի են, որքան freespeech-vr, բայց դեռեւս իսկապես օգտագործելի չէ: Հետո փորձեցի PocketSphinx- ը Al Pacino- ի հետ, բայց դա ոչ մի արդյունք չի տվել:

Վերջապես ես փորձեցի Մորգան Ֆրիմանի ձայնը օգտագործել «Bruce Almighty» ֆիլմից, եւ այստեղ են արդյունքները.

000000000: մենք կանցնենք նրան
000000001: բոլորը, որ կոշտ, այո, այն օրը, որ հենց հիմա այո, սա է ամենից շատ մենք կենդանի ենք,
000000002: վերելակում, ով բեյսբոլի մի քանի բանալին է կամ գիտի ինչ անել կյանքում
000000003: ինչ են նրանք, որոնք վերականգնում են
000000004: նրանք չեն գրել այն
000000005: նրանք ինձ վրա դրված են
000000006: դուք պետք է կանոններ
000000007: Ես ձեզ սպասում եմ
000000008: եւ նա սովորել է այստեղ, որը նկարազարդումն էր եղել մարդասպանի սերիալը
000000009: ստացվում է գրելու ձեւերից մեկը: Ես ասացի, որ մի քանիսը միշտ կրում են մեկը
000000010: նման միավորված խնդիրը չի տա լավը, ես գնահատական ​​եմ տվել այդ պահին, երբ մենք չենք այն ամենը, ինչ կարծում եք ես աշխարհում եմ տանելու, եւ ես տեսել եմ,
000000011: հայր, ով ունի
000000012: ինչի մասին է դա
000000013: դա տրված է
000000014. Ամեն ինչ, որ դուք չեք ընկնում շատերի համար
0000015: ճիշտ աշնանը
000000016: լավ պահիր ինձ համար
Մեջբերում Mephistopheles Նայել գրառումը Հա, բայց ես չեմ կարող ասել, թե ինչի համար է պետք:

Իմ փորձությունը հազիվ գիտական ​​է համարվում, եւ PocketSphinx- ի մշակողները կարող են հայտարարել, որ ես չեմ օգտագործում ծրագրային ապահովումը: Կա նաեւ տեխնիկան, որը կոչվում է ձայնային ուսուցում, որը կարող է օգտագործվել ավելի լավ բառարաններ եւ լեզվական ֆայլեր ստեղծելու համար:

Իմ գերբնական կարծիքն այն է, որ դա չափազանց դժվար է ստանդարտ ամենօրյա օգտագործման համար:

VoiceNote II- ը

VoiceNote II - Chrome- ի App, որն օգտագործում է Google Voice- ի ճանաչման API- ն:

Եթե ​​դուք օգտագործում եք Chrome կամ Chromium բրաուզերները, կարող եք տեղադրել VoiceNote II- ը Web Store- ի միջոցով:

VoiceNote II- ի պատկերակները տեղադրվում են տարօրինակ կերպով, քանի որ անհրաժեշտ է լեզու ստեղծել պատուհանների ներքեւում, իսկ խմբագրման կոճակը գտնվում է ներքեւում, սակայն ռեկորդային կոճակը գտնվում է վերեւում:

Առաջին բանը, որ դուք պետք է անեք, ընտրեք լեզու, եւ դա կարելի է հասնել համաշխարհային պատկերակին սեղմելով:

Ձայնագրելու համար սեղմեք մկնիկի պատկերակը եւ սկսեք խոսել ձեր խոսափողը: Լավագույն արդյունքների համար ես գտնում եմ, որ խոսքը դանդաղ էր, որ ծրագրային ապահովումը հնարավորություն կընձեռի:

Արդյունքները ոչ այնքան լավ էին, որքան կարելի է տեսնել ստորեւ.

Բարեւ, եւ միացեք միանալու: 2008 թ., Ինչպես նաեւ ձայնի տեքստ փոխակերպման dunelm farrell անկում 2008-ի մասին, ինչպես նաեւ ասել է լավ աջակցություն, ես գտա ձայնային տեքստային addon ցույց տալ 2014DEbian կամ rpm փաթեթը բացել այն ձայնային տիպի խոսքի տեքստը բացել, եթե ցանկանում եք ընտրել ինչպես նաեւ ընտրվել է edinburgh ֆրանսերեն գերմանական ժամանակի միացյալ արքայությունում, ժամը միացյալ արքայությունում, ծովում microphonewhat ավարտել ձեր տեքստը որպես տեքստային ֆայլ է իր հաջողության համար, որ շատ ստանդարտ անգլերեն շեշտը հարավից է england լավագույն դրա համար, բայց ես գնում տեքստvia այս torrentalong փաստացի փաստաթղթի հետ, եւ դուք կարող եք տեսնել սխալների համար, որոնք ստիպում են ձեզ լսել ընկերների համար

Դիկտանոտը

Dictanote- ը Chrome- ի մեկ այլ հավելված է, որը կարող է օգտագործվել թելադրման նպատակների համար եւ ընկալվել որպես ավելի ինտուիտիվ, սակայն արդյունքներն այնքան էլ լավ չեն, քան VoiceNote II- ը:

Ես միայն օգտագործել եմ Dictanote- ի դեմո տարբերակը, որը թույլ է տալիս ձեզ ստեղծել նոր փաստաթղթեր, բայց դա թույլ է տալիս խոսել տեքստի մասին, որը արդեն խմբագրում է: Ես կարողացա ստուգել ձայնի ճանաչումը, բայց արդյունքներն ավելի լավն էին, քան VoiceNote II- ը, ուստի ես չստորագրեցի այն պրոդյուսերի տարբերակը:

Թելադրանք եւ փոստ

«Թիկինգը եւ փոստը» Android հավելվածն է, որն օգտագործում է հայրենի Google Voice ճանաչման API- ը:

«Թիկունքից եւ փոստից» ստացված արդյունքները շատ ավելի լավն էին, քան որեւէ այլ ծրագիր, որն ուղղված էր այս կետին:

Բարի գալուստ Linux- ի մասին: Այսօր մենք խոսում ենք ձայնի տեքստ փոխակերպելու մասին

«Թիկունքային եւ փոստով» հնարքն է դանդաղ խոսել եւ լսել, ինչպես նաեւ կարող եք ուղղակի շեշտադրմամբ:

Դուք ավարտելուց հետո կարող եք էլեկտրոնային փոստով տեղեկացնել ինքներդ ձեզ:

Խոսեք եւ խոսեք թելադրանքով

Այլ Android հավելվածը, որը ես փորձել եմ, «Խոսեք եւ խոսեք թելադրանքով»:

Այս հավելվածի ինտերֆեյսը լավագույն փունջն էր եւ ձայնային ճանաչումը իսկապես լավ գործվեց: Թիկունքին ձայնագրելու արդյունքում ես կարողացա կիսվել արդյունքները տարբեր եղանակներով, այդ թվում էլեկտրոնային փոստով:

welcome to linux about.com- ը այսօր խոսում ենք խոսքի տեքստը փոխելու մասին

Ինչպես տեսնում եք, վերեւի տեքստը հստակ է, ինչպես կարող եք ակնկալել ստանալու: Դանդաղ խոսելը բանալին է:

Ամփոփում

Տեղական Linux- ը որոշակի ճանապարհ ունի գնալ Voice ճանաչման եւ հատկապես թելադրանքի առումով: Կան որոշ ծրագրեր, որոնք օգտագործում են Google Voice API- ը, սակայն դրանք դեռեւս պահեստավորված չեն:

ChromeOS- ի հավելվածները մի փոքր ավելի լավ են, բայց ամենալավ արդյունքը հասել է իմ Android հեռախոսի միջոցով: Գուցե հեռախոսն ունի ավելի լավ խոսափող, ուստի ձայնային ճանաչման ծրագրային ապահովումը փոխակերպման ավելի լավ հնարավորություն է:

Ձայնի ճանաչումը դառնալու է իսկապես օգտագործելի, այն պետք է ավելի ինտուիտիվ լինի, պահանջվող պակաս կարգավորմամբ: Չպետք է խառնաշփոթել լեզուների մոդելների եւ բառարանների հետ, որպեսզի այն հասկանալի դարձնի:

Ես բարձր եմ գնահատում, սակայն, որ ձայնի ճանաչման ամբողջ արվեստը շատ դժվար է, քանի որ բոլորն ունեն մեկ այլ ձայն եւ մի երկրում տարածաշրջանում տարածաշրջանում շատ բարբառներ կան, որոնք անհանգստանում են ամբողջ աշխարհում օգտագործվող հարյուրավոր լեզուների մասին:

Իմ վերլուծությունը, հետեւաբար, այն է, որ ձայնային ճանաչման ծրագրերը դեռեւս շարունակվում են: