Pregled tehnologija prepoznavanja glasa i načina njihove primjene. Prepoznavanje govora i trenutačni prijevod Problem s prepoznavanjem govora


Od trenutka kada je izumljeno računalo, čovječanstvo je sanjalo o komunikaciji s njim poznatim jezikom - koristeći glas. Prosječan stanovnik planete Zemlje ne želi znati ni za kakve tipkovnice ili miševe. Potreban mu je kompjuter da bi ga savršeno razumio – i to u doslovnom smislu. Jednostavno, brzo, jasno! Dok pisci znanstvene fantastike smišljaju priče o tome kako će za sto-dvije godine računala početi ići po narudžbama u dućane, masirati nam pete i češati leđa, programeri polako ali sigurno kreću u realizaciju te ideje. A ako za sada morate bez češkanja ispod lopatice, onda je već vrlo moguće glasovno upravljati raznim aplikacijama, pa čak i diktirati cijele tekstualne datoteke računalu. Još nema mnogo programa za upoznavanje s računalima, ali oni koji postoje brzo se razvijaju. Prije samo godinu dana, uslužni programi opisani u članku - njihove ranije verzije - bili su vrlo tužan prizor. Danas su odrasli, sazreli - to više nisu neki progonjeni, mokri i gladni štenci, već veseli vučići, koji će se za godinu-dvije pretvoriti u vukove glasovnog upravljanja računalom.

Zmaj prirodno govori 8
Jedinstveni uslužni program svoje vrste. Titanic i Zeppelin "govornih" programa u jednoj boci. Paklena mješavina prepoznavača glasa, računalne kontrole zvuka i učitelja pravilnog izgovora engleskih riječi. Ali razgovarajmo o svemu redom.
Uslužni program je na engleskom jeziku i stoga može raditi isključivo s engleskim oblicima riječi. Teoretski, može se naučiti Dragon Naturally Speaking sjajno i moćno, ali, nažalost i ah, ovo se može koristiti samo za glasovno upravljanje računalom. Uslužni program neće moći djelovati kao ruski stenograf - bez obzira koje trikove pokušali. Ali govorni engleski možete naučiti u trenu. Prema programerima, program prepoznaje do 95% riječi. Brojka je, naravno, precijenjena, ali ne toliko kao kod konkurenata. Uvježbavanjem DNS-a da odgovara boji vašeg glasa (za to ćete morati potrošiti oko sat vremena na diktiranje različitih riječi), naučit ćete ga da razumije čak i vrlo složene fraze koje uvrću mozak, uključujući engleske psovke. Postoji samo jedan "ali" ... Bilo koju frazu morate izgovoriti vrlo jasno. Što, nisi pohađao tečajeve artikulacije? Tada ćete morati vježbati sami. Budite uvjereni, nakon nekoliko dana lingvističkih borbi s DNS-om, svakog Engleza ćete zadiviti čistoćom svog izgovora. Misliš da se šalimo? Nikako! DNS je idealan alat za uvježbavanje pravilnog izgovora - čim se krivotvori, odmah izdaje upozorenje.
Sada o glasovnoj kontroli. Ni tu DNS nije razočarao. Program smo uspjeli instalirati na gotovo sve alate koje imamo na uredničkim računalima. Najprije je uhvatio za grlo smrtnim stiskom sve komponente paketa MS Office. Nakon glasovne naredbe otvorio sam Excel i Word, kao i sve ostale aplikacije. Zatim je došlo vrijeme za mrežne programe. Šišmiš!, ICQ, razni internetski preglednici su prvi put poslušali DNS. Konačno, testirali smo uslužni program u radu s različitim uslužnim programima iste klase - radio je bez treptanja. Smiješno je kada jedan program za glasovnu kontrolu pokrene drugi sličan uslužni program. Usput, imajte na umu: postavljanje DNS-a za pokretanje vaših omiljenih igara ne košta ništa. Recite "Warcraft" u mikrofon i odmah se učitava. Glavna stvar je, ne zaboravite, prije davanja naredbi, naučiti program da poveže određenu riječ s određenim uslužnim programom (podesiv u izborniku Centar za točnost).
Uz ono što je spomenuto, program ima mnogo različitih sitnica ugrađenih u njega, koji se čine opcionalnim, ali koji značajno proširuju mogućnosti uslužnog programa. Kako vam se sviđa, na primjer, prepoznavanje teksta iz wav ili mp3 datoteke? Skinete pjesmu na engleskom jeziku u kojoj ne možete razabrati neke riječi, a DNS vam ih da u tekstualnom obliku.
Možete pjevati hvalospjeve DNS-u gotovo unedogled. Ovo je jedini program u recenziji koji se nosio s gotovo svim tekstovima i pokazao čak i više mogućnosti nego što smo od njega očekivali. Nedvosmislen “must-have” i “stručnost”.
Prednosti: Jednostavan, praktičan, s mnogo zvona i zviždaljki.
minusi: Naknada za registraciju za 30-dnevnu probnu verziju je gotovo $200 , što najblaže rečeno nije skromno. Uslužni program ne razumije ruski - ali to je problem s gotovo svim sličnim programima.
Sažetak: Možda najbolji program za prepoznavanje govora i glasovno upravljanje računalom. Da nije visoke cijene bio bi jednostavno idealan.
Realize Voice 4.1
Unatoč tome što kreatori položaj Ostvarite glas poput svojevrsnog multikombinatora koji se podjednako lako nosi s prepoznavanjem govora, upravljanjem aplikacijama i recitativnom sintezom, detaljnim testiranjem pokazalo se da tvorci, najblaže rečeno, preuveličavaju mogućnosti proizvoda. Kao prepoznavanje govora, korisnost se pokazala vrlo slabom. Postotak točnog definiranja riječi i njihovog prevođenja u tekstualni oblik vrlo je nizak. Čak i dugotrajna izvođenja modula obuke nisu dovela do ničega. Program odbija razumjeti mnoge riječi i izraze. I RV bi odmah bio linčovan i razapet da nije... jedinstvenih mogućnosti u području glasovnog upravljanja raznim aplikacijama. Ovdje se RV potrudio i dao takvu prednost drugim komunalnim službama da smo skoro pljeskali. Program se može lako konfigurirati za pokretanje bilo kojeg uslužnog programa treće strane (čak i Word, čak i ICQ, barem neki upravljački program) i čak podržava rad s makronaredbama. Uz njihovu pomoć možete učiniti stvari na koje je strašno i pomisliti. Na jednu glasovnu naredbu, koja, usput, može biti ruska, možete priložiti, na primjer, sljedeću višestupanjsku funkciju: otvorite klijent e-pošte, učitajte filtar neželjene pošte, idite na poslužitelj, preuzmite sva pisma s zaglavljima na ruskom, sve sa zaglavljima na engleskom i s naslovima dužim od 20 znakova - brisati. Ovo je samo primjer. Općenito, složenost makronaredbi nije ni na koji način ograničena. Glavna stvar je samo imati vremena za maštanje. Jedina stvar koju Realize Voice nije mogao trenirati bila je glasovna kontrola unutar računalnih igrica. Ali u normalnim aplikacijama nema problema.
Kao bonus, RV nudi, blago rečeno, integralnu funkciju glasovne organizacije radnog prostora. Ovo je znanstveno, a ako je na ruskom, onda svojim glasom možete ne samo pokrenuti aplikacije i kontrolirati njihov rad, već i učitati druge uslužne programe u bilo kojem trenutku, prebacivati ​​se između prozora, zatvarati programe... Drugim riječima, Bobik na naredbu “Aport!” ne samo da trči po kost, već će usput stati u dućanu po mlijeko, izbaciti smeće, platiti telefonski račun i kupiti tvojoj djevojci cvijeće.
Prednosti: Jedinstvene značajke glasovnog upravljanja, podrška za složene makronaredbe, jednostavnost korištenja.
minusi: Slab modul za prepoznavanje govora. Cijena 50 dolara.
Sažetak: Program je jednostavno stvoren za glasovno upravljanje računalom. Šteta je što su programeri žrtvovali druge važne funkcije uslužnog programa.
Diktat 2004 v. 4.4
Prosječna korisnost. Ovo je upravo slučaj kada se čini da se nema čemu prigovoriti, ali u usporedbi s konkurencijom ne izgleda baš dobro. Diktat 2004 dobro se nosi s prepoznavanjem govornog govora, iako se ne može natjecati, na primjer, s Dragon Naturally Speakingom: potonji pogađa najosjetljiviju točku u Diktatu 2004 - postotak točnih pogađanja riječi. Program s tim ne ide dobro, dodatna obuka liječi bolest, ali ne u potpunosti. Uslužnom programu možete dati ocjenu "A" za njegovu sposobnost upravljanja aplikacijama, ali to će biti ocjena marljivosti, a ne ovladavanja temom, kao što to čini Ostvarite glas. Programeri inzistiraju da je program usko integriran s Wordom, ali to nismo primijetili - ne razlikuje se od rada s drugim uslužnim programima. Na kraju, želim se počešati po ušima Dictation 2004 jer može prilično dobro prepoznati govor iz wav datoteka, ali Dragon Naturally Speaking to radi puno bolje. Jedina jedinstvena funkcija "Diktata" je mogućnost prepoznavanja govora izravno iz različitih vanjskih izvora (diktafon, player, glazbeni centar - teško da će ikome trebati). Tako ispada da je Dictation 2004 dobar za sve, ali je šteta platiti "zelenih pedeset dolara" (50 USD) za njega.
Prednosti: Može prepoznati govor izravno s raznih vanjskih uređaja.
minusi: Prosječna izvedba za sve funkcije.
Sažetak: Jeftino, ali ne baš veselo. Osrednji uslužni program, sivi miš u svijetu programa za prepoznavanje govora.
Gorynych PROF 3.0
"Gorynych" je domaći razvoj. Samo sposobnost rada s velikima i moćnima može podići program na pijedestal. No, budimo objektivni. Uslužni program je izgrađen na dva modula koji su odgovorni za prepoznavanje govora diktiranog u mikrofon i za davanje naredbi različitim aplikacijama. Rigorozno testiranje pokazalo je da "Gorynych", nažalost, ima problema s ruskim jezikom - ako povučemo analogije sa stranim programima i njihovom razinom znanja engleskog, onda domaći proizvod radi negdje na razini Diktat 2004. Odnosno, sve je super, ali ima štucanja. Važna stvar je da uslužni program ima ugrađeni blok za samoučenje: što više obraćate pozornost na "Gorynych", to vas bolje razumije i manje je ogorčen na vaš netočan ruski izgovor. Uslužni program smo testirali samo nekoliko sati, a za to vrijeme, činilo nam se, program je stvarno postao razumljiviji. Možda će duljom komunikacijom rezultati biti još bolji.
Testiranje momčadskih vještina "Gorynycha" prošlo je bez problema. Uslužni program ne pokušava se pretvarati da je mega-integrirani sustav; implementirane su samo osnovne funkcije upravljanja programom - nećete morati pisati složene makronaredbe, ali ono što je tu je solidnih prvih pet. Pokretanje, gašenje programa, pozivanje dodatnih prozora - zmija iz bajke nosila se sa svime i suzdržala se od pokazivanja nemira.
U prirodi postoje dvije verzije podmuklog Gorynycha - lagana verzija (Light), koja se prodaje u pakiranju dragulja za oko 5 USD (idealna za kućnu upotrebu) i potpuna verzija u kutiji za 49 USD (za dom, funkcije su očito previše mnogo).
Prednosti: Ruski jezik, ergonomsko sučelje, funkcija samoučenja, dostupnost jeftine lagane verzije.
minusi: Prosječna izvedba za sve funkcije, ali samo u odnosu na pozadinu stranih konkurenata; među domaćim komunalnim uslugama nema analoga.
Sažetak: Odličan program na ruskom jeziku. U nedostatku dostojnih domaćih analoga, ovo je gotovo jedina opcija za one koji uopće nisu zadovoljni engleskim jezikom.
Što očekivati? Čega se bojati?
Unatoč relativnoj sličnosti "glasovnih" programa, oni koriste različite algoritme za prepoznavanje govora, dekodiranje i njegovo prikazivanje na zaslonu kao tekst. Obično je nekoliko algoritamskih jezgri ugrađeno u jedan uslužni program, koji su odgovorni za različite funkcije uslužnih programa. Ovisno o tome koja je komponenta u određenom programu pažljivije programirana, uslužni program bolje se nosi s određenim funkcijama. Najčešće, "glasovne" aplikacije mogu raditi u dva glavna smjera.
1) Prepoznavanje ruskog ili engleskog govora i pretvaranje glasa u tekstualnu datoteku. Najteža funkcija za implementaciju je, naravno, za programere. Nažalost, još ne postoje programi koji savršeno vladaju ovom vještinom.
2) Glasovno upravljanje računalom. Neka jednostavna - ili ne baš jednostavna, ali višestupanjska - radnja "povezana" je s nekom vrstom glasovne naredbe. Nakon toga, dovoljno je izgovoriti dragocjenu riječ ili frazu, a računalo će odmah izvršiti odgovarajuću operaciju.
Imajte na umu da čak i demo verzije programa opisanih u članku zauzimaju najmanje 50 MB. To je zbog velike količine "vokabulara" - da bi razumjeli izgovorenu riječ, uslužni program je već mora "znati". Nemojte očekivati ​​da će govorni programi brzo raditi na slabim strojevima. Za ugodan rad s većinom ovih uslužnih programa potrebno je imati potpuno moderno računalo i kvalitetan mikrofon.

* * *
U teoriji ste pametni, to je stvar prakse. Opskrbite se uslužnim programima, instalirajte, ovladajte. Tržište programa za prepoznavanje govora je mlado, zbog čega se komunalne službe ponašaju kao mala djeca. Treba ih paziti, mijenjati im pelene na vrijeme, paziti da na vrijeme nauče nove riječi (svi programi imaju modul za učenje novih izraza), njegovati ih i njegovati. Što će izrasti iz distribucije preuzete s interneta ili kupljene ovisi samo o vama. Ako ne posvetite dovoljno vremena postavljanju i treniranju programa, izrastat ćete u tvrdoglavog i huliganskog dječaka. Provedite nekoliko sati proučavajući dokumentaciju, navigirajući izbornicima, radeći s mikrofonom - odgojite marljivog mladića koji će vas posvuda pratiti i govoriti: “ Što hoćeš, tatice?! Kaša? Lagano slani krastavci?”.

Da bi prepoznati govor i prevesti ga iz zvuka ili videa u tekst, postoje programi i ekstenzije (dodaci) za preglednike. Međutim, čemu sve to ako postoje online usluge? Programi moraju biti instalirani na vašem računalu; štoviše, većina programa za prepoznavanje govora je daleko od besplatnih.


Velik broj dodataka instaliranih u pregledniku uvelike usporava njegov rad i brzinu surfanja internetom. A usluge o kojima ćemo danas govoriti potpuno su besplatne i ne zahtijevaju instalaciju - samo uđite, upotrijebite i otiđite!

U ovom članku ćemo pogledati dvije online usluge prevođenja govora u tekst. Oba rade na sličnom principu: počnete snimati (dopuštate pregledniku pristup mikrofonu dok koristite uslugu), govorite u mikrofon (diktirate), a izlaz je tekst koji se može kopirati u bilo koji dokument na računalu.

Speechpad.ru

Internetska usluga za prepoznavanje govora na ruskom jeziku. Ima detaljne upute za rad na ruskom.

  • podrška za 7 jezika (ruski, ukrajinski, engleski, njemački, francuski, španjolski, talijanski)
  • preuzimanje audio ili video datoteke za transkripciju (podržani su videozapisi s YouTubea)
  • simultani prijevod na drugi jezik
  • podrška za glasovni unos interpunkcijskih znakova i pomicanja redaka
  • ploča s gumbima (promjena velikih i malih slova, novi red, navodnici, zagrade itd.)
  • dostupnost osobnog računa s poviješću zapisa (opcija dostupna nakon registracije)
  • prisutnost dodatka za Google Chrome za unos teksta glasom u tekstualno polje web-mjesta (pod nazivom "Glasovni unos teksta - Speechpad.ru")

Diktat.io

Druga online usluga prevođenja govora u tekst. Strani servis, koji u međuvremenu savršeno radi s ruskim jezikom, što je izuzetno iznenađujuće. Kvaliteta prepoznavanja govora nije niža od Speechpada, ali o tome kasnije.

Glavna funkcionalnost usluge:

  • podrška za 30 jezika, uključujući mađarski, turski, arapski, kineski, malajski itd.
  • automatsko prepoznavanje izgovora interpunkcijskih znakova, prijeloma redaka itd.
  • Mogućnost integracije sa stranicama bilo koje web stranice
  • dostupnost dodatka za Google Chrome (pod nazivom "VoiceRecognition")

U prepoznavanju govora najvažnije je kvaliteta prijevoda govor u tekst. Ugodne "pundže" i prilike nisu ništa više od dobrog plusa. Dakle, čime se obje službe mogu pohvaliti u tom pogledu?

Usporedni test usluga

Za test ćemo odabrati dva teško prepoznatljiva fragmenta koji sadrže riječi i govorne figure koje se rijetko koriste u suvremenom govoru. Za početak čitamo ulomak pjesme “Seljačka djeca” N. Nekrasova.

Ispod je rezultat prevođenja govora u tekst svaka usluga (pogreške su označene crvenom bojom):

Kao što vidite, obje su se usluge nosile s prepoznavanjem govora s gotovo istim pogreškama. Rezultat je prilično dobar!

Sada, za test, uzmimo odlomak iz pisma crvenoarmejca Sukhova (film "Bijelo sunce pustinje"):

Izvrstan rezultat!

Kao što vidite, obje se usluge vrlo dobro nose s prepoznavanjem govora - odaberite jednu! Čini se da čak koriste isti motor - pogreške koje su napravili bile su previše slične na temelju rezultata testa). Ali ako trebate dodatne funkcije kao što je učitavanje audio/video datoteke i njezino prevođenje u tekst (transkripcija) ili simultani prijevod izgovorenog teksta na drugi jezik, onda će Speechpad biti najbolji izbor!


Usput, evo kako je izveo simultani prijevod fragmenta Nekrasovljeve pjesme na engleski:

Pa ovo je kratka videouputa za rad sa Speechpadom koju je snimio sam autor projekta:

Prijatelji, sviđa li vam se ova usluga? Znate li bolje analoge? Podijelite svoje dojmove u komentarima.

Telefonski titl za gluhe i nagluhe osobe

Pretvorite svoj zaslon u nevjerojatno zaglavlje telefona. Vaši razgovori su potpuno automatski, bez tipkanja ljudskog sluha. Je li bakama i djedovima teško čuti obitelj i prijatelje na telefon? Uključite im Speechlogger i prestanite vrištati na telefon. Jednostavno spojite audio izlaz vašeg telefona na audio ulaz vašeg računala i pokrenite Speechlogger. Također je koristan u interakcijama licem u lice.

Automatska transkripcija

Jeste li snimali intervju? Uštedite malo vremena prepisujući ga, s Googleovim automatskim pretvaranjem govora u tekst, koji Speechlogger donosi u vaš preglednik. Pustite svoj snimljeni intervju u mikrofon (ili liniju) vašeg računala i pustite speaklogger da napravi transkripciju. Speechlogger sprema transkribirani tekst zajedno s datumom, vremenom i vašim komentarima. Također vam omogućuje uređivanje teksta. Telefonski razgovori mogu se transkribirati istom metodom. Također možete snimati audio datoteke izravno s vašeg računala kao što je opisano u nastavku.

Automatski tumač i prevoditelj

Susret sa stranim gostima? Ponesite prijenosno računalo (ili dva) s govornim zapisivačem i mikrofonom. Svaka će strana vidjeti izgovorene riječi druge strane prevedene na njihov materinji jezik u stvarnom vremenu. Također je korisno u telefonskom razgovoru na stranom jeziku kako biste bili sigurni da u potpunosti razumijete drugu stranu. Spojite audio izlaz telefona na linijski ulaz računala i pokrenite Speechlogger.

Naučite strane jezike i poboljšajte svoje vještine izgovora

Speechlogger je izvrstan alat za učenje jezika i može se koristiti na nekoliko načina. Možete ga koristiti za učenje vokabulara govoreći svoj materinji jezik i dopuštajući softveru da ga prevede. Možete naučiti i vježbati pravilan izgovor govoreći strani jezik i gledajući razumije li Speechlogger ili ne. Ako je tekst prepisan crnim fontom znači da ste ga dobro izgovorili.

Generiranje titlova za filmove

Speechlogger može automatski snimati filmove ili druge audio datoteke. Zatim uzmite datoteku i automatski je prevedite na bilo koji jezik kako biste proizveli međunarodne titlove.

Diktirajte umjesto tipkanja

Pisanje pisma? Dokumentacija? Popisi? Sažetak? Bez obzira na to što trebate upisati, pokušajte to izdiktirati Speechloggeru. Speechlogger će ga automatski spremiti za vas i omogućiti vam da ga izvezete u dokument.

Zabavna igra :)

Možete li imitirati kineskog govornika? Francuski? Što je s ruskim jezikom? Pokušajte oponašati strani jezik i pogledajte što ste upravo rekli uz Speechlogger. Koristite simultani prijevod Speechloggera da biste razumjeli što ste upravo rekli. Postizanje nevjerojatnih rezultata jako je zabavno!

Evo četiri načina za pretvaranje govora u tekst pomoću besplatnih programa i aplikacija.

Pretvorite govor u tekst izravno u Wordu

Uz Microsoft Dictate možete diktirati, pa čak i prevoditi tekst izravno u Word.

  • Preuzmite i instalirajte besplatni program Microsoft Dictate.
  • Zatim ga otvorite i pojavit će se kartica Diktiranje. Klikom na njega vidjet ćete ikonu mikrofona s naredbom Start.
  • Pored njega je izbor jezika. Odaberite ruski jezik i počnite snimati. Pokušajte izgovoriti riječi što je jasnije moguće i one će se pojaviti izravno u dokumentu.

Pretvorite govor u tekst uz Izgovorite poruku

Besplatni program Speak A Message snima izgovoreni tekst i zatim ga transkribira. Glavni jezici programa su engleski, njemački, španjolski i francuski, ali postoji i višejezična verzija.

  • Instalirajte program i kliknite gumb "Snimi". Izgovorite cijeli tekst, a zatim kliknite "Stop".
  • Ispod gumba za snimanje, pokraj snimljenih datoteka, pronaći ćete funkciju “Transkripcija” - “Govor u tekst”.
  • Kopirajte gotov tekst i zalijepite ga u željeni tekst editor. Ali ne zaboravite provjeriti što je program snimio - ponekad griješi.

Govor pretvaramo u tekst bez posebnih programa

U operacijskom sustavu Windows 8 i 10 nije vam potreban dodatni softver za pretvaranje glasa u tekst.

  • Pritisnite tipku Windows i upišite "Speech Recognition." Zatim otvorite rezultat koji odgovara vašem upitu i slijedite upute programa.
  • Nakon što je postavljanje dovršeno, pokrenite aplikacije i diktirajte izravno iz Word dokumenta. Da biste to učinili, jednostavno pritisnite gumb mikrofona i počnite govoriti.

Pretvorite govor u tekst putem aplikacije

Ako želite diktirati tekstove i primati ih ispisane u pokretu, koristite posebne aplikacije.

  • Android i iOS već su integrirali prepoznavanje govora u svoje sustave. Kada otvorite aplikaciju za bilježenje i počnete tipkati, upotrijebite ikonu mikrofona za pokretanje glasovnog prepoznavanja.
  • Postoje i druge aplikacije za sličnu namjenu, poput Dragon Dictation, dostupne za Android i iOS.

Nijedan program ne može u potpunosti zamijeniti ručni rad transkripcije snimljenog govora. No, postoje rješenja koja mogu znatno ubrzati i olakšati prevođenje govora u tekst, odnosno pojednostaviti transkripciju.

Što je transkripcija

Transkripcija je automatsko ili ručno prevođenje govora u tekst, točnije, snimanje audio ili video datoteke u tekstualnom obliku.

Na internetu postoje plaćeni plaćeni zadaci, kada se izvođaču plaća određena svota novca za prepisivanje teksta. U ovom slučaju transkripcija se vrši ručno.

Međutim, transkripciju možete napraviti automatski, koristeći poseban program koji može "slušati" tekst i istovremeno ga "ispisati", pretvarajući ga u tekstualnu datoteku pogodnu za daljnju upotrebu.

Korisno je prevođenje govora u tekst ručno ili pomoću posebnog programa

  • studentima da prevedu snimljena audio ili video predavanja u tekst,
  • blogeri koji vode web stranice i blogove,
  • književnici, novinari za pisanje knjiga i tekstova,
  • informacijske poslovne ljude koji trebaju tekst nakon webinara, govora i sl.,
  • freelancere koji ručno prevode govor u tekst kako bi olakšali i ubrzali svoj rad,
  • ljudi koji imaju poteškoća s tipkanjem - mogu izdiktirati pismo i poslati ga obitelji ili prijateljima,
  • druge opcije.

O problemima automatskog prevođenja govora u tekst

Dva su glavna problema s prevođenjem govora u tekst pomoću programa: kvaliteta snimljenog govora i prisutnost pozadine u snimci u obliku buke, glazbe ili drugih stranih zvukova.

Svačiji govor je drugačiji:

  • tako brzo da se riječi gutaju ili, obrnuto, vrlo sporo;
  • s jasnom dikcijom, poput profesionalnih spikera, ili toliko neizražajno da je teško bilo što razumjeti;
  • s izvrsnim izgovorom ili, naprotiv, s jakim naglaskom, na primjer, kada govori stranac.

U kojim će slučajevima automatski program za prijepis dati najbolje rezultate govora u tekst? Program će napraviti više ili manje kvalitetan prijevod kada osoba na snimci govori jasnom dikcijom, normalnom brzinom govora, bez naglaska. Istodobno, snimka govora ne sadrži strane zvukove u obliku buke, glazbe ili razgovora drugih ljudi. Tada se možete nadati dobrom automatskom prijevodu koji ne zahtijeva ručne ispravke ili s minimalnim izmjenama.

U drugim slučajevima, kada je govor neizražajan i postoje vanjski šumovi, prijevod pomoću programa ili aplikacije bit će puno lošiji. Možda će neki program ili servis bolje prepisati takav govor od drugih programa i aplikacija, ali ne treba očekivati ​​čudo.

U nekim slučajevima ipak vrijedi kontaktirati burzu slobodnih stručnjaka, gdje će stvarna osoba ručno izvršiti prijevod. Međutim, ni ovdje se ne može jamčiti visoka kvaliteta, jer freelancer može koristiti programe za automatsko prepisivanje i bit će previše lijen za uređivanje dobivenog teksta.

Opisat ćemo najučinkovitije alate dostupne na računalu, mobilnim aplikacijama i online servisima za prevođenje govora u tekst.

1 Web stranica speakpad.ru

Ovo je internetska usluga koja vam omogućuje prevođenje govora u tekst pomoću preglednika Google Chrome. Usluga radi s mikrofonom i gotovim datotekama. Naravno, kvaliteta će biti puno veća ako koristite vanjski mikrofon i diktirate sami. Međutim, usluga dobro radi čak i s YouTube videozapisima.

Kliknite "Omogući snimanje", odgovorite na pitanje o "Korištenje mikrofona" - da biste to učinili, kliknite "Dopusti".

Duge upute o korištenju usluge mogu se sažeti klikom na gumb 1 na sl. 3. Možete se riješiti oglašavanja ispunjavanjem jednostavne registracije.

Riža. 3. Usluga govorne pločice

Gotov rezultat je lako urediti. Da biste to učinili, morate ili ručno ispraviti označenu riječ ili je ponovno izdiktirati. Rezultati rada spremaju se na vaš osobni račun, a mogu se preuzeti i na vaše računalo.

Popis video lekcija o radu s govornom pločom:

Videozapise možete transkribirati s Youtubea ili s vašeg računala, no trebat će vam mikser, više detalja:

Video "Audio transkripcija"

Usluga radi na sedam jezika. Postoji mali minus. Leži u činjenici da ako trebate prepisati gotovu audio datoteku, tada se njen zvuk čuje kroz zvučnike, što stvara dodatne smetnje u obliku jeke.

2 Servisni diktat.io

Prekrasna internetska usluga koja vam omogućuje besplatno i jednostavno prevođenje govora u tekst.

Riža. 4. Servisni diktat.io

1 na sl. 4 – Ruski jezik možete odabrati na kraju stranice. U pregledniku Google Chrome odabire se jezik, ali iz nekog razloga u Mozilli ne postoji takva opcija.

Važno je napomenuti da je implementirana mogućnost automatskog spremanja gotovog rezultata. To će spriječiti slučajno brisanje kao rezultat zatvaranja kartice ili preglednika. Ova usluga ne prepoznaje gotove datoteke. Radi s mikrofonom. Prilikom diktiranja morate imenovati interpunkcijske znakove.

Tekst se sasvim ispravno prepoznaje, nema pravopisnih grešaka. Možete sami umetnuti interpunkcijske znakove s tipkovnice. Gotovi rezultat može se spremiti na vaše računalo.

3 RealSpeaker

Ovaj vam program omogućuje jednostavno prevođenje ljudskog govora u tekst. Dizajniran je za rad na različitim sustavima: Windows, Android, Linux, Mac. Uz njegovu pomoć možete pretvoriti govor koji se čuje u mikrofon (na primjer, može se ugraditi u prijenosno računalo), kao i snimiti u audio datoteke.

Može razumjeti 13 svjetskih jezika. Postoji beta verzija programa koja radi kao online usluga:

Morate slijediti gornju vezu, odabrati ruski jezik, prenijeti svoju audio ili video datoteku na internetsku uslugu i platiti njezinu transkripciju. Nakon transkripcije možete kopirati dobiveni tekst. Što je datoteka za transkripciju veća, potrebno je više vremena za njenu obradu, više detalja:

U 2017. postojala je besplatna opcija za transkripciju pomoću RealSpeakera, ali od 2018. nema te opcije. Vjerojatno, kako bi transkribirana datoteka bila nedostupna za preuzimanje svim korisnicima, mora postojati kvačica pored “Neka datoteka ne uspije u roku od 24 sata”.

Stranica ima online chat. Gumb za početak razgovora nalazi se u donjem desnom kutu stranice.

4 govorne bilješke

Alternativa prethodnoj aplikaciji za mobilne uređaje koji rade na Androidu. Dostupno besplatno u trgovini aplikacija:

Tekst se automatski uređuje i dodaju se interpunkcijski znakovi. Vrlo zgodno za diktiranje bilješki sebi ili izradu popisa. Kao rezultat toga, tekst će biti vrlo pristojne kvalitete. Postoji plaćena premium verzija.

5 Zmajev diktat

Ovo je aplikacija koju Apple besplatno distribuira za mobilne uređaje.

Program može raditi s 15 jezika. Omogućuje vam uređivanje rezultata i odabir željenih riječi s popisa. Morate jasno izgovarati sve zvukove, ne praviti nepotrebne pauze i izbjegavati intonaciju. Ponekad postoje pogreške u završecima riječi.

Aplikaciju Dragon Dictation koriste vlasnici Appleovih gadgeta, primjerice, za diktiranje popisa za kupovinu u trgovini dok se kreću po stanu. Kad stignu tamo, mogu pogledati tekst u bilješci, a da ne moraju slušati.

Koji god program koristite u svojoj ordinaciji, budite spremni ponovno provjeriti rezultate i napraviti određene prilagodbe.

To je jedini način da dobijete besprijekoran tekst bez grešaka.

Transkripcija audio i video zapisa u tekst na freelance burzama

Što se tiče ručnog prijevoda, od centrale možete naručiti transkripciju govora u tekst. Na freelance burzi neki korisnici (kupci) daju narudžbu, odabiru izvođača i plaćaju posao. A drugi korisnici (freelanceri) primaju narudžbe, obavljaju potrebne radove i za to primaju naknadu.

Kako možete naručiti na freelance burzi? Prvo se trebate registrirati na web stranici mjenjačnice, odnosno registrirati se tamo. Zatim možete naručiti - zadatak prijepisa.

Za svoju narudžbu na burzi možete odabrati izvođača - osobu koja će raditi transkripciju. Za to je potrebno da barem jedan od potencijalnih izvođača pristane preuzeti predloženo djelo. Ako nitko nije preuzeo narudžbu, tada morate promijeniti njene parametre, na primjer, povećati cijenu za rad.


Plaćanje za obavljeni rad ne vrši se direktno freelanceru, već putem freelance burze. Prilikom naručivanja obično morate nadopuniti svoj račun iznosom potrebnim za dovršetak prijepisa. Osim toga, može postojati provizija zamjene za posredovanje u obliku fiksnog iznosa ili fiksnog postotka iznosa narudžbe. Plaćanje za rad se vrši nakon njegove provjere i odobrenja od strane kupca. Najčešće se iznos šalje izvođaču istovremeno s odobrenjem njegovog rada od strane kupca.

Prije narudžbe vrijedi pročitati pravila mjenjačnice u vezi s provjerom obavljenog zadatka, plaćanjem, kao i uplatom i povlačenjem novca na mjenjačnici. Povlačenje novca je neophodno kako bi se preostali novac, planiran za plaćanje drugih narudžbi, mogao vratiti kupcu, a ne ostati zauvijek na burzi.

U nastavku nudim dvije poznate freelance burze na kojima možete naručiti prijevod govora u tekst uz pomoć freelancera: weblancer.net i freelance.ru.

Dvije freelance burze

Dešifriranje audio i video zapisa u tekst (transkripcija) na weblancer.net freelance burzi:

Riža. 5. (kliknite za povećanje)

Slobodna burza weblancer.net

Još jedna burza na kojoj možete naručiti transkripciju audio/video zapisa je freelance.ru

Razmjena slobodnjaka freelance.ru