Синтез мовлення онлайн. Що таке синтезатори мови? Найкращі синтезатори мови

Сучасні технології дозволяють вам генерувати мову безпосередньо з друкованого тексту. Тільки уявіть, що ви можете набрати текст, який потім буде вимовлений вибраним вами голосом, з вибраною інтонацією і швидкістю. І це не фантастика, це реальність.

Що таке синтезатор мови?

Синтезатори мови Text to Speech (TTS)- спеціальні програми, що дозволяють формувати мовний сигнал (мова, голос) за друкованим текстом. Перша згадка про синтез мови відноситься до X століття. Наприкінці XVIII століття вчений Християн Кратценштейн створив модель мовного тракту людини, здатну вимовляти п'ять голосних звуків (а, е, і, о, у).

Перші синтезатори мови з урахуванням обчислювальної техніки виникли наприкінці 1950-х років. Вони звучали досить примітивно, і розібрати таку мову можна було насилу. Роботи над поліпшенням якості синтезованого мовлення продовжуються. Вже сьогодні мова, що генерується сучасними системами синтезу мови, часом не відрізнити від реальної людської мови.

Навіщо потрібний синтезатор мови?

Синтезатор мови може стати вам у нагоді в багатьох випадках, наприклад:

Під час подорожі- просто наберіть будь-яку фразу, і програма її скаже потрібною вам мовою.
Щоб читати електронні книги, тексти, документи- Ви займаєтеся своєю справою, а програма читає вам уголос.
Для вивчення іноземних мов- відмінна можливість безкоштовно тренувати вимову та розмовні навички.

Синтезатор мови A1 SpeechTRON

A1 SpeechTRON- синтезатор англійської мови із тексту. Може використовуватись для читання нотаток, текстових документів, електронних книг та інших текстових матеріалів (формати: текст, RTF, DOC). Мовний синтезатор (TTS) можна також використовувати щодо англійської мови. Програма повністю підтримує Microsoft TTS SAPI 4.0, має інтерфейс, що повністю настроюється, висока якість звуку, налаштування швидкості читання, запис у файл. Є підтримка користувацьких та додаткових словників.

Синтезатор мови ReadPlease

ReadPlease- синтезатор англійської мови із тексту. Може використовуватись для читання текстів, буфера обміну, текстових документів, електронних книг та інших текстових матеріалів (формати: текст, RTF, DOC). Мовний синтезатор (TTS) можна також використовувати щодо англійської мови. Програма після запуску розміщується у треї та керується гарячими клавішами. Може пристиковуватись до різних вікон або робочого столу. У платній версії є додаткові мови, стандарт AT&T Natural Voices, додаткові можливості. Програма існує у двох версіях: безкоштовна та платна. Є підтримка користувацьких та додаткових словників.

Синтезатор мови ReadingBar

ReadingBar- синтезатор мови із будь-якої web-сторінки. Це панель для браузера Internet Explorer, яка після інсталяції вбудовується у браузер і дозволяє читати будь-які веб-сторінки. Ви можете записати голос у wav або mp3 файл. Крім вимови тексту, ReadBar дозволяє також підсвічувати слова, перекладати їх 4 мови, виводити тлумачення слів зі словника. Будьте уважні, ReadingBar не працюватиме на операційній системі Vista та у браузері Internet Explorer 7.

Синтезатор мови FlameReader

FlameReader- багатофункціональний синтезатор мови, який дозволяє генерувати мову з будь-якого тексту чи файлу. Достатньо виділити текст у будь-якій програмі чи будь-якому документі, і FlameReader відразу ж вимовить його. Програма має безліч можливостей: запис голосу у файл (wav та mp3), читання e-mail, документів, web-сторінок, озвучення PowerPoint-презентацій, переклад текстів. Ви завжди можете налаштувати FlameReader зручним для вас чином, вибравши голосовий движок, швидкість відтворення та інші параметри. FlameReader додає панель навігації до пакета програм Microsoft Office, спрощуючи роботу з нею. У комплекті із програмою постачається зручний редактор звукових файлів.

Синтезатор мови Alive Text to Speech

Alive Text to Speech- багатофункціональний синтезатор мови, що дозволяє не тільки вимовляти слова, тексти та файли, а й записувати (конвертувати) їх у звукові файли (MP3, WAV, OGG, VOX). В комплект входить панель для браузера Internet Explorer, що дозволяє озвучувати будь-які веб-сторінки та конвертувати їх у звукові файли.

Синтезатор мови YeoSoft Text to MP3 Speaker

YeoSoft Text на MP3 Speaker- багатофункціональний синтезатор мови, що дозволяє озвучувати тексти та створювати аудіо-книги у різних звукових форматах. Це ефективний інструмент вивчення іноземних мов. Підтримка технологій SAPI 4 та 5, файлів DOC та PDF, 10 мов, роботи з кількома файлами одночасно. Можливість додавання xml-тегів у текст для завдання керування вимовою. Налаштування голосу: гучність, швидкість, вибір голосового движка.

Синтезатор мови TextAloud

TextAloud- програма для генерації мови з тексту та файлів. Генеровану мову можна слухати за допомогою комп'ютера, так і записати у вигляді mp3 або wma файлу. Синтезатор підтримує такі типи файлів: DOC, PDF та HTML. У комплект із програмою входить також Toolbar для Internet Explorer, Firefox та Outlook.

Синтезатор мови Verbose

TextSound- конвертер тексту звукові файли (wav і mp3). Ця невелика програма допоможе вам швидко конвертувати текст у мову та зберегти її як звукових файлів. Програма дозволяє обробляти відразу кілька файлів та створювати список завдань.

Мовні синтезатори, встановлені на комп'ютери або мобільні пристрої, не здаються такими незвичайними програмами, як раніше. Завдяки сучасним технологіям звичайний настільний ПК може відтворювати людський голос.

Яким чином працюють синтезатори мови? Де вони використовуються? Який найкращий мовний синтезатор? Відповіді на ці та інші питання викладено у цій статті.

Загальне поняття

Синтезатори промови є спеціальними програмами, що складаються з деякої кількості модулів, які надають можливість перекласти набрані тексти в озвучені людським голосом речення. Не варто думати, що вся база слів та фраз записана реальними людьми у професійних студіях. Виконати таке завдання фізично неможливо. Бібліотеку з такою великою кількістю фраз не можна встановити на жодний сучасний комп'ютер, не кажучи вже про мобільні телефони. Для цього розробники створили технологію Text-to-Speech.

Сфера використання

Синтезатори мови використовуються щодо іноземних мов, прослуховуванні текстів на сторінках книжок, створенні вокальних партій, видачі пошукових запитів у вигляді озвучених фраз тощо.

Які різновиди програм є? Залежно від сфери застосування утиліти можна розділити на 2 види: звичайні, що перетворюють набраний текст на мову, та спеціальні вокальні модулі, що використовуються в музичних додатках.

Переваги і недоліки

На даний момент комп'ютер синтезує людську мову лише приблизно. У найпростіших програмах можна спостерігати проблеми зі звуком та правильною постановкою наголосів у різних словах. Синтезатори мови, встановлені на мобільні пристрої, витрачають багато енергії. Нерідко можна відзначити несанкціоноване завантаження додаткових модулів.

До переваг слід віднести зручність сприйняття. Багатьом користувачам набагато простіше засвоювати звукову інформацію, ніж будь-яку іншу.

Найкращі мовні синтезатори з російськими голосами

Програма RHVoice була створена Ольгою Яковлєвою. Стандартний варіант програми включає 3 голоси. Установки дуже прості. Програму можна використовувати як самостійний додаток, сумісний з SAPI5, і як додатковий екранний модуль.

Мовний синтезатор Acapela відрізняється від аналогів ідеальним озвучуванням тексту. Додаток підтримує понад 30 мов світу. У безкоштовній версії доступний лише один жіночий голос.

Програма Vocalizer часто застосовується у call-центрах. Користувач може налаштувати постановку наголосу, гучність та швидкість читання. За потреби завантажуються додаткові словники. Додаток має 1 жіночий голос. Мовний двигун автоматично вбудовується в програми для читання книг в електронному форматі.

Утиліта eSpeak підтримує понад 50 мов. Недоліком програми можна вважати збереження звукових файлів лише у форматі WAV, що вимагає багато місця на жорсткому диску.

Програма Festival є найпотужнішою утилітою синтезу мови, що підтримує навіть фінську мову та хінді.

Встановлення програми

Як використовувати такі програми? Для початку необхідно встановити програму. У комп'ютерних ОС застосовується стандартний інсталятор, в якому користувачеві залишається вибрати лише мовний модуль, що підтримується утилітою. Інсталятор для мобільних пристроїв можна завантажити з офіційного сайту, Google Play, а також App Store. Інсталяція програми відбувається в автоматичному режимі.

Перший запуск програми

На даному етапі користувачеві достатньо встановити мову за промовчанням. Іноді потрібно відзначити якість звучання. Стандартний варіант має на увазі частоту дискретизації 4410 Гц, глибину 16 біт та бітрейт 128 кбіт/с. У мобільних ОС показники можуть бути нижчими. Як основа використовується певний голос.

Фільтри та еквалайзери допомагають досягти необхідного звучання. Користувачеві доступні три варіанти перекладу тексту. Він може набрати на клавіатурі пропозиції, увімкнути озвучення вже наявного файлу або встановити в браузері розширення, яке перетворює вміст на веб-сторінках на мову. Достатньо відзначити необхідний варіант дій, тембр голосу та мову, якою буде вимовлятися текст. Для включення процесу відтворення потрібно натиснути кнопку «Старт».

Робота зі складними програмами

У музичних програмах налаштування набагато складніше. У мовному модулі програми FL Studio користувач може вибрати кілька видів голосів, а також вказати тональність та швидкість відтворення. Постановка наголосів перед складами здійснюється за допомогою символу "_". За допомогою подібного мовного синтезатора можна створити лише роботизований голос.

Програма Vocaloid відноситься до програм професійного типу. Крім звичайних параметрів, користувач може вибирати артикуляцію та гліссандо. Утиліта має базу з вокалом професіоналів. За бажання можна підганяти під ноти цілі пропозиції. Одна лише бібліотека з вокалом займає понад 4 Гб у стислому вигляді.

"Синтезатор мови Google": що це за програма

У травні 2014 року компанія надала користувачам можливість випробувати новий безкоштовний продукт. Що таке "Синтезатор мови Google" на "Андроїді"? Це програма, яка озвучує текст на екрані мобільного пристрою чи планшета. Тепер немає необхідності встановлювати сторонні утиліти, які потребують ліцензії. "Синтезатор мови Google" використовується при читанні електронних книг, прослуховуванні правильної вимови слів, запуску програми TalkBack.

Нова версія програми "Синтезатор мови Google 3.1" отримала функцію підтримки англійської, італійської, іспанської, корейської, німецької, нідерландської, польської, португальської, російської та французької мов. Де знайти голосові пакети? Вони завантажуються із самої програми.

Переваги та недоліки продукту від Google

Особливостями російськомовного жіночого голосу є чітке, гучне звучання та плавна інтонація. Швидкість відтворення можна регулювати у налаштуваннях програми. Користувачі, які використовують TalkBack та російську мовну локалізацію ОС Android, повинні виявляти обережність при перемиканні на мовний синтезатор, якщо раніше у програмі за умовчанням було встановлено інший голос. Можуть виникнути проблеми, пов'язані зі збереженням контролю за мобільним пристроєм на слух. Майже всі голоси, окрім російської, нездатні обробляти пропозиції на кирилиці.

Серед мінусів можна відзначити затримку реакцію читання текстів, які з фраз різними мовами. Російський голос відрізняється металевими нотками тембру. Можна почути брязкітний звук на низьких частотах. До переваг можна віднести стабільність роботи програми та прийнятну якість читання англомовних слів.

"Синтезатор мови Google": як користуватися програмою

Для того, щоб утиліта запрацювала як треба, потрібно оновити її до останньої версії. Щоб активувати процес озвучування тексту, потрібно відкрити налаштування. У розділі "мова та введення" необхідно поставити прапорець на пункті "синтез мови". Відразу слід зазначити рядок «система за замовчуванням». Не варто забувати про те, що голосові пакети в самій програмі також потребують оновлення.

Проблеми при роботі з утилітою

За потреби користувач може вимкнути програму. У найпростіших утилітах кнопка зупинки знаходиться у самій програмі. Деактивація розширення, встановленого у браузері, провадиться шляхом відключення доповнення або повного видалення плагіна. При роботі з програмою на мобільному телефоні можуть виникнути проблеми. Справа в тому, що синтезатор мови автоматично включає завантаження непотрібних користувачеві мовних модулів.

Цей процес займає багато часу і суттєво витрачає трафік. Як вимкнути "Синтезатор мовлення Google" на мобільному пристрої та позбутися цієї проблеми? Для початку потрібно відкрити налаштування програми. Потім необхідно вибрати розділ «Мова та голосове введення». Далі слід зазначити останній рядок.

Вибравши голосовий пошук, слід клікнути хрестиком у пункту «розпізнавання мови офлайн». Потім рекомендується видалити кеш-програми. Далі потрібно перезавантажити мобільний телефон. Щоб повністю відключити утиліту, необхідно відкрити в налаштуваннях розділ «додатки», вибрати у списку синтезатор мовлення та натиснути на кнопку «зупинити».

Видалення програми

Буває так, що користувач взагалі не використовує "Синтезатор мовлення Google". Чи можна видалити утиліту з мобільного пристрою? Для цього потрібно відкрити Google Play. Потім слід вибрати в переліку встановлених програм синтезатор мови і клацнути по кнопці "Видалити".

Підсумки

Звичайним користувачам та людям з обмеженими можливостями підійдуть програми із простим інтерфейсом. Це може бути як RHVoice, так і "Синтезатор мовлення Google". Російський голос озвучить текст, що відображається на екрані. Більшого пересічному користувачеві не потрібно.

Музикантам рекомендується віддавати перевагу професійній програмі Vocaloid. Додаток містить додаткові голосові бібліотеки та багато різних опцій. Програма дозволить одержати природне звучання голосу. Адже музикантам так важливо, щоби комп'ютерний синтез не відчувався на слух.

Синтезатори промови - це програми, вхід яких подається текст, але в виході синтезується людська мова. Ці програми мають широке застосування - в телефонії, електронних помічниках, для телефонного доступу до веб-додатків, в освітніх цілях, в кол-центрах і т.п. Основні голосові движки для відтворення російської мови – Realspeak, Digalo та Sakrament від компаній Nuance, Acapela та Sakrament відповідно.

Синтезатори мови, які працюють під Windows-системами:

Digalo (Acapela ELAN TTS)
Синтезатори мови Acapela доступні 23 мовами, у тому числі, російською і можуть розмовляти більш ніж 50 голосами. Є можливість використання у кількох програмах одночасно (багатоканальність). Якісна російська вимова, великий словник російських слів і наголосів, всілякі налаштування та параметри відтворення. Найбільш якісний голосовий пакет – «Микола».

Nuance RealSpeak (раніше ScanSoft)
Підтримує понад 20 мов, включаючи китайську, норвезьку та корейську та 30 голосів. Голос, що звучить російською мовою – «Катерина». За багатьма параметрами це навіть набагато вдале рішення для російської мови, ніж Digalo. Повністю підтримує SAPI5. Програма поширюється лише з комерційної основі.

Sakrament TTS Engine
Програма вміє відтворювати тексти російською мовою. Російською є і версія сайту компанії. Лінійка продуктів Sakrament включає додаток для комунікаторів і КПК, програма для озвучування електронних підручників та документів. У пакеті для російської можна вибирати з трьох голосів («Ольга», «Ірина», «В'ячеслав»). Підтримує вхідні формати RTF і TXT, автоматично розпізнає кодування тексту, повністю підтримує SAPI Speech Tags та додаткові теги семантичної розмітки для покращення звучання синтезованої мови. За допомогою тегів можна задавати наголос, тип фрагмента тексту (дата, час, адреса, URL, e-mail, телефон, абревіатура тощо), параметри відтворення (гучність, швидкість, інтонація) та інші параметри.

CoolReader
Програма для комфортного читання книг з екрану, читання вголос, форматування та конвертування текстів. Функція читання вголос розроблена з використанням двигунів MS SAPI 4.0×5.1. Працює навіть з текстами російською мовою. Розпізнає формати HTML, RTF, DOC (MS Word), TXT, FB2 (FictionBook). Автоматично розпізнає російські кодування dos, win, koi-8, а також latin, utf-8 та unicode. Можна зберегти аудіокнигу у форматі MP3 для прослуховування MP3-плеєра. Окремо підключаються словники вимов із налаштуваннями для кожного голосового движка. Операційні системи, що підтримуються: Win9x/ME/NT4.0/Win2K/XP.

ToM Reader
Додаток є переглядач текстів і мовної синтезатор одночасно. Працює навіть російською мовою. Дозволяє створювати з текстів MP3-файли, є можливість підключення словників вимови, вміє працювати з архівами zip. Формати файлів, що підтримуються: HTML, RTF, MS Word, TXT, кодування: ANSI, KOI, OEM. Максимальний розмір файлу - 12 Мб.

Speak Aloud - програма для читання та збереження у файл із конвертуванням тексту форматів TXT, PDF, HTML, RTF в аудіо MP3, WAV, WMA, OGG, VOX, AU, AIFF, MP4, FLAC, SWF. Можна настроювати інтонації, тембр голосу та якість відтворення звуку. Підтримується пакетне оброблення файлів. Працює під операційними системами: Windows 2000/XP/Vista

Govorilka
Відтворює текст російською мовою. Можливий запис читаного тексту в звуковий файл (*.WAV, *.MP3), а також регулювання швидкості читання та висоти голосу, що озвучує. Можна додавати словники вимов, і таким чином досить легко коригувати вимову окремих слів та словосполучень. Може працювати з великими файлами, відкриває тексти з файлів .doc, HTML. Також запам'ятовує позицію курсора при виході з програми (щоб потім розпочати читання з того самого місця).

На відміну від попереднього представника, Cantor 2 є більш «просунутою» системою для синтезування вокальних партій, але вже за гроші. Він також має версію у вигляді окремої програми. Хоча і vst-інструмент є аналогом piano-roll в секвенсорі: погляньте на інтерфейс (рис. 4).

Оскільки цей плагін має великий інструментарій, він може маніпулювати великою кількістю параметрів голосу. Але починати треба все одно з побудови фрази за складами. Як легко здогадатися, робиться це за допомогою piano roll. Тут є панель інструментів зі звичними «олівцями», «ластиками» тощо. Власне, спробуємо синтезувати згадану вище фразу hey, yo, come on! Намалюємо події у вигляді прямокутних областей, а також підпишемо кожен із них, як на малюнку 5.

Як можна побачити, слова написані над подіями не всі. Наприклад, слово "come on" розбито на два склади - "com" і "on". Уважні користувачі помітять, що внизу автоматично прописані фонеми – це досить зручна функція. Якщо вдаватися до подробиць та нюансів, то треба дуже добре уявляти собі, що таке фонеми та інші тонкі нюанси звучання мови, доступні хіба що вузьким фахівцям. Ми просто залишимо це як є і подивимося як воно працює загалом. Але це не все. Тепер у самій міді-партії доріжки Cantor 2 теж потрібно прописати партію, відповідно до якої звучатимуть наші слова (склади). Зробимо так, як на малюнку 6.

Тепер можна включити програвання у секвенсорі та переконатися, що у нас з'явився якийсь звук на виході.

Далі налаштуємо деякі нюанси звучання. Відразу зазначу, що для дослідження всіх нюансів налаштування Cantor 2 потрібно писати цілу книгу. У цій статті ми розглянемо загальні параметри. Отже, по-перше, можна вибрати готовий голос. Доступно їх близько десятка. Відкрити їх можна у верхній частині програми, у опції Load voice (рис. 7).

За замовчуванням було встановлено "Nikki", але я переставив його на "Luther". Можете спробувати різні голоси як жіночі, так і чоловічі.

По-друге, тут є секція ефектів (власне розділ Effects, рис. 8).

Доступно 4 ефекти - Distortion, Echodelay, Chorus та Reverb. Хоча ці ефекти можна додавати й окремо.

Про секції Phoneme і Voice немає сенсу казати, т.к. вони досить складні в освоєнні і розібратися в їх налаштуваннях може хіба досить вузький фахівець. Хоча ніхто не заважає покрутити ручки у цих секціях і в такий спосіб змінити звучання. Або корпіти над теорією синтезування мови, а також над керівництвом користувача Cantor, щоб розуміти як це все має працювати. Загалом досить багато параметрів, досить складно і досить примітивний звук виходить в результаті.

Проте навіть новачок, якщо постарається, зможе здобути звучання, на кшталт того, що вийшло в мене.

Fruity Loops Studio

Можливо, багато хто з вас, побачивши Fruity Loops, здивується, яким чином він потрапив до цієї статті, адже це швидше, ніж синтезатор мови. Вся справа в тому, що має у своєму арсеналі дуже непоганий синтезатор мови. Називається він Speech Synthesizer. І хоч його немає у вигляді окремого плагіна, але можна вставити сам FL як vst-плагін у вашу робочу станцію і там уже використовувати його Speech Synthesizer. Але я все ж таки віддаю перевагу створювати мовну партію в самому FL, потім експортувати її в аудіофайл, після чого використовувати в будь-якій робочій станції.

Отже, спробуємо створити партію із попереднього прикладу безпосередньо у FL Studio. Вставимо цей плагін у наш проект (рис.9).

Як тільки ми додамо його до проекту, автоматично з'явиться вікно, яке пропонує ввести наш текст. Можна довго не думати і відразу ввести нашу фразу з вище прикладів (рис. 10).

Крім того, можна відразу встановити й інші параметри мови, такі як голос (доступно близько 20 голосів), стиль вимови, режим (пошепки, з придихом, або звичайний) та налаштування темпу і тональності. Раджу відразу налаштувати темп (у мене він, припустимо 140, відповідно до темпу проекту). Кнопка Listen дозволяє прослухати партію "на льоту", до її створення. Після того, як ми підібрали потрібні параметри, натискаємо галочку, програма запропонує нам зберегти наш файл із створеною мовною партією і в проекті створюється нова партія з вокалом (рис. 11).

Нам не потрібно морочитися - Speech Synthesizer створив за нас доріжку, яка є Fruity Slicer із створеною в ньому партією, розбитою по нотах, де кожному слову відповідає окрема нота (на малюнку 11 справа якраз видно, що у нас є партія з 4 шматочками ). Крім того, в piano roll створені доріжки для нот із підписаними словами, що дуже зручно (рис. 12).

Все досить наочно та просто. Не потрібно прописувати фонеми, підбирати склади, щоби фраза звучала правильно. Досить просто ввести фразу - вона звучатиме вже досить непогано і розбірливо. Потім просто можна переставляти слова і експортувати партію в бажаний аудіоформат. Можна переконатись самим, прослухавши приклад.

Що ж краще із розглянутих синтезаторів мови?

Особисто моя думка: краще жива мова, живий вокал. Якщо ж вибирати з вищезгаданих програм, то, безумовно, за кількістю налаштувань і параметрів виграє Cantor 2. Тим більше, що він претендує на звання не просто синтезатора мови, а навіть вокального синтезатора. Якщо вибирати за зручністю, простотою та якістю звучання, я віддаю перевагу Speech Synthesizer з Fruity loops.

Доповнення від редакції

Є ще безкоштовна програма для синтезування мови. Можна налаштувати різні параметри і після попереднього прослуховування згенерувати результат у звуковий файл.

На сьогоднішній день синтезатори мови, які використовуються в стаціонарних комп'ютерних системах чи мобільних пристроях, вже не здаються чимось незвичайним. Технології вже зробили крок далеко вперед і дали можливість відтворювати людський голос. Нижче ми розглянемо, як все це працює, де використовується мовний синтезатор, як вибирати подібний пристрій, а також з якими потенційними проблемами може зіткнутися користувач при придбанні такого пристрою. Що ж собою являють мовні синтезатори? Де вони можуть бути використані? Синтезатори мовлення є спеціальні програми, які складаються з кількох модулів. Дані програми дозволяють переводити набраний на клавіатурі текст у звичайну людську мову як звукового супроводу. Наївно було б думати, що супутні бібліотеки містять усі слова чи можливі фрази, які записані у студіях реальними людьми. Це неможливо просто фізично. Бібліотеки фраз до того ж мали б такий розмір, що їх просто не можна було б встановити навіть на сучасні жорсткі диски великого обсягу, не кажучи вже про мобільні пристрої. Крім того, була розроблена технологія, яка отримала назву Text-to-Speech, що в перекладі означає «текст у мову». Синтезатори мови набули найбільшого поширення у кількох областях. До однієї з таких областей можна віднести самостійне вивчення іноземних мов, коли користувачеві потрібно чути правильну вимову слова. Також синтезатори мови використовуються для прослуховування книг замість читання, створення локальних та мовних партій під час запису музики, для видачі пошукових запитів у вигляді озвучених фраз або слів. Такі пристрої також можуть використовуватися людьми з обмеженими можливостями.

Синтезатори мови: типи програм

Всі синтезатори мови залежно від області використання можна умовно розділити на два основних типи: стандартні програми, які використовуються для безпосереднього перетворення мовлення в текст, та мовні або вокальні модулі, що застосовуються у музичних додатках. Щоб більш докладно розглянути це питання, ми розглянемо обидва класи програм, проте наголос у більшою мірою все-таки буде зроблено на синтезатори мови у їхньому безпосередньому призначенні.

Переваги та недоліки найпростіших мовних додатків. Що стосується переваг та недоліків програм даного типу, то для початку давайте розглянемо недоліки. Насамперед, варто сказати, що комп'ютер це все-таки технічний пристрій. На даному етапі розвитку він може приблизно синтезувати людську мову. Найчастіше в найпростіших програмах спостерігаються проблеми з постановкою наголосів, низька якість звуку. На мобільних пристроях зазвичай спостерігається підвищене споживання енергії. У деяких випадках спостерігається також несанкціоноване завантаження мовних модулів. Однак і переваг тут також вистачає. Багато хто краще сприймає звукову інформацію, а не візуальну. Отже, очевидною перевагою є зручність сприйняття. Як правильно використовувати синтезатор мови? Скажімо ще трохи про основні засади використання такого типу програм. По-перше, встановлюється синтезатор мови будь-якого типу без жодних проблем. У стаціонарних системах застосовується стандартний інсталятор, основним завданням якого буде вибір мовних модулів, що підтримуються. Для мобільних пристроїв можна завантажити інсталяційний файл із офіційного магазину або сховища типу AppStore або Google Play.

Після цього програму буде встановлено в автоматичному режимі. При першому запуску, як правило, жодних налаштувань, окрім вибору мови, яка використовується за умовчанням, виконувати не потрібно. Однак у деяких випадках програма може запропонувати вибрати якість звуку. Повсюдно застосовується стандартний варіант із частотою дискретизації 4410 Гц, глибиною 16 біт та бітрейтом 128 кбіт/с. У мобільних пристроях аналогічні показники трохи нижчі. За основу береться певний голос. При використанні стандартного шаблону вимови шляхом використання еквалайзерів та фільтрів можна досягти звучання саме такого тембру. При використанні можна вибрати кілька варіантів перекладу тексту: переклад тексту в ручному режимі, озвучення з файлу вже наявного тексту, інтеграція в інші програми з можливістю активації видачі пошукових результатів або прочитання сторінках онлайн текстового вмісту. Тут достатньо буде вибрати потрібний варіант дій, голос і мову, якою вимовлятиметься текст. Багато програм мають відразу кілька різновидів голосів, як жіночих, так і чоловічих. Для активації відтворення можна використовувати кнопку старту.

Якщо говорити про те, як відключити синтезатор мови, то тут може бути кілька варіантів. У найпростішому випадку можна використовувати в програмі кнопку зупинки відтворення. Якщо синтезатор інтегрований у браузер, деактивація здійснюється в налаштуваннях розширень шляхом повного видалення плагіна. З мобільними пристроями, незважаючи на безпосереднє відключення, можуть виникнути деякі проблеми, про які йтиметься далі. Так, наприклад, введення тексту та налаштування здійснюються більш складним шляхом. Розглянемо програму FLStudio. Тут є власний мовний модуль, де можна вибрати кілька типів голосів, змінити швидкість відтворення чи налаштування тональності. Щоб наголосити, перед складом необхідно використовувати символ «_». Однак такий синтезатор підійде лише для створення роботизованих голосів. Пакет Vocaloid від компанії Yamaha вже можна зарахувати до програм професійного рівня. Тут у найбільш повному обсязі реалізовано технологію Text-to-Speech.

Крім стандартних параметрів у налаштуваннях можна виставити глісандо та артикуляцію. Також можна використовувати бібліотеки з вокалом професійних виконавців, складати окремі слова та цілі фрази, підганяти їх під різні ноти та багато іншого. Зовсім не дивно, що з одним вокалом даний програмний пакет займає більше 4 Гб в установчому дистрибутиві. Після його розпакування обсяг збільшується ще вдвічі-втричі.

У цьому огляді ми приділимо увагу лише простим програмам. Розглянемо найпопулярніші їх. На думку більшості користувачів RH Voice є найкращим синтезатором мови. Ця російська технологія була створена Ольгою Яковлєвою. У стандартному варіанті програми доступно лише три голоси – Олена, Олександр, Ірина. Налаштування програми виконується досить легко. Сама по собі програма може використовуватися і як самостійна програма, сумісна з SAPi5, як екранний модуль.

Ще одним цікавим додатком є Acapеla. Його основною особливістю є практично ідеальне озвучення тексту більш ніж 30 мовами світу. У простій версії програми доступний лише один варіант голосу – Альона. Ще один потужний додаток із жіночим голосом – Milena. Ця програма часто використовується в call-центрах. Існує безліч налаштувань постановки наголосу, гучності, швидкості читання, а також установки додаткових словників. Основна відмінність цієї програми полягає в тому, що мовний двигун повинен вбудовуватися в програмі на зразок Cool Reader, Full Screen Caller ID, Moon + Reader Pro. Найпотужнішою утилітою для синтезу та розпізнавання мови є програма Festival. Вона призначена для Mac OSX і Linux. Постачання цієї програми з відкритим вихідним кодом. Крім стандартних мовних пакетів він має підтримку фінської мови та хінді. Ще одна мовна програма – eSpeak. Воно підтримує понад 50 мов. Головний недолік цієї програми полягає в тому, що файли із синтезованою мовою воно зберігає виключно у форматі WAV. Цей формат, як відомо, займає дуже багато місця. Ця програма є кросплатформною і може застосовуватися навіть у мобільних системах.

Google Android: проблеми із синтезатором мови

Користувачі при установці «рідного» синтезатора мови від компанії Google часто скаржаться на те, що він мимоволі включає завантаження додаткових мовних модулів. Це не лише займає тривалий проміжок часу, а й серйозно витрачає трафік. Позбутися цієї проблеми в системах Android дуже просто. Для цього необхідно використовувати меню налаштувань. Тут переходимо до розділу мови та голосового введення. Тут потрібно вибрати голосовий пошук на параметрі розпізнавання мовлення в режимі офлайн і натиснути на хрестик (вимкнення). Також рекомендується додатково почистити кеш програм та перезавантажити пристрій. У деяких випадках у програмі може знадобитися вимкнути повідомлення.

Що ж виходить зрештою? Якщо підбивати певний підсумок, можна сказати, що пересічним користувачам підійдуть найпростіші програми. Лідером у багатьох рейтингах виявляється програма RHVoice. Проте для музикантів, яким необхідно досягти природного звучання голосу, щоб не відчувалася різниця між живим та комп'ютерним синтезом, краще віддавати перевагу програмам типу Vocaloid. Для подібних програм сьогодні випускається безліч додаткових голосових бібліотек. Налаштування даних програм мають стільки можливостей, то примітивні програми й поряд не коштують.