|
ДОНЕЦЬКИЙ НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ
Гладунов Сергій Анатолійович
УДК 681.3.16
АПАРАТНО-ПРОГРАМНІ ЗАСОБИ
РОЗДІЛЬНОЇ ЛОКАЛІЗАЦІЇ ФОНЕМ В СИСТЕМАХ
МОВНОЇ ВЗАЄМОДІЇ ЛЮДИНИ З ЕОМ
05.13.13 – Обчислювальні машини, системи та мережі
АВТОРЕФЕРАТ
дисертації на здобуття наукового ступеня
кандидата технічних наук
Донецьк – 2005
Дисертацією є рукопис
Робота виконана в Донецькому національному технічному університеті Міністерства освіти і науки України
Захист відбудеться 9 червня 2005 р. о 14 годині на засіданні спеціалізованої вченої ради К 11.052.03 Донецького національного технічного університету (адреса: 83000, м. Донецьк, вул. Артема, 58, 8 навч. корпус, ауд. 705).
З дисертацією можна ознайомитися в бібліотеці ДонНТУ за адресою: 83000, м. Донецьк, вул. Артема, 58, 2 навч. корпус.
Автореферат розісланий “05” травня 2005 р.
Вчений секретар
спеціалізованої вченої ради
К 11.052.03
к.т.н., доц. Г. В. Мокрий
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. Широке розповсюдження засобів обчислювальної техніки в багатьох областях людської діяльності зробило актуальною проблему створення засобів взаємодії людини з ЕОМ, що дозволяють підвищити зручність і ефективність вводу-виводу інформації. Один з підходів до розробки таких засобів заснований на мовній взаємодії як на найбільш звичному для людини способі спілкування. Організація мовного обміну інформацією вимагає ефективного рішення задачі автоматичного розпізнавання мови. Даній проблемі присвячено багато академічних досліджень (University California, Berkley; University Birmingham, University Edinburg та ін.), запропонований ряд комерційних рішень (лідерами тут є такі гіганти, як IBM, Phillips і Microsoft), в Україні серйозні дослідження за різних часів велися в Києві, Харкові, Дніпропетровську, Вінниці. В даний час в Інституті кібернетики ім. В. М. Глушкова в рамках програми "Образний комп'ютер" розв'язується проблема мовної взаємодії. В Донецькому державному інституті штучного інтелекту ведуться роботи по мовному управлінню роботами.
Не дивлячись на велику кількість робіт, всі відомі розв'язання володіють недоліками, що обмежують їхнє практичне застосування. Складність задачі витікає з різноманіття і істотної нестабільності мовних висловів по відношенню до їхніх основних характеристик – частотного складу, часової та енергетичної структури. Забезпечення високої якості розпізнавання вимагає значних обчислювальних витрат. В даний час існує ряд апаратних розв'язань, направлених на забезпечення необхідної швидкодії систем розпізнавання мови. В основному, такі системи орієнтовані на зниження шумів, фільтрацію і прискорення базових обчислювальних операцій. На ринку представлені окремі сигнальні процесори і материнські плати з функціями мовного введення інформації. В той же час, існують обмеження при використовуванні апаратних засобів розпізнавання мови, пов'язані з впливом особливостей дикторів і зовнішнього середовища. Хоча більшість відомих систем дозволяє проводити деяке пристосовування до особливостей конкретного диктора, настройка проводиться або тільки на рівні лінгвістичної моделі, або дозволяє перепрограмувати фонетичний словник цілком, що спричиняє істотні додаткові витрати часу користувача.
Функціональні характеристики апаратних систем розпізнавання мови можуть бути істотно поліпшені за рахунок розширення можливостей настройки таких систем на різні умови вимовлення на рівні акустичної обробки сигналу. Для цього необхідно вирішити задачу незалежної локалізації фонем в мовному сигналі без порівняння з іншими фонемами.
Зв'язок роботи з науковими програмами, планами, темами. Основні дослідження по темі дисертації проводилися на кафедрі прикладної математики і інформатики ДонНТУ в рамках виконання держ. тем Н-13-2000 "Алгоритмічне і програмне забезпечення високопродуктивних і інтелектуальних обчислювальних мереж" і Д-1-05 "Розвиток теорії мережевих інформаційних технологій розподіленого моделювання і синтезу цифрових систем на програмованих пристроях" (номер ДР 0105U002288), в яких брав безпосередню участь як виконавець.
Мета і задачі дослідження.
Мета дослідження: підвищення гнучкості настройки системи мовної взаємодії людини з ЕОМ на довільний фонетичний склад словника.
Задачі дослідження:
- Аналіз існуючих програмно-апаратних засобів автоматичного виділення фонем з мовного сигналу.
- Розробка методу роздільної локалізації фонем з урахуванням індивідуального фонетичного словника диктора.
- Розробка обчислювальних структур, що дозволяють оцінювати наявність фонем в реальному масштабі часу.
- Дослідження ефективності організації обчислювального процесу локалізації фонем при розпізнаванні мови.
- Розробка і аналіз VHDL-моделі обчислювального модуля оцінки наявності фонем.
Об'єктом дослідження є програмно-апаратні засоби розпізнавання мовного сигналу.
Предметом дослідження є алгоритми та обчислювальні структури засобів обробки мовного сигналу в системах автоматичного розпізнавання мови.
Методи дослідження. Для вирішення поставлених задач використані методи теорії розпізнавання мовних образів, теорії штучних нейронних мереж, теорії проектування цифрових обчислювальних засобів.
Наукова новизна отриманих результатів. В роботі отримані наступні нові наукові результати:
- Запропонований метод, що дозволяє виконувати незалежну локалізацію фонем в мовному сигналі. Отримано оцінки оптимальних параметрів методу.
- Запропонована структурна декомпозиція модуля оцінки фонем системи розпізнавання, що дає можливість гнучкої настройки на довільний фонетичний склад словника.
- Запропонована схема організації паралельної обробки мовного сигналу, що дозволяє вирішувати задачу розпізнавання мови в реальному масштабі часу.
- Отримана оцінка ефективності нейромережевих обчислювальних засобів при апроксимації фонем і розпізнаванні спектрально-часових образів слів. Показано, що використовування методу апроксимації фонем дозволяє знизити помилку розпізнавання на 30-40%.
- Вибраний раціональний спосіб організації структур обчислювального модуля локалізації фонем при апаратній реалізації на основі ПЛІС.
Практичне значення отриманих результатів. Застосування запропонованих методів, алгоритмів і обчислювальних структур дозволяє підвищити ефективність експлуатації систем мовної взаємодії людини з ЕОМ за рахунок підвищення гнучкості і зниження часу настройки модуля розпізнавання фонем на конкретного диктора. Розроблені нейромережеві структури і алгоритми використовуються на кафедрі "Прикладна математика і інформатика" Донецького національного технічного університету в лабораторному практикумі по курсу "Організація функціонування ЕОМ і систем" та ін.
Особистий внесок здобувача полягає в розробці методів, алгоритмів і структур обчислювальної системи розпізнавання мови. Всі основні результати дисертації отримані автором самостійно. В приведених публікаціях здобувачеві належать: в роботах [2,3,7] – розробка структур і програмних моделей, проведення експериментів; в роботах [1,5,6,9,11,12,13,14,15] – розробка методів, алгоритмів і апаратно-програмних засобів розпізнавання; в роботах [4,8,10,16] – аналіз засобів взаємодії людини з ЕОМ, формалізація моделей системи мовного управління.
Апробація результатів дисертації. Основні наукові результати, теоретичні і практичні розробки, доповідалися на наступних конференціях і семінарах:
- конференція "Нейрокомпьютеры и их применение", м. Москва, 1998, 2001, 2002 р;
- конференції по штучному інтелекту "КИИ-2000", м. Переславль-Залеський, і "КИИ-2002", м. Коломна;
- семінар "Інтелектуальний аналіз інформації", м. Київ, 2002, 2003 р;
- конференція "Интерактивные системы: проблемы человеко-компьютерного взаимодействия", м. Ульяновськ, 2001, 2003 р;
- семінар "Практика і перспективи розвитку інституційного партнерства", м. Таганрог, 2002 р;
- конференція "Научная сессия МИФИ – 2002". Секція "Интеллектуальные системы и технологии", м. Москва, 2002 р;
- конференція "Нейромережеві технології та їх застосування", м. Краматорськ, 2002, 2004 р.
Публікації. Результати дисертаційної роботи опубліковані в 7 статтях у виданнях, що входять до переліку ВАК України, і в 9 збірках доповідей наукових конференцій і семінарів.
Структура дисертації. Дисертація складається з вступу, чотирьох розділів, висновків, списку використаної літератури з 82 найменувань. Обсяг дисертації – 127 сторінок основного тексту, ілюстрованого 48 рисунками і 12 таблицями.
ЗМІСТ РОБОТИ
У вступі обгрунтована актуальність теми дисертаційної роботи, сформульовані цілі і задачі дослідження, відзначена наукова новизна і практична значимість отриманих результатів, надані відомості про їхню апробацію і публікацію матеріалів дисертації.
В першому розділі – “Аналіз методів та засобів взаємодії людини з ЕОМ”, проведений аналіз переваг та недоліків мовних засобів введення інформації і зроблено висновок про доцільність розробки систем, що ними управляють з голосу. Наведений огляд сучасних методів і систем розпізнавання мови показав, що головною задачею при організації мовних інтерфейсів є поліпшення якості розпізнавання і зниження залежності від особливостей дикторського вимовлення. Постановка задачі розпізнавання формулювалася таким чином. Хай є мовний вислів wi:
wi=({Aj(wi)}, s(wi)), wi ∈ W,
{Aj(wi)} – сукупність всіх можливих форм вимовлення вислову wi в їхній акустичній формі;
s(wi) – символьне представлення інформації, що міститься у вислові wi,
s(wi) ∈S;
S – словник;
W – множина допустимих висловів: s(W) = S.
Потрібно знайти відображення R:
∀ wi∈W, j R[Aj(wi)] = s(wi).
Сформульована задача є окремим випадком проблеми класифікації і розпізнавання образів. В даний час одним з найбільш ефективних засобів розпізнавання образів є штучні нейронні мережі. Переваги нейромереж – можливість апроксимації практично довільних розділяючих поверхонь при класифікації, пристосовування до вирішуваної задачі, структура, що дозволяє значною мірою розпаралелювати обчислення, а також однорідність обчислювальних елементів. Однак проблемою є необхідність одночасної перебудови всієї нейромережі при настройці системи на конкретного диктора. Це питання може бути вирішено за рахунок створення модульної нейронної мережі шляхом декомпозиції алгоритму розпізнавання фонем.
Аналіз апаратних засобів моделювання нейромережевих обчислень показав, що найбільш часто при цьому використовують цифрові сигнальні процесори, нейрочіпи і програмовані логічні інтегральні схеми (ПЛІС). Використовування останніх бачиться доцільним зважаючи на їхню універсальність і гнучкість.
В другому розділі – “Розробка методів і нейромережевих алгоритмів розпізнавання ізольованих слів за спектральним образом”, досліджені методи мовної взаємодії на основі розпізнавання ізольованих слів без аналізу їхньої внутрішньої структури. Була розглянута типова схема розпізнавання: вхідний сигнал – цифрова обробка – нейромережеве розпізнавання. В якості способу цифрової обробки був використаний метод лінійного згладжування, заснований на оцінці частот формантних викидів по максимумах спектральної енергії. Метод дозволяє одержувати дискретний спектрально-часовий образ (ДСЧО) вхідного слова у вигляді матриці, елементи якої бінарні і визначають наявність формантного викиду в даному частотному діапазоні у відповідний період часу (10 мс).
ДСЧО використовувалися в якості вхідних образів для нейромережевого розпізнавання на основі мереж типу багатошаровий персептрон. Для навчання і тестування нейромереж був сформований словник малого обсягу, кожне із слів якого було представлено декількома варіантами. Результати тестування виявили високу точність розпізнавання – 92% (5 слів). Проте збільшення словника приводить до зростання обсягів обчислень при навчанні нейромережі і знижує якість розпізнавання до 86% (10 слів).
З метою скорочення розмірів вхідного образу в роботі був запропонований підхід, заснований на декомпозиції спектрально-часового образу і названий методом інтегральної оцінки приналежності компонент спектру словам. В основі підходу лежить схожість структур низькочастотних спектральних складових. Отже, кожна окрема складова несе в собі інформацію про слово цілком і може бути використана як окремий образ при розпізнаванні. Проте розпізнавання по єдиній компоненті спектру не дозволяє врахувати структуру спектру і приводить до втрат точності, тому в роботі проводилося розпізнавання за 5 низькочастотними складовими спектру, а результати узагальнювалися і служили підставою для остаточного висновку. Обчислювальна структура методу інтегральної оцінки належності компонент спектру словам відображена на рис. 1.
Рис. 1. Схема розпізнавання: ЕСі –експертная система, що робить висновок
про розпізнаване слово по і-й спектральній компоненті.
На схемі елементи першого рівня, що здійснюють безпосередньо розпізнавання відповідних компонент спектру, представлені нейромережевими експертними системами, у функції яких входить оцінка приналежності вхідного образу тому або іншому слову словника. В якості таких експертів були використані нейромережі типу багатошаровий персептрон. На другому рівні здійснюється узагальнення результатів і вибирається найбільш відповідне слово.
В другому розділі запропонована нейромережева реалізація другого рівня схеми розпізнавання, що дозволяє використати однотипні обчислювальні пристрої при апаратній реалізації алгоритму в цілому. Структура нейромережевих обчислень другого рівня представлена на рис. 2.
Рис. 2 Реалізація другого рівня розпізнавання в нейромережевому базисі:
Хіj – j-й вихід і-й нейромережевої експертної системи першого рівня розпізнавання; f1, f2, f3, f4 – функції активації відповідних шарів нейромережі;
Y – номер розпізнаного слова в словнику;
S – сигнал про неможливість розпізнавання
Запропонований спосіб декомпозиції вхідного образу призводить до зниження часу навчання (при обсязі словника в 15 слів кількість епох навчання нейромережі зменшилася на два порядки). Крім того, виросла точність розпізнавання (при словнику з 10 слів отримано якість розпізнавання 89%).
Описані підходи до розпізнавання цілих слів за їхніми спектральними властивостями виявили наступні недоліки:
- неможливість врахувати часову структуру сигналу, що істотно позначається на якості розпізнавання;
- необхідність використовування однієї нейромережі для класифікації всіх образів, що призводить до значного зростання обчислювальних витрат при збільшенні словника.
До переваг запропонованих методів можна віднести достатньо високу якість розпізнавання, стійкість до зміни диктора і невеликі обчислювальні витрати на розпізнавання.
В третьому розділі – “Нейромережеві обчислювальні структури модуля розпізнавання фонем”, пропонується нова структура системи мовного введення команд, заснована на апроксимації фонем. На відміну від інших методів розпізнавання, заснованих на параметризації мовного сигналу і порівнянні отриманих параметрів з еталонними, запропонований спосіб вимагає порівняння вхідного мовного сигналу з моделями фонем наступним чином.
Будь-яке мовне слово однозначно визначається складом і порядком фонем, які воно містить, і може розглядатися як точка в N-мірному символьному просторі PN, де N – максимальне можливе число фонем в слові. Слово довжини менше N може бути доповнене умовною "порожньою" фонемою р0. Таким чином, словник можна розглядати як набір точок в просторі PN, а задачу розпізнавання – як задачу пошуку найближчої до вимовленого слова точки.
Будемо вважати, що амплітудне представлення мовного слова функціонально залежить від його фонетичної P=(р1, р2, …, pN) і часової структури Т =(τ0, τ1, … τN):
де t – дискретний час, t∈(τ0, τN]; τi-1 і τi визначають межі фонеми pi.
Відомо, що амплітудне представлення поточної фонеми рт залежить від попередньої фонеми pп:
Рахуючи загальне число фонем в мові обмеженим, можемо пронумерувати їх і замінити кожну фонему відповідним номером, що дозволить перейти від символьного простору, до числового:
Фонетичну транскрипцію P мовного слова також можна замінити набором номерів фонем K=(k1, k2, …kN). З (1-3) отримаємо:
де k0 – номер "порожньої" фонеми р0;
Знаючи A(t) і амплітудні функції фонем fij(t), можна знайти найкращу фонетичну Kопт і часову Топт структуру слова з рішення задачі мінімізації функціонала близькості Е в просторі PN:
Залежність fij(t) в явному вигляді на сьогоднішній день невідома. Ідея запропанованого методу полягає у тому, щоб замінити fij(t) апроксимуючими функціями Gij. У зв'язку з тим, що початок фонеми не може бути точно визначеним, побудувати залежність амплітуди безпосередньо від часу не представляється можливим. Тому розглядається залежність поточного значення fij(t) від ряду попередніх значень:
де Gij – деяка апроксимуюча функція. Ураховуючи, що при t∈(τi-1, τi], можемо записати
Основними перевагами такого підходу є позиційна незалежність і нечутливість до змін часової структури сигналу, а також можливість розпізнавання на одній нефромережі єдиної фонетичної одиниці. Це дозволяє істотно знизити обчислювальні витрати при навчанні нейромереж і, отже, розширити можливі об'єми словника.
В роботі досліджена реалізація апроксимуючих функцій Gij за допомогою нейромереж типу багатошаровий персептрон, що обумовлено їхніми універсальними апроксимуючими властивостями і наявністю ефективного алгоритму навчання.
Експерименти з нейромережевого розпізнавання показали, що надійність локалізації фонем по мінімуму міри відмінності E недостатня, що вимагає залучення додаткових методів контекстної обробки. Це обумовило організацію розпізнавання відповідно до структурної схеми, показаної на рис. 3.
На схемі нейромережеві апроксиматори реалізують моделі відповідних фонем; інтегратори погрішності накопичують значення мір відмінності Errk(t) з метою компенсації впливу шумів; селектор призначений для вибору найбільш вірогідних фонем; граф ланцюгів фонем породжує всі слова, які можуть бути складені з вибраних фонем; семантико-синтаксичний аналізатор визначає ступінь можливості ланцюгів і вибирає серед них найкращу, яка і є результатом розпізнавання. Синтаксичний аналіз здійснювався методом динамічного програмування.
|