Додатки
Додаток А. Кількісні оцінки актуалізації базової структури
Формальне визначення базової семантико-синтаксичної структури дозволяє кількісно оцінити можливі варіанти актуалізації такої конструкції. Для флективних мов, що визначаються довільним порядком використання окремих складових повідомлення, вдається виконати підрахунки на різних рівнях актуалізації повідомлення (об'єктному, атрибутивному). Якщо базова структура визначається N складовими, то кількість можливих варіантів актуалізації такого повідомлення характеризується наступними значеннями: на об'єктному рівні матимемо N! варіантів; на атрибутивному рівні ця кількість складатиме 2N варіантів (враховуються пре- та постпозиційні схеми використання атрибутивних членів Attr(Obj); на рівні використання складових подвійної атрибуції Attr(Attr) матимемо ще 2N варіантів відтворення повідомлення; порушення цілісності відтворення окремих актантів у повідомленні подає ще 24 варіантів поширення повідомлення.
Якщо кожен з варіантів відрізняється позицією хоча б одного елемента, то для повідомлення з N складовими, кожен з яких поширюється і на атрибутивному рівні, загальна кількість можливих схем актуалізації базової структури складатиме N!*2N*2N*24 варіантів. Для аналітичних мов (англійської, наприклад) ця кількість трохи зменшиться і становитиме (N-2)!*2N*2N*24. Для повідомлення з N=8 складовими, визначеними на атрибутивному рівні і на рівні подвійної атрибуції, загальна кількість можливих варіантів актуалізації повідомлення складатиме
К= 8!*28*28*24 = 8!* 220 . Це вражаюча кількість варіантів можливих реалізацій окремої структури, що складає близько сорока мільярдів! Звідси випливає цікавий висновок – відповідь на питання - чому до цього часу не було визначено базову структуру мовного повідомлення. Дійсно, здіймаючись від найпростіших мовних конструкцій до складних, дуже важко розгледіти узагальнені особливості мовної організації серед такого різноманіття структур. Наш підхід протилежний – ми йдемо від максимально повної схеми відтворення окремої ситуації дійсності до більш простих, що визначаються як трансформації узагальненої структури.
Додаток Б. Явище рекурсії в природній мові
Формальне визначення базової семантико-синтаксичної структури та результати досліджень розділів 2.2 та 2.3. необхідним чином підводять нас до визнання рекурсивної схеми організації окремого повідомлення і мовного матеріалу взагалі. Ідея рекурсивної організації повідомлення лежить на поверхні мовної компетенції людини і була притаманна вже першим кваліфікованим спостереженням над мовною організацією (картезіанська граматика Пор - Рояля, спостереження В. фон Гумбольдта, праці Ф. де Сосюра, Н. Хомського). Проте всі ці пропозиції пов'язані з рекурсивною організацією повідомлення, де елементом рекурсії вважалося структурно-неокреслене поняття словосполучення.
Запропонована формальна модель, що принципово заперечує використання словосполучення як структурного елемента повідомлення і за кожною такою структурою вбачає стандартну базову схему, дозволяє запропонувати рекурсивну схему формування повідомлення, де елементом рекурсії постає базова семантико-синтаксична структура, що отримує однозначне визначення на формальному рівні. Рекурсивна організація мовного повідомлення, у загальному випадку, зумовлюється використанням породжувальних семантико-синтаксичних функцій.
Визнання структури SBO основною та єдиною структурною одиницею формування мовного матеріалу має важливий системотворчий характер. Довільне повідомлення може бути актуалізовано окремою базовою структурою чи її трансформацією (монопредикатний рівень) або сукупністю монопредикатних структур (поліпредикатний рівень організації мовного матеріалу). Якщо власне базова структура, її трансформації та схеми зв'язку чітко визначені, то і організація довільного повідомлення може бути визначена чітко та однозначно на формальному рівні.
Використання поняття базової семантико-синтаксичної структури замість неокресленого терміну “словосполучення” дає змогу подати структурну організацію довільного повідомлення як взаємопов'язану множину типових базових структур. Більш формально ця теза виглядатиме наступним чином: довільне повідомлення визначається базовою семантико-синтаксичною структурою, елементами якої можуть бути або окремі слова, або цілі структури, елементами яких, знову ж таки, можуть бути або слова, або структури, елементами яких можуть бути . . . тощо, аж до рівня окремих слів. Таке уявлення окремого повідомлення, орієнтованого на єдину, чітко визначену структуру, вбачається більш конструктивним та перспективним для формування інформаційних технологій, орієнтованих на опрацювання природної мови.
Визнання рекурсивної схеми організації мовного матеріалу означає, у загальному випадку, і рекурсивну схему функціонування лінгвістичного процесора. Завдання синтаксичного аналізатора зводиться до декомпозиції вхідного повідомлення за окремими монопредикатними структурами (базовими структрами або їх трансформаціями).
Формалізми запропонованої моделі мови, що проаналізовані в основній частині, дозволяють подати узагальнену схему опису об'єкта та дії, враховуючи вже одночасно монопредикатний та поліпредикатний організаційні рівні. Звідси випливає, що опис окремої складової базової семантико-синтаксичної структури може одночасно актуалізуватися на атрибутивному, об'єктному та ситуаційному рівнях. Ієрархія використання окремих засобів визначатиметься актуальним членуванням, проте пріоритет атрибутивного рівня тут незаперечний. Отож матимемо принциповий висновок, що опис окремої складової повідомлення може враховувати одночасно формалізми монопредикатного та поліпредикатного рівнів. Подамо узагальнене визначення складових окремого повідомлення
OBJ = OBJ / Attr(Obj) * OBJ /
Attr(Attr) * Attr(Obj) * OBJ / Attr(Obj) * Attr(Attr) * OBJ /
(Attr(Attr) * Attr(Obj))і, і =1, m) * OBJ /
(Attr(Obj) * Attr(Attr))j, j= 1, n) * OBJ /
OBJ * Attr(Obj) / OBJ * Attr(Attr) * Attr(Obj) / (12)
OBJ * (Attr(Attr) * Attr(Obj))і, і =1, m) /
OBJ * (Attr(Obj) * Attr(Attr))j, j= 1, n) /
OBJ – “бути частиною” – OBJ1 /
OBJ – “бути в родинних стосунках” - OBJ2 /
OBJ – “бути в кількісних відношеннях” - OBJ3 /
OBJ – “бути назвою” - OBJк /
OBJ – R1 – SBOп1 /
OBJ – R2 – SBOп2 /
OBJ – R2 – SBOп3.
Важливо тут підкреслити рекурсивний характер формування опису окремого об'єкта: на об'єктному рівні об'єкт OBJ визначається знову ж таки через OBJ, а на ситуаційному рівні прикметою виступає вже окрема ситуація. Узагальнена схема опису дії, що враховує монопредикатний та поліпредикатний рівні теж досить складна
MOV = MOV / Attr(Mov) * MOV /
Attr(Attr) * Attr(Mov) * MOV /
Attr(Mov) * Attr(Attr) * MOV /
(Attr(Attr) * Attr(Mov))і, і =1, m) * MOV /
(Attr(Mov) * Attr(Attr))j, j= 1, n) * MOV /
MOV * Attr(Mov) /
MOV * Attr(Attr) * Attr(Mov) / (13)
MOV * (Attr(Attr) * Attr(Mov))і, і =1, m) /
MOV * (Attr(Mov) * Attr(Attr))j, j= 1, n) /
MOV1, MOV2, … MOVn (схеми ускладнення предикатора ) /
MOV – R (Attr(Mov)) – SBO.
Важливо лише пам'ятати, що окрема структура актуалізується не лише через описи об'єктів та дій але й включає до свого складу службові елементи мови для відтворення синтаксичних відношень. Аналіз виразів (12) та (13) однозначно розкриває рекурсивну природу формування основних складових базової семантико-синтаксичної структури. Отже, у загальному випадку, мовний матеріал визначається рекурсивною організацією, і головна функція рекурсивного аналізатора – вилучення з мовного повідомлення окремих базових семантико-синтаксичних структур та ідентифікація зв'язків між ними.
Додаток В. База знань
Запропонована модель мови, звичайно, визначає і новий підхід до розбудови основних складових мовної системи - бази знань та лінгвістичного процесора. Визначальною інформативною одиницею накопичення, збереження та використання знань постає базова семантико-синтаксична структура мовного повідомлення. Це структурне утворення значною мірою впливає і на структурну організацію бази знань. Особливості функціонування бази знань визначають і морфологічне оформлення лексичних одиниць у повідомленні. Тут ще раз підтверджено висновок, що на стадії синтезу повідомлення семантика відтворюваного визначатиме синтаксис повідомлення, який реалізується через відповідне морфологічне оформлення; для сприйняття (аналізу) мовного повідомлення ці залежності актуалізуються у зворотному напрямку: морфологічне оформлення та службові елементи мови визначатимуть синтаксичну структуру повідомлення, яка актуалізуючись через конкретне наповнення складових, повною мірою відтворює зміст повідомлення.
Проектування бази знань на шляху моделювання мовної поведінки спирається на загальну схему інформаційного забезпечення людини та запропоновану формальну модель мови. Основні принципові моменти проектування БЗ вбачаються наступними:
- база знань повинна інтегрувати знання, які формуються на різних інформаційних рівнях (образному, акустичному, символьному тощо); практично перевірена можливість інтеграції образної та символьної інформації в межах системи сприйняття просторових відношень та системи “Дійсність-Текст”; система ЛП-БЗ орієнтована була на використання акустичної інформації;
- одиницею подання, накопичення та перетворення знань постає окремий квант довкілля, що на мовному рівні відтворюється базовою семантико-синтаксичною структурою; знання відносно фрагмента довкілля подаються множиною пов'язаних базових структур;
- окремими фрагментами в БЗ подана інформація стосовно актуалізації мовними засобами категорій часу та простору через ієрархічну послідовність базових елементів; розділи БЗ “семантичне поле часу”, та “семантичне поле простору” частково реалізовані на різних стадіях моделювання мовної поведінки (модель “Дійсність-Текст” та система ЛП-БЗ);
- в БЗ передбачена можливість накопичення інформації енциклопедичного характеру, що дозволяє значним чином підвищити семантичний потенціал БЗ; в системі ЛП-БЗ в режимі навчання накопичувалася енциклопедична інформація за темою “Людина”.
- для забезпечення ефективного моделювання мовної діяльності в системі ЛП-БЗ була забезпечена функціонально-структурна єдність обох складових; перша вимога означає, що елементом опрацювання інформації в БЗ та ЛП буде однотипне структурне утворення - базова семантико-синтаксична структура, друга – вимагає діалектичного зв'язку між БЗ та ЛП (результати роботи ЛП накопичуються в БЗ, в свою чергу, БЗ забезпечує ефективне функціонування ЛП).
Певні властивості функціонування системи ЛП-БЗ були перевірені на шляху моделювання мовної діяльності. В межах дипломного проектування було створено систему ЛП-БЗ для моделювання окремих виявів мовної діяльності людини. ЛП побудовано за схемою флективного аналізатора, де передбачена можливість звернення до БЗ у випадках невизначеності аналізу на флективному рівні. В базі знань актуалізована була також можливість подання енциклопедичної інформації стосовно людини, просторових та часових відношень.
На окремих стадіях моделювання мовної діяльності були перевірені різні схеми побудови та використання БЗ. Формувалися БЗ для опрацювання текстової (письмової), мовленнєвої (акустичної) та образної інформації. Експериментально перевірена концепція інтеграції символьної та образної інформації в межах єдиної бази знань, коли зміст мовного повідомлення визначається на образному (графічному) рівні.
Додаток Д. Лінгвістичний процесор
Лінгвістичний процесор – ядро формування природно-мовних технологій. Цей розділ відіграє найважливішу роль на шляху моделювання мовної діяльності. Усі попередні знання про мову, об'єднані в межах запропонованої формальної моделі, визначаються як “мовна компетенція” і повинні бути зведені до єдиної системи обробки символьної інформації - лінгвістичного процесора. Перспективні комп'ютерні технології, що орієнтовані на опрацювання природно-мовної інформації, можливо реалізувати лише за умови ефективного функціонування лінгвістичного процесора.
Лінгвістичний процесор – це власне система, що безпосередньо опрацьовує мовний матеріал, спираючись на знання щодо мовної організації на всіх рівнях. Виходячи з тези, що мова – це вища форма відтворення довкілля (реального або віртуального), яке існує в триєдності часу, простору та дії, ЛП повинен враховувати відповідні мовні засоби для опису цих категорій. Відтворення динамічного світу актуалізується дискретним чином через подання або окремої ситуації, або їх множини. Мовна компетенція щодо цього рівня визначається запропонованою формальною моделлю мови і повинна охоплювати: формалізми актуалізації базової семантико-синтаксичної структури (вираз (11)), схеми трансформування базової структури (десь близько двох десятків), схеми поєднання монопредикатних структур в межах окремого повідомлення (півтора десятка схем).
У загальному випадку, відтворення середовища актуалізується таким чином, що значення (зміст) відтворюваної ситуації визначає синтаксичну структуру повідомлення, яка в свою чергу реалізується через відповідні морфологічні засоби; тому морфологічна складова ЛП також пов'язана з відповідними схемами актуалізації базової структури, її трансформуванням та схемами взаємодії. ЛП орієнтується на флективний аналізатор, що працюватиме з інформацією, зібраною в таблицях допустимих флексій.
Продуктивною інформативною складовою лінгвістичного процесора вважаються також знання щодо використання мовних засобів для відтворення часових та просторових відношень. Кожна така складова, у загальному випадку, може мати досить складну структуру, що визначається як диференціацією систем відліку, так і схемами їх взаємодії. Особливості актуалізації просторових та часових відношень ретельно проаналізовані та закладаються до ЛП. Важливими складовими ЛП вбачаються також дані стосовно комунікативної організації окремого повідомлення (таблична інформація), мовні засоби забезпечення зв'язності текстової інформації та схеми рекурсивної організації мовного матеріалу, що зумовлюють також і рекурсивну схему роботи лінгвістичного процесора.
Робота лінгвістичного процесора орієнтована на діалектичну взаємодію з базою знань (з одного боку, ЛП в своїй роботі спирається на інформацію, що зберігається в БЗ, а з іншого - результати роботи ЛП накопичуються в БЗ). Відповідно до різних виявів мовної діяльності для ЛП передбачаються режими роботи, що відповідають не лише аналізу але й синтезу мовного повідомлення; наша мовна компетенція використовується не лише на стадії сприйняття мовного повідомлення але й для його породження. Практично на рівні моделювання співвідношення “Дійсність-Текст” була перевірена можливість використання ЛП для генерації мовного повідомлення; тут враховувалися певні залежності формальної моделі та були актуалізовані кілька стратегій опису довкілля.
Перевага визначеного підходу до проектування ЛП в тому, що опрацювання мовного матеріалу завжди орієнтовано на формалізми запропонованої моделі мови і спирається на базову семантико-синтаксичну структуру. В такому випадку, невпорядкована схема пошуку невизначеної структури замінюється чітко визначеною процедурою пошуку відомих конструкцій, реалізованих за відомими схемами та поєднаних відповідним чином; тож значно підвищується прогнозуючий потенціал ЛП як на стадії аналізу, так і синтезу мовного повідомлення.
Додаток Е. Система сприйняття просторових відношень.
В межах запропонованої концепції структурно-функціональної єдності ЛП-БЗ була створена модель мовної діяльності, що відтворює процес сприйняття людиною просторових відношень (П-відношень); тут по суті моделюється робота ЛП, що стосується аналізу просторової складової базової семантико-синтаксичної структури. В цьому випадку безпосередньо пов'язуються функції ЛП та БЗ, і мова йдеться про створення моделей “розуміння “ природної мови. Звичайно – це вузька предметна сфера, що обмежена лише просторовими відношеннями, проте вона постає важливою складовою на стадії формування ЛП.
На шляху моделювання реалізована плідна концепція використання “образотворчих засобів семантики” (за Ю. Д. Апресяном), коли змістовна інтерпретація поняття подається через його графічний образ – це найповніша семантична характеристика (для певного класу термінів, звичайно). Тут, по суті, моделюється фрагмент бази знань, що одночасно реалізується на двох рівнях – образному та символьному (інтегруються особливості систем обробки образної та символьної інформації, де предметна сфера обмежена просторовими відношеннями побутової лексики). На шляху розбудови моделі вирішені такі питання як: вибір базових просторових відношень та їх класифікація, графічна інтерпретація окремих лексичних одиниць, урахування систем відліку просторових відношень та схеми їх взаємодії. Особливість моделі в тому, що вона дійсно оперує зі змістом (смислом) окремих складових повідомлення, який актуалізується на графічному рівні.
На рівні БЗ актуалізовано фрагмент знань, відповідальний за сприйняття просторових відношень. На графічному рівні подані базові П-відношення, що визначаються побутовою лексикою, відповідають умовам повноти відтворення довкілля та мають нульове перекриття між собою; серед них виділяються два класи просторових відношень (відношення напрямку та відстані). В БЗ забезпечена інваріантність просторових відношень щодо розмірів сцени та напрямку сприйняття простору. БЗ для П-відношень реалізовано одночасно на графічному та символьному рівнях (моделюється тут взаємодія між першою та другою сигнальними системами).
На рівні ЛП в системі забезпечена семантична інтерпретація довільного відношення через базові складові. Запропоновано узагальнену процедуру формування “динамічного перетину”, проаналізовані різні системи відліку
П-відношень та схеми їх взаємодії. При опрацюванні вхідного мовного матеріалу ефективно взаємодіють ЛП та БЗ; система впевнено моделює мовну компетенцію людини щодо сприйняття просторових відношень. Ця розробка увійшла до лабораторного циклу “ Інтегральні роботи” та “Ситуаційне управління динамічними об'єктами” і вже багато років плідно використовується в учбовому процесі кафедри технічної кібернетики.
Додаток Ж. Моделювання співвідношення “Дійсність - Текст”
Даний розділ присвячений питанням інтеграції систем обробки образної та символьної інформації. Практика стверджує, що ефективне моделювання мовної діяльності можливе лише за умови інтеграції систем обробки різнопланової (образної та мовної) інформації. Мета побудови цієї системи - моделювання процесів генерації (синтезу) мовної інформації. Більш конкретно завдання визначається наступним чином - для заданої сцени, заповненої множиною об'єктів, необхідно синтезувати опис сцени у текстовому вигляді. На шляху моделювання співвідношення “Дійсність-Текст” активно взаємодіють системи обробки образної та символьної інформації. Така модель неодноразово опрацьовувалася на стадії дипломного проектування - остання версія реалізована Амплієвою Г. А.
На образному рівні реалізована система обробки інформації, що фактично спирається на графічну базу знань та відеопроцесор, який на антропоморфних засадах опрацьовує визначений фрагмент довкілля (модель сцени). База знань орієнтується на два фрагменти графічної інформації – визначені класи об'єктів та графічні уявлення базових просторових відношень; перший фрагмент знань використовується для класифікації об'єктів, тоді як другий – для визначення просторової орієнтації на сцені. В основу роботи образного процесора (відеопроцесора) були покладені висновки фізіологів ( Грановская Р.М., Березная И.Я. ), що дитина до трирічного віку сприймає образні об'єкти шляхом повного обстеження контуру зображення. В результаті формується покрокова функція обстеження об'єкта, з якої відбираються інформаційні прикмети: лінійні розміри, кутові характеристики, положення об'єкта, колір тощо.
На функціональному рівні модель побудовано за чіткою ієрархічною схемою, де поєднуються функціональні можливості автономного робота АR та його помічника - мурашки Ant. Автономний робот виконує функції управління: обстежує зону спостереження (сцену, яка синтезується випадковим чином); керує помічником Ant, вказуючи йому на наявність та розташування об'єктів на сцені; збирає та опрацьовує інформацію, яку постачає Ant; формує ту чи іншу стратегію синтезу тексту. Мікроробот Ant, в свою чергу, моделює роботу зорового аналізатора і за командою AR поспішає до вказаного об'єкта, обстежує його контур (оббігаючи навколо нього), формує покрокову функцію обстеження (як множину поточних координат та напряму контуру на кожному кроці) та передає її вже роботу AR для подальшого опрацювання та прийняття рішень.
Функції відеопроцесора та лінгвістичного процесора визначаються інформаційним забезпеченням робота AR, тоді як за помічником Ant лишається функція збирання інформації стосовно кожного об'єкта. База знань на рівні подання образної та символьної інформації також знаходиться у розпорядженні AR. Таким чином моделювання мовної поведінки відбувається за участю двох систем: система опрацювання образної інформації спирається на графічну базу знань та відеопроцесор ( система ВП-БЗ) а опрацювання мовної інформації реалізується за участю лінгвістичного процесора та бази знань (система ЛП-БЗ), тобто інтегруються тут можливості систем опрацювання образної та символьної інформації.
На мовному рівні система враховує основні формалізми запропонованої моделі мови та використовує певні стратегії формування опису сцени: актуалізація відтворення сцени в абсолютних координатах (відносно положення робота); синтез повідомлення у відносній системі (за початок координат вибирається певний об'єкт за визначеним критерієм); синтез тексту за пріоритетним урахуванням розташування об'єктів; синтез тексту за послідовним або випадковим використанням просторових відношень. Вже даний перелік та результати експериментів показують наскільки гнучкою та суб'єктивною може бути процедура формування (генерації) текстової інформації.
Система моделювання співвідношення “Дійсність – Текст” пройшла неодноразову апробацію на рівні дипломного проектування; остання версія отримала схвальні відгуки серед студентської аудиторії, увійшла до лабораторного фонду кафедри, демонструвалася у Варні (для засновників проекту КПМ), у Рівненському державному гуманітарному університеті, Острозькій академії.
Основні результати та висновки
1. Найважливішим результатом роботи є створення формальної моделі природної мови (структурного рівня її організації), що випливає із загальнолюдських принципів опрацювання інформації, будується на формальних засадах, має достатню пояснювальну силу стосовно основних виявів мовної діяльності і лінгвістичних фактів, знімає певні протиріччя сучасних граматичних побудов та постає плідною основою формування прогресивних інформаційних технологій. Отримання цього важливого результату досягнуто через розв'язання цілого ряду підпорядкованих питань.
1.1. Запропоновано узагальнену схему інформаційного забезпечення людини, що постає плідною основою інтегрування систем оброблення різнопланової інформації на шляху моделювання складних форм мовної діяльності.
1.2. Ретельно проаналізовано основні етапи розвитку мови (стадія онтогенезу), що виявилися плідною основою як розбудови власне формальної моделі, так і опрацювання моделі філогенезу, що вже спиратиметься на об'єктивні залежності онтогенезу.
1.3. Узагальнено структуру мовної системи, яка подається через сукупність окремих індивідуальних мовних систем, в кожній з яких поєднується мовна компетенція людини (лінгвістичний процесор) та її знання стосовно зовнішнього світу (база знань), що визначаються функціонально-структурною єдністю на всіх стадіях актуалізації мовної діяльності.
1.4. Запропоновано аксіоматику мовної системи (структурного рівня її організації), що випливає із загальних принципів опрацювання інформації людиною, охоплює найважливіші етапи становлення та функціонування мовної системи і постає плідною основою розбудови формальної моделі.
1.5. На формальному рівні подано визначення базової семантико-синтаксичної структури як основи формування довільного повідомлення; від існуючих визначень базова структура відрізняється за двома позиціями: по-перше, це максимально повна схема відтворення довільної ситуації, по-друге, елементом структури не може бути словосполучення.
1.6. Запропоновано графічну інтерпретацію базової семантико-синтаксичної структури, що відтворює окрему ситуацію довкілля та поєднує в собі властивості схем дерев залежностей та безпосередньо складових.
1.7. Подано перелік найважливіших схем трансформування базової семантико-синтаксичної структури, що визначають монопредикатний рівень організації довільного повідомлення.
1.8. Визначені схеми взаємодії монопредикатних структур, які в сукупності своїй відтворюють поліпредикатний рівень формування повідомлення.
1.9. Розглянуто комунікативний аспект організації окремого повідомлення та визначені основні класи мовних засобів для актуалізації комунікативної функції.
1.10. Запропоновано "координатну" схему зв'язності тексту, що відтворює як безперервність зовнішнього світу, так і цілісність його елементів. Проаналізовані головні схеми поєднання повідомлень, що визначаються як паралельна, послідовна та комбінована.
1.11. Формальна модель визначається достатньою пояснювальною силою та знімає певні протиріччя сучасних граматичних побудов:
- суперечливе розмежування просте/складне речення сучасних граматик замінюється чіткою дихотомією монопредикатне/поліпредикатне повідомлення, що охоплює всі можливі схеми
структурної організації мовного матеріалу;
- знімається проблема категорії словосполучення, яка не знаходила задовільного вирішення до цього часу.
2. Використання формальної моделі уможливило чітко визначити найважливіші напрями оброблення мовного матеріалу, які постають плідною основою формування сучасних інформаційних технологій, орієнтованих на сприйняття та опрацювання ПМ-інформації.
2.1. Визначені кількісні оцінки можливих схем актуалізації базової семантико-синтаксичної структури; подано узагальнену схему для розрахунків на об'єктному та атрибутивному рівнях для різних мов.
2.2. Проаналізовано питання відтворення цілісності зовнішнього середовища засобами мови; показано непорушення категорії цілісності на всіх мовних рівнях – атрибутивному об'єктному та ситуаційному.
2.3. Запропоновано узагальнене поняття “породжувальних функцій”, аргументом яких може бути або “безчастиномовний когномінант”, або власне базова синтаксична структура; це поняття виявилося досить конструктивним для пояснення процесу породження довільного повідомлення.
2.4. Використання поняття породжувальних функцій та категорії цілісності дозволило запропонувати рекурсивну схему організації мовного матеріалу, де елементом рекурсії постає базова семантико-синтаксична структура, що чітко визначена на формальному рівні.
2.5. Подано узагальнену структуру лінгвістичного процесора, що спирається на формалізми запропонованої моделі мови та враховує три організаційні рівні: структурний рівень атомарного речення, монопредикатний рівень організації повідомлення та поліпредикатний рівень формування мовного матеріалу. Організаційно функціонування ЛП орієнтовано на діалектичну взаємодію з базою знань.
2.6. Запропоновано багаторівневу ієрархічну структуру бази знань, де інформативною одиницею сприйняття, накопичення та опрацювання мовного матеріалу постає базова семантико-синтаксична структура; в свою чергу, база знань безпосередньо взаємодіє з лінгвістичним процесором.
2.7. Сприйняття концепції рекурсивної схеми організації мовного матеріалу зумовлює, відповідно, і рекурсивну схему опрацювання такого матеріалу лінгвістичним процесором, бо, власне, аналіз зводиться до декомпозиції вхідного повідомлення за базовими структурами. У такому випадку ЛП розглядається як рекурсивна машина, що здатна працювати з рекурсивно організованим мовним матеріалом.
3. Використання формальної моделі дозволяє значно адекватніше відтворювати структурний рівень організації мовного матеріалу. Це відкриває далекосяжні перспективи у таких напрямах автоматичної обробки природно-мовної інформації як: аналіз та синтез текстової інформації; подання, формування та накопичення знань; автоматичний переклад; автоматизовані системи управління; інформаційно-пошукові системи; експертні системи тощо. На шляху формування сучасних ПМ-технологій отримані такі експериментальні результати.
3.1. В межах проектування системи ЛП-БЗ перевірена концепція структурно-функціональної єдності складових (ЛП та БЗ) а також опрацьована схема подання знань, що пов'язана з відтворенням часових та просторових відношень (семантичне поле часу та простору).
3.2. Експериментально перевірена модель “розуміння” природної мови для вузької сфери просторових відношень (модель “Текст-Дійсність”). Тут реалізована концепція інтеграції баз знань різних рівнів (образного та символьного, зокрема). Система працює зі змістом, поданим на графічному рівні (використання образотворчих засобів семантики), і за мовною інформацією на поданій сцені синтезує відповідний фрагмент простору.
3.3. Реалізована програма моделювання співвідношення “Дійсність-Текст”, що відтворює здатність людини до синтезу тексту (опису дійсності). Для випадковим чином заданої сцени система формує її опис, використовуючи ті чи інші евристики. У цьому випадку інтегруються системи опрацювання образної та символьної інформації.
3.4. Експериментально перевірена концепція інтеграції систем опрацювання текстової та мовленнєвої інформації на рівні використання загальної бази знань (бо наша мовна компетенція буде однаковою в обох випадках).
3.5. В межах підготовки магістрів виконується робота, яка пов'язана з розбудовою лінгвістичного процесора, що спирається на формалізми запропонованої моделі і визначається рекурсивною схемою опрацювання мовного матеріалу; передбачається також, що ЛП орієнтовано на співпрацю з БЗ в режимах використання та накопичення знань.
3.6. Підготовка магістрів ведеться також за напрямом формування архітектури бази знань, де інформативною одиницею сприйняття, накопичення та опрацювання інформації постає базова семантико-синтаксична структура (база знань орієнтована на діалектичну взаємодію з лінгвістичним процесором).
4. Використання дисертаційних досліджень в учбовому процесі.
4.1. На кафедрі технічної кібернетики факультету інформатики НТУУ “КПІ” вже понад п'ять років здобувачем поставлені та викладаються курси “Лінгвістичне забезпечення гнучких комп'ютеризованих систем” та “Інформаційні основи природного інтелекту”, що спираються на дисертаційні дослідження.
4.2. На кафедрі технічної кібернетики НТУУ “КПІ” з 1997 року відкрито спеціалізацію “Гнучкі комп'ютеризовані системи в сфері природно-мовних технологій”, учбові плани якої спираються, головним чином, на дисертаційні дослідження здобувача та орієнтовані на підготовку фахівців у сфері сучасних інформаційних технологій.
4.3. З 1997 року на лінгвістичному факультеті НТУУ “КПІ” для студентів спеціальності “Переклад” здобувачем викладається курс “Системна організація мови”.
4.4. Запропонована формальна модель мови має своїм підгрунтям загальнолюдські принципи опрацювання інформації – тож вона охоплює найбільш узагальнені особливості мовної організації. Через це в 1999 році у м. Варна (Болгарія) на першій установчій конференції з проблеми “Комп'ютеризація природних мов” запропонована модель вже визначається як універсальна граматична основа природно-мовних технологій.
4.5. За напрямом опрацювання образної інформації дотику пропозиції здобувача подані до державної науково-технічної програми “Образний комп'ютер”.
Основні наукові праці
Найважливіші наукові результати відбиті в таких наукових працях автора:
1. Кисленко Ю. І. Системна організація мови: Монографія. – К.: Український літопис, 1997. – 217 с.
2. Кисленко Ю. І. Архітектура мови (лінгвістичне забезпечення інтелектуальних інтегрованих систем). – К.: Віпол, 1998. – 343 с.
3. Кисленко Ю.И. Информационное обеспечение интеллектуальных моделей. – К.: УМК ВО, 1992. – 168 с.
4. Кисленко Ю.И. Об одной интерпретации связности текста // Лингвистические вопросы проектирования и информационный анализ АИПС. – К.: ИК АН УССР, 1976. – С. 71-84.
5. Кисленко Ю.И., Михновский С.Д., Стогний А.А., Скороходько Э.Ф., Труб В.М. и др. Языковой аппарат документальной ИПС для газетно-журнальных текстов // Структурная и математическая лингвистика. – К.: Вища школа, 1977. – С. 46-62.
6. Кисленко Ю. И., Михновский С. Д., Стогний А. А., Скороходько Э. Ф., Труб В. М. и др. Об одном подходе к реализации фактографического режима в документальных ИПС // Фактографические системы информационного обеспечения. – К.: Знание, 1976.
7. Кисленко Ю. И. Изобразительные средства семантики в системах пространственной ориентации // Тезисы докладов Всес. Конференции “Семантика естественных и искусственных языков в специализированных системах”. – Л.: ЛГУ, 1979.
8. Кисленко Ю.И. Некоторые характеристики коммуникативной организации текстовой информации // Структурная и мат. лингвистика. – 1981. – Вып.9. – К.: Изд. КГУ. – С. 21-28.
9. Кисленко Ю.И. Об одной реализации алгоритма перемещения // Вестник КПИ, сер. "Техническая кибернетика", – 1984. – Вып.8. – К.: Вища школа. –
С. 50-52.
10. Кисленко Ю.И., Цокол В.А. Разработка элементов системы пространственной ориентации // Вестник КПИ, Сер. "Техническая кибернетика". – 1985. – Вып.9. – К.: Вища школа. – С. 43-46.
11. Кисленко Ю.И., Цокол В.А. Подсистема отображения автономного робота // Адаптивные системы автоматического управления. – 1986. – № 14. – Киев: Техника. – С. 112-120.
12. Кисленко Ю.И. О способе формирования внешнего контура бинарного изображения //Адаптивные системы автоматического управления. – 1987. – № 15. – К.: Техника. – С. 133-138.
13. Кисленко Ю.И., Костюк В.И. Информационное обеспечение автономного робота // Изв. АН СССР, Техническая кибернетика. – 1988. – № 2. – C. 49-59.
14. Кисленко Ю.И. Восприятие текстовой информации в системе пространственной ориентации // Адаптивные системы автоматического управления. – 1989. – №17. – К.: Техника. – С. 133-137.
15. Кисленко Ю.И. Тактильное очувствление шагающего робота // Изв. АН СССР, Техническая кибернетика. – 1991. – № 6. – С. 215-225.
16. Кисленко Ю.И. Информационно-лингвистическое обеспечение систем обработки естественно-языковой информации // Сб. трудов Международной конференции "Знания – Диалог – Решение". – Крым, Ялта – октябрь 1995. –
С. 172-180.
17. Кисленко Ю. І. Формальна модель мови // Сб. трудов VІ международной конференции "Знание – Диалог – Решение". – Крым, Ялта, 15-20 сент. 1997. –
С. 257-269.
18. Кисленко Ю. И. Явление рекурсии в естественных языках // Труды Международного семинара “Диалог'99” по компьютерной и прикладной лингвистике. Таруса, 1999. – С. 124 –132.
19. Кисленко Ю. І. Кількісні оцінки актуалізації базової структури // Искусственный интеллект. – 1999. – № 1. – Донецк. – С. 55 – 60.
20. Кисленко Ю. И. Базовый синтаксис // Труды первого Международного семинара “Компьютеризация естественных языков”. – Болгария, Варна, курорт
“Св. Константина”, 3-7 сентября. – 1999. – C. 82-92.
21. Кисленко Ю. И. Информационно – лингвистическое обеспечение проекта КЕЯ // Труды первого Международного семинара “Компьютеризация естественных языков”. – Болгария, Варна, курорт “Св. Константина”, 3-7 сентября. – 1999. –
С. 13-22.
22. Кисленко Ю. И. Отображение целостности внешнего мира в языковых средствах // Адаптивні системи автоматичного управління. – 1999. – № 2. – Дніпропетровськ: Системні технології. – С. 103-113.
23. Семантико-синтаксичні функції породження повідомлення // Искусственный интеллект. – 2000. – № 1. – Донецк. – С. 53-64.
24. Кисленко Ю. И. Программа отображения пространственных отношений / Рукопись депонирована в РФАП. – Рег. № 5321. – Киев, 1979. – (0.8 п. л.)
25. Кисленко Ю. И. Некоторые аспекты отображения временных отношений / Рукопись депонирована в ВИНИТИ. – Рег. № 2709 – 79 Деп. – М., 1979. –
(1,4 п.л.).
26. Кисленко Ю. И. Об отображении пространственных отношений / Рукопись депонирована в ВИНИТИ. - Рег. № 2710 - 79 Деп. - М., 1979. - (0,8 п.л.).
27. Кисленко Ю. И., Амплеева Г.А. О моделировании соотношения "Действительность – Текст" // Искусственный интеллект. – 2000. – № 3. – Донецк. – С. 475 – 487.
28. Кисленко Ю. И. Рекурсивный синтаксический анализатор // Науковий вісник кафедри ЮНЕСКО Київського державного лінгвістичного університету. – 2000. – Вип.1. – К. – С. 157 - 164.
29. Кисленко Ю. И. Информационный робот // Искусственный интеллект. – 2001. – № 1. – Донецк. – С. 61-68.
30. Кисленко Ю. І., Іващенко В.Г. Розпізнавання контуру бінарного зображення з елементами кривизни //Адаптивні системи автоматичного управління. – 2000. – № 3. – Дніпропетровськ: Системні технології. – С. 109-112.
31. Кисленко Ю. И. Аксиоматика языковой системы // Искусственный интеллект. – 2001. – № 2.– Донецк.
Кисленко Ю. І. Формальна модель мови як основа прогресивних інформаційних технологій. – Рукопис.
Дисертація на здобуття наукового ступеня доктора технічних наук за спеціальністю 05.13.06. – “Автоматизовані системи управління та прогресивні інформаційні технології”. – Національний технічній університет України “Київський політехнічний інститут”, Київ, 2002.
Дисертацію присвячено питанням поширення інформаційних технологій на сферу природної мови, що спирається на запропоновану автором формальну модель. Основою такої моделі постає формально визначена структура “синтаксичний блок” – максимально повна структура опису довільної ситуації довкілля. Ця структура постає підгрунтям всієї будови системної організації мови: монопредикатний рівень визначає усталені схеми використання базової структури, поліпредикатний рівень подає загальні схеми взаємозв'язку окремих монопредикатних структур. Системний підхід до такої важко формалізованої сфери як природна мова визначається потужним прогнозуючим потенціалом та відкриває нові перспективи в багатьох напрямах ПМ-технологій таких як: розробка лінгвістичного процесора, створення нових архітектур баз знань, інтегрування систем обробки різнопланової інформації, моделювання складних форм мовної поведінки людини. Формальна модель відкриває нові перспективи на шляху створення нових поколінь комп'ютерів.
Ключові слова: формальна модель мови, системна організація мови, моделювання мовної діяльності, інтегрування інформаційних систем, природно-мовні інформаційні технології.
Кисленко Ю.И. – Формальная модель языка как основа прогрессивных информационных технологий. – Рукопись.
Диссертация на соискание ученой степени доктора технических наук по специальности 05.13.06. – “Автоматизированные системы управления и прогрессивные информационные технологии”. – Национальный технический университет Украины “Киевский политехнический институт”, Киев, 2002.
Диссертация посвящена вопросам формирования прогрессивных информационных технологий, ориентированных на обработку естественно-языковой (ЕЯ) информации. Прогресс в данной области определяется уровнем формализации представления языкового материала. Автором предложена формальная модель языка, базирующаяся на понятии "базовой семантико-синтаксической структуры" как основы формирования произвольного сообщения. Формальная модель, в общем случае, определяет важнейшие моменты структурной организации ЕЯ-материала и включает в себя уровни:
- базовая семантико-синтаксическая структура как обобщенная схема описания произвольной ситуации внешнего мира;
- монопредикатный уровень организации ЕЯ материала – это собственно базовая структура или ее трансформации (в работе рассмотрены основные схемы трансформирования базовой структуры);
- полипредикатный уровень организации сообщения включает возможные схемы взаимосвязи структур монопредикатного уровня (тщательно проанализированы схемы взаимодействия структур).
Системный подход к организации языка, сформированный на базе формальной модели, обладает значительным прогнозирующим потенциалом, вследствие чего открываются новые перспективы на пути моделирования речевой деятельности человека. Это, в свою очередь, открывает новые возможности формирования и развития информационных технологий, ориентированных на обработку ЕЯ-информации. Использование системного подхода применительно к задачам информационных технологий позволило выполнить ряд перспективных разработок:
1- учет формализмов предложенного подхода позволяет достаточно эффективно систематизировать научные знания о языке и представить их в виде лингвистического процессора, ориентированного на обработку ЕЯ-информации;
2- системный характер модели позволяет предложить новый подход к формированию базы знаний (БЗ), ориентированной на обработку и накопление знаний в языковой форме.
3- следуя основным принципам формирования речевой деятельности человека эффективную обработку ЕЯ-информации можно представить лишь на пути диалектического взаимодействия базы знаний и лингвистического процессора.
4- языковой материал, в общем случае, представляется как рекурсивно организованная субстанция, где элементом рекурсии выступает базовая семантико-синтаксическая структура;
5- естественно, что рекурсивно-организованная информация для своей обработки требует формирования и рекурсивно работающего анализатора, целью которого является декомпозиция входного сообщения по базовым структурам;
6- в работе последовательно выдерживается антропоморфный подход к вопросам анализа речевой деятельности: одним из перспективных направлений формирования информационных технологий представляется интеграция разноплановых информационных систем (в работе выполнено моделирование соотношение "Действительность-текст" в том или ином направлении);
Возможные направления развития перспективных информационных ЕЯ-технологий представляются следующими: системы автоматического анализа / синтеза текста, системы автоматического перевода, автоматизированные системы управления, системы автоматического поиска, системы автоматической обработки информации и т.п..
Ключевые слова : формальная модель языка, системная организация языка, моделирование речевой деятельности, интегрирование информационных систем, естественно-языковые информационные технологии.
Kіslenko Yu. І. – Formal model of Language as basіs of progressіve іnformatіon technologіes – Manuscrіpt.
Thesіs for a doctor's degree by specіalіty 05. 13. 06 – "Automatіc control systems and progressіve іnformatіon technologіes". – Natіonal Technіcal Unіversіty “KPІ”, Technіcal Cybernetіcs department, Kyiv, 2002.
The dіssertatіon іs connected wіth expandіng іnformatіon technologіes іnto the sphere of natural language (NL) and іt іs based on the gіven author's formal model of language. The core of such model іs formally defіned base structure “syntax block” – the maxіmum complete semantіc-syntax structure of dynamіcs sіtuatіon envіronment descrіptіon. Such structure іs a basіc element of the whole buіldіng of the formal language system: the monopredіcatіve level defіnes the stable forms of addressіng to base structure, polіpredіcatіve level defіnes the maіn schemes of cooperatіon (іnteractіon) between several monopredіcatіve structures. The systems approach to such a dіffіcult–to–formalіze phenomenon as natural language open new perspectіves іn many dіfferent fіelds of іnformatіon NL-processіng: a lіnguіstіc – NL-processor makіng, a new data base archіtecture creatіon, a human's speech actіvіty modellіng (іnformatіon search, automatіc translatіon, etc.). Formal NL-model would be open new perspectіves іn the desіgnіng a new generatіon of computers.
Key words: the formal model of language, the system organіsatіon of language, the іnformatіon systems іntegratіon, natural language іnformatіon technologіes.
|