|
ХАРКІВСЬКИЙ ДЕРЖАВНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ
РАДІОЕЛЕКТРОНІКИ
ХАЙРОВА Ніна Феліксівна
УДК 681.518:519.767
РОЗРОБКА МАТЕМАТИЧНОГО І ЛІНГВІСТИЧНОГО ЗАБЕЗПЕЧЕННЯ
АВТОМАТИЗОВАНИХ ІНФОРМАЦІЙНО-БІБЛІОТЕЧНИХ СИСТЕМ
05.13.06 – автоматизовані системи управління
та прогресивні інформаційні технології
Автореферат дисертації на здобуття наукового ступеня
кандидата технічних наук
Харків - 2000
Дисертацією є рукопис.
Робота виконана в Харківському гуманітарному інституті “Народна українська академія” Міністерства освіти і науки України.
Науковий керівник – доктор технічних наук, професор Шаронова Наталія Валеріївна, Харківський гуманітарний інститут “Народна українська академія”, проректор з наукової роботи
Офіційні опоненти: – доктор технічних наук, професор Петров Едуард Георгійович, Харківський державний технічний університет радіоелектроніки, завідувач кафедрою системотехніки;
- доктор технічних наук, професор Сенченко Микола Іванович, Книжкова палата України, м. Київ, директор
Провідна установа – Харківський державний політехнічний університет, кафедра автоматизованих систем управління, Міністерства освіти і науки України, м. Харків.
Захист відбудеться “ 26 ” квітня 2000 р. о 13 годині на засіданні спеціалізованої вченої ради Д 64.052.01 в Харківському державному технічному університеті радіоелектроніки, за адресою 61166, м.Харків, просп.Леніна, 14; т. 433-053.
З дисертацією можна ознайомитись у бібліотеці Харківського державного технічного університету радіоелектроніки, просп.Леніна, 14.
Автореферат розісланий “ 21 ” березня 2000 р.
Вчений секретар
спеціалізованої вченої ради Саенко В.И.
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. На порозі XXI століття інформація стає одним із найбільш значущих стратегічних ресурсів, які мають вирішальний вплив на розвиток суспільства. У Законі України "Про національну програму інформатизації" підкреслюється роль бібліотеки і визначаються її завдання в процесі формування нового інформаційного суспільства. З розвитком глобальної інформаційної мережі Internet, з появою нових нетрадиційних джерел інформації, в тому числі повнотекстових електронних баз даних, бібліотека переростає з зберігача в розробника інформаційних ресурсів і провідника в світовому інформаційному середовищі. При цьому автоматизація всіх процесів бібліотечної діяльності повинна забезпечити доступ користувача до електронного каталога та інших баз данних бібліотеки з максимально адекватною відповідністю отриманої інформації до читацьких запитів. Сьогоднішня автоматизована інформаційно-бібліотечна система (АІБС) являє собою найбільш передову сучасну інформаційно-пошукову систему, що забезпечує пошук серед великих масивів інформації за різними критеріями.
Великий внесок в розробку теоретичних і прикладних питань автоматизації інтегрованої бібліотечної системи і окремих її функціональних модулів внесли такі видатні вчені як Ф.Воройський, І.Коровякова, Робін Т. Гарбор, М.Сенченко, Дж.Солтон, М.Селтон, Л.Філіппова, І.Фоменко, Дж.Хеклі, В.Цуркан, Я.Шрайберг та ін.
Однією з головних вимог, що пред'являються сьогодні до АІБС, є забезпечення користувача в реальний проміжок часу повною і релевантною інформацією, що можливо тільки при наближенні інформаційно-пошукових запитів до природної мови. Важливою складовою частиною досліджень, які проводяться в даному напрямку є розробка математичного і лінгвістичного забезпечення АІБС, що являють собою моделі, алгоритми і методи, які охоплюють процеси класифікації, предметизації, реферування, анотування і т.п. При цьому ставиться завдання розв'язання трьох теоретичних проблем: подання знань бібліотечної системи; комп'ютерна лінгвістика, вирішення якої забезпечить розробку природномовного інтелектуального інтерфейсу бібліотечної системи і моделювання інтелекту людини в процесі "розуміння" під час аналітико-синтетичної обробки документа.
Найбільш перспективним сьогодні стає використання моделей і методів інформаційних технологій, що базується на результатах, отриманих при розв'язанні проблем штучного інтелекту (ШІ). Наука, що вивчає механізми природного інтелекту з метою використання набутих знань для створення систем штучного інтелекту, розробляється науковою школою проф. Ю.П. Шабанова-Кушнаренко і носить назву теорії інтелекту. Мета робіт, присвячених ШІ, є створення комп'ютерних систем, що автоматизують інтелектуальну діяльність людини. Істотний внесок в розв'язання питань моделювання розуміння в інтелектуальних системах внесли Т.Віноград, Н. Леонова, Д.Мінський, С. Осуга, О. Перевозчикова, Е.Попов, Д.Поспелов, Ю.Саєкі, К. Філлмор, Р.Шенк, К. Ющенко та ін.
Під час розробки математичного забезпечення АІБС необхідний повний, однозначний і експліцитний опис процесів аналітико-синтетичної обробки, який призначений для ЕОМ і може зробити доступними для них властиві людині операції з обробки текстової інформації. Незважаючи на досягнуті результати в області моделювання інтелекту, питання семантичної обробки текстової інформації все ще недостатньо вивчені. Досвід дослідження і моделювання бібліотечних процесів довів необхідність серйозної розробки лінгвістичного забезпечення, який включає лінгвістичний процесор (що дозволяє передусім трансформувати пошукові запити користувача, виражені природною мовою, в інформаційну мову системи), різного роду класифікаційні схеми, засоби предметного пошуку, рубрикатори, тезауруси і т.д.
Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалася на кафедрі інформаційних технологій і документознавства Харківського гуманітарного інституту “Народна українська академія” відповідно до плану науково-дослідної роботи, в рамках розробки комплексної наукової теми кафедри “Дослідження актуальних проблем побудови інтелектуальних систем”. Розроблені в дисертації алгоритми були використані під час виконання держбюджетної теми Міністерства оборони “Корекція-А” Харківського військового університету (відповідно до договору від 19.10.98).
Мета і задачі дослідження. Метою дисертаційної роботи є дослідження і розвиток лінгвістичного і математичного забезпечення автоматизованих інформаційно-бібліотечних систем; розробка нових інформаційних технологій, що базуються на формалізації і моделюванні інтелекту в процесі семантичної обробки текстів документів і тісно пов'язаною з нею предметно-тематичною асоціацією користувача в процесі організації тематичного пошуку; їх реалізація у вигляді алгоритмів і програм підсистем АІБС.
Для досягнення поставленої мети необхідно вирішити такі завдання:
- Розробити метод класифікації документальної інформації, що базується на моделюванні системи асоціацій наукових і технічних понять та дозволяє підвищити релевантность та повноту інформації, що видається АІБС.
- Розробити інструментальні засоби компараторної ідентифікації, необхідні для моделювання відносин бібліотечних об'єктів.
- Розробити математичні засоби опису дескрипторно-текстового предиката, опису функцій розуміння тексту і лексичних одиниць, що виражає теми (поняття, рубрики).
- Побудувати математичні моделі відносин об'єктів на графемному і семантико-синтаксичному рівнях лінгвістичного процесора автоматизованої інформаційно-бібліотечної системи.
- Сформулювати і дослідити найбільш важливі задачі автоматизованого аналізу текстової інформації, які використьвуються під час розробки систем аналітико-синтетичної обробки документальної інформації в АІБС, розробити методи і алгоритми рішення цих завдань і реалізувати їх у вигляді програмних систем обробки документів повнотекстових баз даних.
Наукова новизна одержаних результатів. У процесі розв'язання завдань, відповідно до мети роботи отримано такі результати:
- в роботі вперше запропоновано і обгрунтовано використання методу компараторної ідентифікації для моделювання процедур аналітико-синтетичної обробки текстів документів, які циркулюють в АІБС. Введено дескрипторно-текстовий предикат, функції розуміння тексту і ключових термінів, що дозволило розробити математичне забезпечення процедур каталогізації, систематизації і предметизації, безпосередньо пов'язаних із організацією тематичного бібліотечного пошуку;
- вдосконалено методику формалізації інтелектуальної діяльності людини по розумінню і класифікації за змістовими ознаками лексичних одиниць (ЛО), що дозволило розробити концептуальну модель динамічного рубрикатора;
- набула подальшого розвитку розробка дескрипторної мови з лінійною (позиційно-дужковою) граматикою, яка відображає взаємне розміщення лексичних одиниць і фрагментів документа;
- вперше запропоновано і розроблено метод контекстного аналізу текстів повнотекстової БД АІБС, який дозволяє зняти частину мовної багатозначності;
- розроблено алгоритм, реалізований у вигляді програмного комплексу Texs, що подає динамічну підсистему систематизації і предметизації АІБС, яка дозволяє переглядати структуру класів документів фонду в сучасний момент.
Практичне значення одержаних результатів. Розроблене в дисертаційній роботі математичне і лінгвістичне забезпечення орієнтоване на автоматизацію аналізу змісту документів повнотекстової бази даних, тобто приписуванні накопиченим одиницям інформації позначень, які адекватно відображають їх зміст, автоматизації аналітико-синтетичної обробки документа (класифікації, предметизації, реферуванні, що є найбільш трудомісткими бібліотечними процесами).
Результати дисертаційних досліджень були використані як частина програми із автоматизованої аналітико-синтетичної обробки текстів українською та російською мовами в науково-методичному відділі Центральної наукової бібліотеки Харківського національного університету ім. В.Н. Каразіна.
Наукові положення, висновки і рекомендації дисертаційної роботи використані в навчальному процесі при підготовці курсів "Машинний переклад" і "Автоматичне реферування" для студентів старших курсів спеціальності 7.030.504 "Прикладна лінгвістика" на кафедрі інформаційних технологій і документознавства Харківського гуманітарного інституту "Народна українська академія". Результати дисертаційних досліджень були використані у посібнику з курсу “Машинний переклад”, що отримав гриф навчального посібника Міністерства освіти України і диплом виставки-ярмарки науково-педагогічних ідей "Освіта Харківщини" за 1998 рік.
Теоретичні і практичні результати дисертаційної роботи були використані також під час виконання науково-дослідних робіт в Харківському військовому університеті по темі "Корекція-А" (договір від 19.10.98).
Особистий внесок здобувача. Всі результати дисертації отримані автором самостійно. У роботі [1], яка виконана в співавторстві, дисертанту належить розробка морфологічного і синтаксичного етапів аналізу лінгвістичного процесора систем машинного перекладу. У працях [3, 6] автором розроблені постановка задачі та інструментальні засоби компараторної ідентифікації, необхідні для моделювання процедур класифікації, предметизації і систематизації документів. У роботі [4] автору належить постановка задачі і розробка математичної моделі, що дозволяє зняти значну частину морфологічної омонімії на етапі контекстного аналізу. У працях [5, 12] здобувачем розроблені практичні рекомендації із використання методу компараторної ідентифікації для звуження семантичного поля текстів первинних документів в системах автоматичного реферування. У роботі [13] автору належить розробка алгоритму автоматичного рубрикатора і його програмна реалізація.
Апробація результатів дисертації. Основні положення і результати дисертаційної роботи були подані і розглянуті на:
- III міжнародному семінарі "Актуальні питання впровадження інформаційних технологій у документально-комунікаційній сфері", Харків, 1996 р.;
- Міжнародній конференції "Создание, интеграция, использование информационных ресурсов инновационного развития", Київ, 1997 р.;
- III міжнародній науково-методичній конференції "Досвід і проблеми реалізації ступеневої системи підготовки фахівців", Суми, 1997 р.;
- IV міжнародній науковій студентській конференції "Актуальные проблемы гуманитарных наук и их информационное обеспечение", Харків, 1997р.;
- II молодіжному форумі "Радиоэлектроника и молодежь в XXI веке", Харків, 1998 р.;
- Науково-методичній конференції "Підвищення ефективності навчального процесу у технічному закладі на базі засобів Multimedia", Харків, 1998 р.;
- II науково-методичній конференції "Використання комп'ютерних технологій у навчальному процесі", Харків, 1998 р.;
- V міжнародній конференції "Теория и техника передачи, приема и обработки информации" ("Телекоммуникации, радиотехника, электроника"), Судак, 1999 р.;
- республіканському науково-практичному семінарі НАН України “Системный анализ, математическое моделирование и принятие решений в социально-экономических и технических системах”, Харків, 1999 р.
Публікації. Основні положення дисертації викладені в 13 друкованих роботах, з них – 1 навчальний посібник з грифом Міністерства освіти України, 6 статей в наукових журналах, 5 тез доповідей і одна депонова стаття.
Структура і об'єм роботи. Дисертаційна робота складається із вступу, чотирьох розділів, висновку, списку літературних джерел із 122 найменувань, чотирьох додатків; включає 18 малюнків, 4 таблиці. Загальний об'єм роботи становить 159 сторінок, в тому числі 124 сторінки основного тексту.
ОСНОВНИЙ ЗМІСТ РОБОТИ
У вступі обгрунтована актуальність дисертаційної роботи, сформульовані основна мета і завдання досліджень, наведені відомості про зв’язки обраного напрямку досліджень із планами організації, де виконана робота. Дано стислу анотацію отриманих у дисертації рішень, відзначена їх практична цінність, приведені дані про використання результатів проведенних досліджень у народному господарстві.
У першому розділі проведено аналіз сучасного стану автоматизованих інформаційно-бібліотечних систем (АІБС), перспектив і проблем автоматизації бібліотечних процесів. Показано необхідність автоматизації процесів семантичної обробки документів: класифікації, предметизації, систематизації, тобто тих процесів, на яких засновується організація інформаційного обслуговання користувачів бібліотечних систем.
У розділі висвітлюється недостатня ефективність існуючих засобів семантичного (тематичного і предметного) пошуку в АІБС, що забезпечують на сьогодні низькі коефіцієнти повноти і точності. Тоді як релевантність інформації, знайденої АІБС, до запиту користувача значною мірою залежить від правил структурного об'єднання баз даних, в основі яких лежить інструмент (методика) класифікації об'єктів. Ключовою проблемою в цій області залишається автоматизація аналізу змісту текстів документів, тобто приписування накопиченим одиницям інформації позначень, які адекватно відображають їх зміст, так звана аналітико-синтетична обробка. Спираючись на специфіку документальних бібліотечних систем, в розділі доводиться провідна роль рубрикаторів і тезаурусів під час моделювання об'єктів і зв'язків, істотних для завдань аналітико-синтетичної обробки і пошуку документів.
У розділі обгрунтовується необхідність обліку аспектів природної мови (ПМ) під час організації вузько-тематичного пошуку в інформаційних системах, які працюють із повнотекстовими базами даних (full text system). Як семантично найбільш сильні і здатні забезпечити високу якість пошуку для основної маси запитів, пропонується використати дескрипторні мови з лінійною (позиційно-дужковою) граматикою, яка відображає взаємне розташування лексичних одиниць і фрагментів документа.
Для налагодження зв'язків між споживачами і відповідними документами повинні бути використані різноманітні лінгвістичні засоби обробки інформації, що дозволяють наблизити інтерфейс автоматизованих бібліотечних систем до ПМ. Створення такого інтерфейсу АІБС дозволить, передусім, трансформувати пошукові запити, виражені на ПМ, в інформаційну мову системи. У розділі показано актуальність даної проблеми, необхідність розробки нових алгоритмів і сформовано завдання, які необхідно вирішити в зв'язку з цим. При цьому основним призначенням лінгвістичного забезпечення в документальній підсистемі АІБС є розробка моделей графемного, морфологічного і семантико-синтаксичного етапів аналізу лінгвістичного процесора АІБС.
У даному розділі обгрунтовуються переваги методу компараторної ідентифікації під час моделювання процесів інтелектуальної обробки бібліотечних об'єктів.
Отримані такі висновки:
- Сучасні бібліотечні системи повинні настроюватися на використання БД, що наближаються до експертних систем, до систем автоматизації інтелектуальної діяльності, які володіють здібністю навчання.
- Під час розробки методики вузько-тематичного багатоаспектного пошуку релевантної інформації в БД АІБС необхідно використати модель предметної області (ПО), що являє собою рубрикатор, який автоматично настроюється на нову семантичну область.
- Для розробки процедур динамічної класифікації і систематизації документів необхідно моделювати систему асоціацій наукових і технічних понять і областей, наблизивши тим самим дану проблему до області формалізації інтелекту.
- Під час організації вузько-тематичного пошуку в інформаційних системах, які працюють з повнотекстовими базами даних (full text system) необхідно враховувати не лише логічний зв'язок термінів і понять, але і аспекти природної мови.
У відповівдності з цим метою роботи є дослідження і розвиток лінгвістичного і математичного забезпечення автоматизованих інформаційно-бібліотечних систем, що базуються на формалізації і моделюванні інтелекту в процесі семантичної обробки текстів документів; їх реалізація у вигляді алгоритмів і програм підсистем АІБС.
У другому розділі розроблені формальні засоби компараторної ідентифікації, необхідні для моделювання аналітико-синтетичної обробки бібліотечних об'єктів: математичні засоби опису дескрипторно-текстового предиката, предиката інтелектуальної аналітико-синтетичної обробки документа та їх властивостей, опису функції розуміння тексту і функції розуміння лексичної одиниці, що виражає певне поняття.
Базовими при використанні методу компараторної ідентифікації документів в повнотекстовій базі даних є дві множини: множина документів T={ti}, 1 ≤ i ≤n, що являє собою деяку, досить чітко окреслену, сукупність текстів повнотекстової бази даних і досить чітко окреслена множина ключових термінів R={rj}, 1≤j≤m. Розглядаючи всі можливі пари з множини T х R,, компаратор формує предикат P, який задає відносини між текстами документів і ключовими термінами, що відображають зміст цих документів. Дескрипторно-текстовий предикат P(tk,rq), що відображає відносини між елементами кожної пари tk,rq, представлений так:
P (tk, rq)=ε, де tk ∈ T, rq ∈ R, ε = {0,1}. (1)
Два тексти t і t′ відносяться до однієї підтеми (t, t′∈ T), t ~ t′ тоді і тільки тоді, коли для ∀r: P(t, r) = P(t′, r). Два ключових поняття r і r′ відносяться до однієї підрубрики (r,r′∈ R), r ~ r′ тоді і тільки тоді, коли для ∀t: P(t, r) = P(t, r′).
Предикати еквівалентності E1, заданий на множині T х T, і E2, заданий на декартовому добутку R х R, що однозначно визначаються предикатом Р, відображають відповідність текстів документів одній підтемі:
E1 (t1, t2) =∀r∈R ( P(t1,r) ~ P(t2,r)) (2)
і відповідність ключових понять одній підрубриці:
E2 (r1, r2) =∀t∈T ( P(t,r1) ~ P(t,r2)). (3)
Предикат E1 (t1, t2) використовується для об'єктивного визначення відношення будь-яких двох текстів документів t1 і t2,, що належать множині Т, до однієї підтеми. Предикат E2 (r1, r2) можна використати для визначення відповідності будь-яких двох ключових понять, що належать множині R, єдиній підрубриці. Предикат E1 визначає розбиття ϑ1 множини Т на шари текстів документів. Всі документи, що належать одному шару розбиття, відносяться до однієї підтеми. Будь-які документи, взяті з різних шарів розбиття, відносяться до різних підтем. Предикат E2 визначає розбиття ϑ2 множині R на шари ключових понять, розподіляючи ключові поняття на підрубрики. Всі ключові поняття, що належать одному шару розбиття, відносяться до єдиної підрубрики, будь-які два ключових поняття, взяті з різних шарів розбиття ϑ2, відносяться до різних підрубрик.
Розподіл текстів на підтеми і ключових понять на підрубрики можна виразити через предикат Р, що об'єктивно визначається компаратором. Класу La всіх текстів t∈ T, що відносяться до однієї підтеми, що містить текст a∈ T, відповідає предикат La (t):
La (t) = E1 (t , a) = ∀r∈R ( P(t,r) ~ P(a,r) ). (4)
Класу Qb всіх ключових понять r∈ R, що відносяться до однієї підрубрики з ключовим поняттям b∈R, відповідає предикат Qb(r):
Qb(r) )=E2(r, b) =∀t∈T (P(t, r) ~ P(t, b)). (5)
У роботі розглянуто приклад поділу на підкласи множини ключових термінів, що відносяться до предметної області комп'ютерних технологій і Internet. Графічна інтерпретація предиката P(ti, rj), наведеного прикладу, при 1 ≤ i ≤ 10, 1 ≤ j ≤ 10, показана на рисунку 1.
Рис. 1. Графічна інтерпретація предиката Р(t, r).
Розбиття на шариϑ1 множини текстів документів Т:
ϑ1={ { a1, a4, a6}, { a2, a3, a5}, { a7, a10}, { a8, a9} }. (6)
У ролі множини T1, яка включає назви підтем, що об'єднують тексти документів множини Т, виступає сукупність назв всіх шарів розбиття ϑ1: T1= = {μ1, μ2, μ3, μ4}, де μ1= { a1, a4, a6}, μ2= { a2, a3, a5}, μ3= { a7, a10}, μ4= { a8,,a9}. Розбиття на шари ϑ2 множини ключових понять R:
ϑ2={ { b1, b2, b4}, { b3, b7}, { b5 }, { b6, b8, b9, b10} }. (7)
У ролі множини R1, що являє собою множину назв підрубрик ключових термінів множини R, виступає сукупність назв всіх шарів розбиття θ2: R1= ={ν1,ν2,ν3,ν4}, де ν1= { b1, b2, b4}, ν2= { b3, b7}, ν3= { b5}, ν4= { b6, b8, b9, b10}. Множина R1, являє собою множину понять, що відображаються цими ключовими термінами, які можна визначити як дескриптори, що об'єднують ключові терміни за умовною і безумовною еквівалентністю. Зв'язок між назвами та шарами розбиття, що означаються їми, записується у вигляді предиката:
F(r,ρ) = (rb1 V rb2 V rb4) ρν1 V(rb3 V rb7 ) ρν2 V(rb5) ρν3 V(rb6 V rb8 V rb9 V rb10) ρν4. (8)
Значеннями змінної ρ служать назви розбиття ϑ2, які і є назвами підрубрик, що включають ключові поняття r.
На етапі моделювання системи асоціації наукових і технічних понять та областей знань вводиться предикат аналітико-синтетичної обробки документа Ζ(τ, ρ) = ε, ε = {0, 1}, який відображає відповідність (ε =1) або не відповідність (ε=0) предмета τ, що розглядається в тексті документа t, поняттю ρ, що виражається ключовим терміном r.
P (t, r) = Z ( ( g (t), f (r) ) = Z (τ, ρ), (9)
де τ = g(t) — функція розуміння тексту, що відображає множину Т на множину T1; ρ = f (r) — функція розуміння ключового слова, що відображає множину R на множину R1.
Таким чином, у другому розділі дисертаційного дослідження розроблено математичні засоби опису дескрипторно-текстового предиката, функції розуміння тексту і функції розуміння лексичних одиниць, подаючи інструментальні засоби компараторної ідентифікації необхідні для моделювання відносин бібліотечних об'єктів.
У третьому розділі розглядаються моделі і алгоритми лінгвістичного забезпечення АІБС, що дозволяють істотно полегшити доступ користувача до інформаційних ресурсів бібліотеки.
Лінгвістична обробка текстів в АІБС, що включає формалізацію всіх рівнів мовної системи, подана схемою лінгвістичного процесора (ЛП):
Рис. 2. Логічна схема лінгвістичного процесора АІБС
На етапі графемного аналізу, подаючи текст природною мовою як цілісний об'єкт, елементами якого є знаки, організовані певним чином в рядки: ТЕКСТ = ={, }, кодуються одиниці графемного відображення (дискурси, речення, лексеми). При отриманні графемного значення тексту семантична інформація одержується з тексту повнотекстової бази даних вже із організації його знакової системи, виходячи з оформлення тексту.
На етапі морфологічного аналізу ЛП приписує кожній словоформі тексту комплекс морфологічної інформації (КМІ), який містить набір можливих альтернативних варіантів морфологічних структур (МС). У розділі розглядається математична модель, що описує закономірності утворення зв'язків між двома словоформами в реченні, які стоять поряд. Дана модель дозволяє зняти значну частину морфологічної омонімії на етапі контекстного аналізу. M={m1, … , mn} – множина словоформ, n – кількість словоформ в словнику системи. Декартовий добуток mi х mj , де 1≤i≤n, 1≤ j≤n, являє собою граматичне словосполучення, знак х – означає, що між словоформами встановлені певні семантико-синтаксичні зв'язки. На множині M вводиться система предикатів S так, щоб кожній словоформі mi ∈ M відповідав деякий предикат P (qm) ∈ S, рівний 1 під час підстановки комплексу морфологічної інформації, приписаного на попередньому етапі аналізу конкретній словоформі mi і був рівний 0 в іншому випадку.
Бінарне відношення на множині словоформ речення, що стоять поряд для всіх типів граматичного підпорядкування може бути задане формулою:
P (qm) х P (qn) = γι(qm, qn)• P (qm) •P (qn), (10)
де знак х, означає операцію з'єднання КМІ словоформ і вказує на те, що дві словоформи, які стоять поряд, пов'язані між собою семантико-синтаксичним зв'язком; • — операція конъюнкції предикатів; а множник γι(qm, qn), ι =1,2,3 (узгодження, управління, примикання, відповідно) виключає із формули (10) ті МС поряд стоячих словоформ, які не узгодяться при даному типі граматичного підпорядкування.
γ1(qn, qm)= qnx1 qmy3 V qnx2qmy3 Vqnx1qmy4 Vqnx2 qmy4 Vqnx2 qmy7 ,
γ2(qn, qm)= qnx1 qmy2 Vqnx2 qmy2 Vqnx9qmy2 Vqnx5qmy2 Vqnx6 qmy2, (11)
γ3(qn, qm) = qnx5 qmy9 V qnx6 qmy9 V qnx4 qmy9 V qnx1 qmy9 V qnx2 qmy9 Vqnx5 qmy10Vqnx10 qmy5,
де xi (1 ≤ i ≤ 10) – перша словоформа словосполучення; yj (1 ≤ j≤ 10) – друга словоформа словосполучення; x1, y1 – іменник, називний відмінок x2, y2 – іменник, непрямий відмінок; x3, y3 – прикметник; x4, y4 – дієприкметник; x5, y5 – дієслово не минулого часу; x6, y6 – дієслово минулого часу; x7, y7 – порядковий числівник; x8, y8 – кількісний числівник; x9, y9 – прийменник x10, y10– прислівник.
Під час підстановки КМІ першої і другої словоформи словосполучення, отримані на етапі морфологічного аналізу, в формулу (11), предикати, що описують тип словосполучення, не властивий даним словоформам, обертаються в нуль. Ті ж предикати, які приймають значення 1, дозволяють істотно зменшити кількість можливих варіантів сполучень між словоформами.
На етапі аналітико-синтетичного аналізу використована модель предметної області у вигляді концептуального рубрикатора або тезауруса, що дозволяє розглядати не стійкі зв'язки між мовними одиницями, а стійкі зв'язки між поняттями, які носять енциклопедичний характер. Даний підхід дає можливість створювати модель предметної області незалежно від мов і реально полегшує розширення списку мов, з якими може працювати система. В дисертації розроблена модель предметної області на прикладі понять, об'єктів і відносин з області комп'ютерних технологій і Internet, де предикат P(x1,x2) показує відношення частина-ціле, а предикат Q (x1,x2) відношення рід-вид, An – дескриптор (рис.3). Список дескрипторів, що ставляться до предметної області комп'ютерних технологій та Internet, і розглядаються в дисертаційному дослідженні приведено в додатку англійською, російською та українською мовами.
У четвертому розділі приведено опис програмного комплексу Texs, реалізованого по запропонованій автором моделі і дається оцінка його ефективності. Розділ містить практичні рекомендації із використання результатів дисертаційного дослідження в системах автоматичного реферування. Обгрунтовується можливість реалізації методів і моделей дисертаційного дослідження під час розробки інформаційно-пошукових засобів української частини мережі Internet.
|