Рис. 3. Графічне представлення фрагмента моделі предметної області
комп'ютерних технологій і Internet (комп'ютерна архітектура).
Алгоритм роботи системи рубрикації документів за вузькими тематичними класами складається з двох частин. Перша частина являє собою етап автоматичного навчання системи. На цьому етапі відбувається автоматичне формування рубрикатора, під час якого відбувається розподіл семантичного простору даної предметної області на мікрообласті: формування формалізованого образу рубрики (ФОР). На другому етапі роботи система використовує еталони, отримані на етапі навчання для розділення текстів документів, що аналізуються, за мікротемами (тобто віднесення документів до певної класифікаційної підрубрики). Алгоритм роботи включає п'ять блоків.
- Блок графемної обробки, що визначає мову текстів, які аналізуються і що виділяє структурно-певні фрагменти повнотекстової бази даних (заголовок, перший абзац документа, перше речення першого абзацу і т.д.).
- Блок морфологічної обробки вводиться для обліку словозмінних і словотворчих форм мови. На цьому етапі створюється словник квазіоснов у вигляді множини, яка містить всі лексикографічні варіанти словозмінних основ ключових термінів.
- Блок статистичної обробки формує інформаційне уявлення кожного тексту бази, яка розглядається у вигляді алфавітного словника ключових слів (АСКС), із приписаними ним ваговими коефіцієнтами.
- Блок компараторної ідентифікації реалізовує дескрипторно-текстовий предикат Р(t, r), заданий на декартовому добутку T х R множин текстів, які розглядаються і ключових слів. Внаслідок реалізації цього блоку отримують еталони конкретних мікротем, які представляють класи ключових термінів.
- Етап систематизації (рубрикації) документів. На цьому етапі, внаслідок процедури графемної, морфологічної і статистичної обробки, кожному тексту, що надходить на вхід системи, приписується АСКС. Порівнюючи словники ключових слів кожного тексту з діючими еталонами, підсистема АІБС класифікує множину текстів повнотекстової бази даних за вузькими предметними рубриками.
Як показали результати реалізації, комплекс прикладних програм Texs являє собою динамічну підсистему систематизації і предметизації автоматизованої інформаційно-біблиотечної системи, яка швидко настроюється на нову семантичну область та інваріантна до мови текстів, що класифікуються. Незалежність формування інформаційно-лінгвістичного і програмного забезпечення, дозволяє створити відкриту, адаптивну, ієрархічну та модульну структуру алгоритму.
Результати дисертаційних досліджень були використані під час розробки підсистеми аналітико-синтетичної обробки текстів українською і російською мовами АІБС в науково-методичному відділі Центральної наукової бібліотеки Харківського національного університету ім. В.Н. Каразіна. Проведені дослідження показали, що у 73% випадків рубрикація текстів повнотекстової бази, здійснених системою Texs, збігається із розподілом текстів за предметними рубриками, здійсненими експертами.
У додатках приведено фрагменти тексту програм комплексу Texs; список дескрипторів англійської, української і російської мов, що використовується в моделі предметної області комп'ютерних технологій і Internet; бібліографічний список документів, приклад рубрикації яких розглянуто в роботі; а також акти про впровадження результатів дисертаційного дослідження.
ВИСНОВКИ
- Розроблено метод класифікації документальної інформації, який засновується на моделюванні системи асоціацій наукових і технічних понять і областей, використання цього методу дозволяє підвищити релевантність та повноту інформації АІБС, що видається.
- Розроблені інструментальні засоби компараторної ідентифікації, необхідні для моделювання процедур класифікації, предметизації і систематизації документів: математичні засоби опису дескрипторно-текстового предиката, функцій розуміння тексту і лексичних одиниць, які виражають теми (поняття, рубрики).
- Проведена структурно-функціональна класифікація лінгвістичного забезпечення автоматизованої інформаційно-бібліотечної системи. Розроблена схема лінгвістичного процесора, що враховує особливості інформаційних повідомлень, які надходять в АІБС. Побудовані моделі обробки текстових повідомлень на графемному, морфологічному і семантико-синтаксичному рівнях роботи ЛП.
- Запропоновано метод моделювання інтелектуальної функції людини по розумінню і класифікації за змістовими ознаками лексичних одиниць мови. Вперше введене і обгрунтоване поняття предиката інтелектуальної аналітико-синтетичної обробки документа, який дозволяє формально подати відносини між розумінням предмета, що розглядається в тексті документа, і поняттям, що виражається відповідним йому ключовим словом. Проведена формалізація процесу дескрипторизації, яка усуває неоднозначність у вигляді омонімії і полісемії ключових слів і що дозволяє здійснити їх групування за класах умовної і безумовної еквівалентності.
- Розроблено і програмно реалізовано алгоритм формування рубрикатора, що дозволяє автоматизувати роботу системи поділу документів повнотекстової бази даних за вузькими підтемами, а ключових термінів — за підрубриками. Запропонований алгоритм дозволяє розробити динамічний рубрикатор АІБС, який настроюється на нові ПО і є інваріантним до мови текстів, що класифікуються.
- Розглянуто коло найбільш важливих завдань автоматизованої обробки текстової інформації, пов'язаних із реферуванням і анотуванням текстів повнотекстової БД. Вироблені практичні рекомендації по використанню результатів дисертаційного дослідження в системах автоматичного реферування. Окреслені методи і моделі, які можуть бути використані при розробці інформаційно-пошукових засобів української частини мережі Internet.
- Результати проведених дисертаційних досліджень були використані під час розробки підсистеми аналітико-синтетичної обробки текстів українською і російською мовами АІБС в науково-методичному відділі Центральної наукової бібліотеки Харківського національного університету ім. В.Н. Каразіна, а також під час виконання теми “Корекція-А” в Харківському військовому університеті.
Список опублікованих автором праць за темою дисертації
- Хайрова Н.Ф., Замаруева И.В. Машинный перевод: Учеб. пособие. – Х.: Око, 1998. – 82 с.
- Хайрова Н.Ф. Компараторная идентификация документов в полнотекстовой базе данных // АСУ и приборы автоматики.– Х., 1999.– N 109.– С.67-76.
- Хайрова Н.Ф., Шаронова Н.В., Ситников Д.Э. Моделирование аналитико-синтетической обработки каталогизатором текста документа // Вестн. Харьк. гос. политехн. ун-та. – Х., 1999. – Вып.43.– С. 82-91.
- Ситников Д.Э., Шаронова Н.В., Хайрова Н.Ф. Моделирование семантико-синтаксических отношений грамматических словосочетаний // Пробл. бионики. –Х., 1999. –Вып.50.– С. 179-184
- Шаронова Н.В., Хайрова Н.Ф. Направления совершенствования современных систем автоматического реферирования// Вестн. Херсон. гос. техн. ун-та.– Херсон, 1999.– N 1.– С.78-80.
- Шаронова Н.В., Хайрова Н.Ф. Построение модели базы знаний в автоматизированной информационно-библиотечной системе// Вестн. Херсон. гос. техн. ун-та. – Херсон, 1998.– N2 .–С.105-110
- Хайрова Н.Ф. Современные аспекты автоматического реферирования// Ученые записки Харьковского гуманитарного института "Народная украинская академия.– Х.: Око, 1997.– Т.3– С.364-373.
- Хайрова Н.Ф. Преподавание основных методов семантической обработки текстов в рамках курса "Машинный перевод" // Концепция приватного образования: принципы, содержание, проблемы реализации / М-во образования Украины; ХГИ “НУА”. – Х., 1998.– С.98-106.– Деп. В ХГТБ Украины 13.07.98, N 316 – Ук98.
- Хайрова Н.Ф. Грамматический анализ текста на естественном языке, как важнейший этап получения знаний из этого текста// Актуальні питання впровадження інформаційних технологій у документально-комунікаційній сфері: Прогр. та матеріали III міжнар. семінару (11-13 верес. 1996 р., Харків/ Асоц. сучас. інформ.-бібл. технологій та ін.– Х., 1996.– С.73-74.
- Хайрова Н.Ф. Требования, предъявляемые к современным автоматизированным информационно-библиотечным системам // Актуальные проблемы гуманитарных наук и их информационное обеспечение: Материалы IV Междунар. студ. науч. конф., Харьков, 26 апр. 1997.– Х., 1997.–С.38-39.
- Хайрова Н.Ф. Состояние программного обеспечения компьютерного перевода в общей системе подготовки референтов-переводчиков// Досвід і проблеми реалізації ступеневої системи підготовки фахівців: Зб. матеріалів III міжнар. наук.-метод. конф. , Суми, 8-11 верес. 1997 р. –Суми, 1997.– С.264.
- Шаронова Н.В., Хайрова Н.Ф. Системы автоматического реферирования текстов// Создание, интеграция, использование информационных ресурсов инновационного развития: Тез. докл. и сообщ. междунар. конф. Киев, 18-19 дек. 1997 г.– К., 1997.– С.173-175.
- Шаронова Н.В., Хайрова Н.Ф., Ситников Д.Э. Логико-алгебраическая модель автоматизированной классификации электронных документов// Теория и техника передачи, приема и обработки информации. Телекоммуникации. Радиотехника. Электроника: Сб.науч.тр. – Х., 1999.– С.451-453.
АНОТАЦІЯ
Хайрова Н.Ф. Розробка математичного і лінгвістичного забезпечення автоматизованих інформаційно-бібліотечних систем. – Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальнiстю 05.13.06 – автоматизовані системи управління та прогресивні ін-формаційні технології. – Харківський державний технічний університет радіо-електроніки, Харків, 2000.
Дисертація присвячена питанням розробки інформаційних технологій, які базуються на моделях та алгоритмах семантичної обробки документів автоматизованих інформаційно-бібліотечних систем (АІБС). У роботі вперше використаний метод компараторної ідентифікації для моделювання процедур аналітико-синтетичної обробки текстів документів. Введені дескрипторно-текстовий предикат; функції розуміння тексту і ключових термінів, які дозволили розробити алгоритми процесів систематизації і предметизації. Побудовані моделі обробки текстових повідомлень на графемному, морфологічному і семантико-синтаксичному рівнях роботи лінгвістичного процесора інформаційної системи. Створений програмний комплекс Texs, що являє собою підсистему систематизації і предметизації АІБС. Подана інформація про практичну реалізацію і ефективність розроблених методів і алгоритмів.
Ключові слова: інтелектуальна система, метод компараторної ідентифікації, семантичний аналіз, класифікація, інформаційні технології, автоматизовані бібліотечні системи.
SUMMARY
Khayrova N.F. Working out mathematical and linguistic maintenance of automated information-library systems. – Manuscript.
Thesis for a candidate’s degree by speciality 05.13.06 – automated control systems and progressive information technologies. – Kharkov state technical university of radioelectronics, Kharkov, 2000.
The present thesis is on working out models, algorithms and information techno-
logy of semantic processing documents of automate information-library systems (AILS). The method of comparative identification for modeling procedures of analytic-synthetic is processing the texts of documents. The notion of descriptive-text predicate is introduced as well as the notion of text and key terms understanding function, allowing to work out algorithms of systematization and objectization procedures. Models of processing text reports on the level of graphemes as well as on morphological semantic-syntactic levels of work of a linguistic processor of an information system are built. A program complex Texs representing a subsystem for systematization and objectization of AILS is created. Information about practical realization and efficiency of worked out models and algorithms is given.
Key words: intellectual system, comparative identification method, semantic analysis, classification, information technology, automate library systems.
АННОТАЦИЯ
Хайрова Н.Ф. Разработка математического и лингвистического обеспечения автоматизированных информационно-библиотечных систем. – Рукопись.
Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 – автоматизированные системы управления и новые информационные технологии. – Харьковский государственный технический университет радиоэлектроники, Харьков, 2000.
Диссертация посвящена вопросам разработки информационных технологий основанных на моделях и алгоритмах семантической обработки документов автоматизированных информационно-библиотечных систем (АИБС). Предлагаемые в работе разработки математического и лингвистического обеспечения АИБС основаны на формализации и моделировании интеллекта, проводящего аналитико-синтетическую обработку текстов и тесно связанную с ней предметно-тема-тическую ассоциацию в процессе организации тематического поиска. Для достижения данной цели предлагается формализовать задачу повышения релевантности и полноты выдаваемой библиотечной системой информации за счет разработки методики классификации, основывающейся на моделировании системы ассоциаций научных и технических понятий.
В работе используются модели и методы новых информационных технологий, базирующиеся на результатах, полученных при решении проблем искусственного интеллекта. Для организации узко-тематического поиска в информационных системах, работающих с полнотекстовыми базами данных, предлагается учитывать не только логическую связь терминов и понятий, но и аспекты естественного языка. Проведена структурно-функциональная классификация лингвистического обеспечения автоматизированной информационно-библиотечной системы. Разработана схема лингвистического процессора (ЛП), учитывающего особенности информационных сообщений, поступающих в АИБС.
В лингвистическом процессоре используются модели обработки текстовых сообщений на графемном, морфологическом и семантико-синтаксическом уровнях языка. Для повышения полноты и релевантности тематического поиска в работе используется дескрипторный язык с линейной (позиционно-скобочной) грамматикой, отражающей взаимное расположение лексических единиц и структурных фрагментов текста, определяемых на этапе графемного анализа.
На этапе контекстного анализа снимается часть языковой неоднозначности. Предлагаемый метод основан на математической модели, представляющей собой задачу выявления и математического описания закономерности образования связей между двумя рядом стоящими словоформами в предложении. Из бинарного семантико-синтаксического отношения, заданного на множестве рядом стоящих словоформ предложения, исключаются те морфологические структуры, которые не согласуются при данном типе грамматического подчинения .
Этап семантической обработки текста документа представлен рубрикатором, приписывающим входным единицам информации обозначения, адекватно отражающие их содержание. Для формализации процедур аналитико-синтетической обработки текстов документов, циркулирующих в АИБС, впервые использован метод компараторной идентификации. Использование данного метода позволило моделировать функции интеллекта по систематизации и предметизации документов библиотеки. Переходя от предиката интеллектуальной аналитико-синтетической обработки текста к дескрипторно-текстовому предикату, осуществляется переход от субъективного восприятия понятий и денотатов к объективному соответствию между текстом и ключевыми терминами. Введение дескрипторно-текстового предиката; функции понимания текста и функции понимания ключевых терминов, позволило разработать математическое обеспечение процедур каталогизации, систематизации и предметизации, непосредственно связанных с организацией тематического библиотечного поиска.
В работе приведено описание практической реализации положений диссертации в программном комплексе "Texs", разработанном автором по собственной модели, и представляющем собой динамичную, быстро настраиваемую на новую семантическую область и инвариантную к языку классифицируемых текстов подсистему предметизации и систематизации АИБС. Алгоритм работы системы Texs состоит из двух частей. Первая часть представляет собой этап обучения системы, на котором происходит автоматическое формирование рубрикатора, разбивающего семантического пространства данной предметной области на микро области: формирование формализованного образа рубрики. На втором этапе работы система использует эталоны, полученные на этапе обучения, для разделения анализируемых текстов документов полнотекстовой базы данных по микро темам (т.е. отнесение документов к определенной классификационной подрубрике). В работе дана оценка эффективности программного комплекса Texs. Практические результаты работы показали, что в коэффициент релевантности текстовой информации, выдаваемой системой, близок к 0,7.
Ключевые слова: интеллектуальная система, метод компараторной идентификации, семантический анализ, информационная технология, автоматизированные библиотечные системы.
|