|
Державний комітет зв’язку та інформатизації України
Національна академія наук України
Державний науково-дослідний інститут інформаційної інфраструктури
Сабат Володимир Іванович
УДК 004.451.36:681.5:002
інформаційні технології семантичного захисту інформації в СИСТЕМАХ ДОКУМЕНТООБІГУ
Спеціальність 05.13.06 — автоматизовані системи управління
та прогресивні інформаційні технології
АВТОРЕФЕРАТ
дисертації на здобуття наукового ступеня
кандидата технічних наук
Львів — 2005
Дисертацією є рукопис
Робота виконана в Українській академії друкарства Міністерства освіти
і науки України та у Державному науково-дослідному інституті інформаційної інфраструктури Державного комітету зв’язку та інформатизації України і НАН України
Науковий керівник:
доктор технічних наук, професор
Дурняк Богдан Васильович,
Українська академія друкарства, м. Львів, ректор
Офіційні опоненти:
доктор технічних наук, професор,
Коростіль Юрій Мирославович,
Інститут проблем моделювання в енергетиці НАН України, м. Київ,
завідувач відділом
доктор технічних наук, професор
Тимченко Олександр Володимирович,
Національний університет „Львівська політехніка”,
професор кафедри „Телекомунікацій”
Провідна установа:
Харківський національний університет радіоелектроніки Міністерства освіти і науки України, м. Харків.
Захист відбудеться “29” червня 2005 р. о 14:00 год. на засіданні спеціалізованої вченої ради Д 35.813.01 при Державному науково-дослідному інституті інформаційної інфраструктури (79601, м. Львів, вул. Тролейбусна, 11).
З дисертацією можна ознайомитись у бібліотеці Державного НДІ інформаційної інфраструктури (79601, м. Львів, вул. Тролейбусна, 11).
Автореферат розіслано “27” травня 2005 р.
Вчений секретар
Спеціалізованої вченої ради,
кандидат технічних наук Пеленський О. Л.
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. Автоматизація управління процесами проектування та використання документів в наш час інтенсивно розвивається у зв’язку із широким запровадженням електронного документообігу та визнанням цифрових підписів як таких, що мають юридичну силу. В традиційних системах документообігу компоненти використання документів виносяться за рамки системи, а сама система документообігу розглядається як формальний засіб для проектування документів та для ведення їх обліку. Таке звуження функціональних можливостей приводить до погіршення контролю за документами і зниження їх ефективності. Електронні документи, на відміну від паперових, є більш вразливими на різноманітні спотворення тому, що вони використовують існуюче мережне комп’ютерне середовище, яке не гарантує необхідної безпеки передавання та зберігання документів і відповідного захисту від атак.
У зв’язку з тим в дисертації обґрунтовано можливість розроблення інформаційних технологій семантичного захисту інформації у структурі автоматизованої системи електронного документообігу, до складу якої входять не тільки засоби проектування, але й підрозділи використання документів, пов’язані між собою як прямими, так і зворотними зв’язками.
Аналіз літературних джерел показує, що значний внесок у розроблення та визначення теоретичних засад семіотики, семантики та логіки моделей документів заклали А. Тарський, Я. Лукасевич, А. Мальцев, К. Гедель, Г. Рузавин. Базові концепції захисту інформації в каналах зв’язку та теорії кодування обґрунтував у своїх працях К. Шенон. Під керівництвом В. М. Глушкова виконано фундаментальні роботи з побудови автоматизованих систем управління електронним документообігом. Ч. Мідоу, Є. Д. Смірнова, Н. М. Соломатін та І. В. Івлєв визначили семантичні концепції створення систем електронного документообігу, а М. Ш. Цаленко розвинув дослідження проблеми моделювання семантики в базах даних. Проблему захисту інформації в корпоративних системах досліджували В. В. Домарєв, В. С. Борсуков, С. В. Клименко та А. В. Чечкін. Основні концепції інформаційних технологій для створення баз даних, експертних систем з врахуванням проблем їх захисту сформовані під керівництвом В. І. Скуріхіна.
Разом з тим, для успішного функціонування автоматизованих систем документообігу важливим є забезпечення захисту документів і в першу чергу — інформації, яка міститься в них. Якщо мова йде про захист інформації, то визначальним фактором захисту документів є захист їх змісту. Спотворення змісту документу з метою здійснення несанкціонованого впливу на об’єкт управління, є значно більшою загрозою, ніж втрата документу чи несанкціоноване його розкриття. Тому семантичний контроль документів в автоматизованій системі документообігу з метою їх захисту є актуальною задачею, розв’язання якої сприятиме підвищенню ефективності управління виробництвом і використанням документів у різних галузях.
Зв’язок роботи з науковими програмами, планами, темами. Основні результати роботи отримано протягом 1998-2002 р. при виконанні проекту ПТ УАД „Створення теоретичних засад програмного та комп’ютерного забезпечення для захисту електронного документообігу в класах-лабораторіях комп’ютерної техніки Поліграфічного технікуму УАД”, а також при виконанні господарської угоди між Українською академією друкарства і державним підприємством Поліграфічний комбінат „Україна” №204 від 30.08.2003 р. на тему „Розробка базових компонентів інформаційної технології захисту зображень, бланків і цінних паперів на основі нейромереж” (розроблення системи семантичного захисту інформації).
Мета і задачі дослідження. Метою роботи є створення нових інформаційних технологій захисту документів на основі контролю їх семантики для автоматизованої системи управління документообігом, що включає підсистему виробництва документів та підсистему використання документів.
Для досягнення мети, вирішено такі задачі:
- розроблення та обґрунтування методів визначення міри семантичної значущості окремих компонент тексту документу;
- сформування понять про семантичну значущість і семантичну суперечність слів у контексті фраз документа та розроблення методів їх визначення;
- побудова моделі загроз, що існують в системі документообігу;
- розроблення методу семантичного аналізу з використанням засобів математичної логіки та формальних граматик;
- розроблення структури автоматизованої системи документообігу, в якій реалізований семантичний контроль документів.
Об’єктом дослідження є автоматизовані системи управління документообігом.
Предметом дослідження є методи захисту документів на основі семантичного аналізу тексту документа.
Методи дослідження. В дисертаційній роботі використані методи математичної логіки для розроблення алгоритмів побудови моделей загроз, методи формальних граматик для означень правил узгодження слів і фраз в документах та методи комп’ютерного моделювання для реалізації нових інформаційних технологій семантичного захисту інформації.
Наукова новизна роботи полягає в тому, що:
- розроблено метод побудови семантичного словника для автоматизованої системи документообігу, який ґрунтується на присвоєнні кожному слову документа інтерпретаційного розширення з базової предметної області інтерпретації і дає можливість визначати величини семантичної значущості окремих слів у текстах документів;
- вперше обґрунтовано і запроваджено поняття про семантичну несуперечність та про семантичну повноту речень тексту документів з використанням семантичного словника і визначенням семантичної значущості слів в контексті фраз документа, що забезпечує можливість побудови семантичних аналізаторів для автоматизованих систем документообігу;
- запроваджено характеристики семантичних властивостей фрагментів тексту документа (семантичну значущість слів та фраз; міру семантичної суперечності між компонентами, або фрагментами документа; семантичну узгодженість між окремими фразами; рівень таємності, міру безпосередньої доступності і період актуальності документа), які забезпечують можливість визначити наявні в них семантичні загрози;
- розроблено математичні моделі семантичних загроз, які існують в автоматизованій системі документообігу, з контролем і врахуванням змін величин семантичних параметрів, що дає можливість визначати тип загрози, обчислювати поточні значення її величини і розв’язувати задачу оперативного управління необхідним рівнем захисту документів;
- розроблено нові методи реалізації інформаційних технологій для автоматизованих систем документообігу з використанням компонент захисту документів на основі семантичного аналізу, контролю та корекції інформації, що гарантує необхідну протидію семантичним небезпекам.
Практичне значення одержаних результатів. Обґрунтовано і розроблено інформаційні технології автоматизованої системи документообігу, яка включає підсистеми проектування та використання документів, компоненти семантичного захисту інформації, що міститься в документах, і дає можливість здійснення контролю за використанням документів згідно з визначеною метою щодо їх створення.
Розроблені алгоритми загальної організації роботи системи семантичного захисту документів на основі семантичного аналізу їх, дають можливість реалізувати програмні засоби семантичного аналізу та захисту документів, а розроблені алгоритми семантичного контролю окремих компонент тексту документів та документів у цілому, дають можливість виявляти семантичні суперечності в автоматизованих системах документообігу, визначати величини семантичних загроз і коригувати інформацію в документах для подолання небезпек несанкціонованого доступу.
Реалізація і впровадження результатів роботи. На основі розробленої архітектури автоматизованої системи документообігу реалізовано програмні компоненти засобів семантичного аналізу та контролю документів, завдяки яким вирішуються задачі семантичного захисту документів.
Теоретичні і практичні результати дисертації використано при розробленні програмного і апаратного забезпечення, яке впроваджено:
- у науково-дослідній роботі при розробленні базових компонентів інформаційної технології семантичного захисту інформації в Українській академії друкарства;
- у структурі спеціалізованого комп’ютерного кабінету в Поліграфічному технікумі Української академії друкарства;
- у навчальному процесі в Українській академії друкарства при підготовці фахівців з спеціальності „Технологія електронних мультимедійних видань”.
Особистий внесок здобувача. Всі основні результати, що складають зміст дисертаційної роботи, отримані самостійно. У публікаціях, написаних у співавторстві, здобувачеві належить: [3] — розроблення методу реалізації семантичного аналізу, [5] — визначення основних небезпек в системах автоматизованого документообігу, [8] — спосіб побудови моделей систем захисту, [10] — архітектура структури системи документообігу, [12] — моделі семантичних загроз.
Апробація результатів роботи. Основні наукові результати та положення дисертаційної роботи представлялися, доповідалися та обговорювалися на національних та міжнародних конференціях: XXІIІ наук.-тех. конф. “Моделювання” в Інституті проблем моделювання в енергетиці ім. Г. Е. Пухова (м. Київ, 2004 р.), наук.-практ. конф. „Сучасні проблеми телекомунікацій — 2004” (Національний університет „Львівська політехніка”, Львів, 2004 р.), наук.-метод. конф. „Підготовка фахівців в галузі телекомунікацій і Болонський процес” (Національний університет „Львівська політехніка”, Львів, 2004 р.), міжнародна конф. „Інформаційні технології друкарства” (Українська академія друкарства, Львів, 2004 р.), міжнародна наук.-практ. конф. „Інформаційні технології в сучасній економіці, менеджменті та освіті” (м. Львів, 2005 р.).
Публікації. Основний зміст дисертаційної роботи викладено у 15 наукових працях, серед яких 12 статей у фахових наукових виданнях України та 3 статті у працях наукових конференцій.
Структура та обсяг дисертації. Дисертаційна робота складається з вступу, чотирьох розділів, висновків, списку використаних джерел (114 найменувань) та додатку з актами впровадження. Обсяг дисертації складає 153 стор. друкованого тексту, з них основного тексту — 142 стор.
ОСНОВНИЙ ЗМІСТ РОБОТИ
У вступі обґрунтовано актуальність теми дисертаційної роботи, сформульовано мету та основні вирішені задачі, наукову новизну, практичну значущість, подано короткі анотації розділів дисертації.
У першому розділі наведено результати аналізу проблеми створення автоматизованих систем документообігу (АСДО) та захисту документів.
АСДО були першими системами, що створювались у структурах автоматизованих систем управління підприємствами. Структура АСДО містить сукупність цілого ряду засобів, які забезпечують різні аспекти її функціонування. До основних підсистем, що реалізують функціональні можливості АСДО, можна віднести такі: проектування, контроль, використання, захист, база даних документів і технічні засоби реалізації системи.
До документів у системі документообігу віднесено тексти, які мають певну функціональну орієнтацію і відповідають таким умовам та обмеженням: текстовий документ призначається для здійснення управління соціальними об’єктами, або соціальними процесами; кожний документ повинен відповідати певним вимогам, які визначають його форму та допустимий зміст, що відображається в текстовій формі; спроектований і випущений документ в рамках АСДО повинен мати час існування, на протязі якого відповідний документ може використовуватися; кожний документ повинен мати параметри, які регулюють спосіб його функціонування в АСДО. Сучасну систему документообігу розглядають з точки зору проектування документів, створення засобів обліку і контролю за документами. Ця обставина підтверджує важливість для АСДО реалізації взаємозв’язку між проектуванням документу і його використанням.
Другою характерною особливістю сучасних систем АСДО є те, що функціонування такої системи розглядається тільки в межах однієї організації. Захист документів в АСДО є однією з ключових функцій, які повинні реалізуватися в системі. Систему документообігу, в цілому, слід розглядати, як систему, в якій поєднується підсистема автоматизації проектування документів та підсистема контролю всіх етапів існування та функціонування документів. Першим етапом або технологічним процесом, який аналізується з точки зору контролю документів, є процес проектування документів. На цьому етапі можуть виконуватися такі функції: контроль засобів проектування, контроль типу запроектованого документа, контроль коректності документа, контроль термінів проектування документа та загальний контроль документа.
Іншою важливою підсистемою в системі документообігу є підсистема захисту документів, у якій реалізуються різні типи засобів захисту, орієнтовані на роботу в довільних фрагментах технологічного процесу АСДО. До таких засобів захисту можна віднести: захист документів у процесі їх проектування, захист документів на етапі їх функціонування і захист документів при їх зберіганні.
Засоби захисту розробляються на основі існуючих чи можливих загроз. На етапі проектування документа можуть існувати такі загрози: заміна суті опису управляючої дії; зміна значень параметрів документа; несанкціоноване створення документа; впровадження в документ компонент або фрагментів, які повністю або частково суперечать початковій меті проектування документів; використання несертифікованих засобів для проектування документів; зміна технологічних етапів проектування документа.
Кожний окремий елемент засобів захисту функціонує таким чином: розпізнає дію атаки на документ чи на АСДО в цілому; здійснює протидію атаці, або нейтралізує її дію; формує елементи, які постійно знаходяться в технологічному циклі і завдяки яким успішне втручання в документ відповідною атакою стає неможливим, або модифікує компоненти технологічного процесу таким чином, щоб реалізація уже розпізнаної атаки при її повторенні була неможливою.
Для опису семантики мов програмування існують три основні підходи: операційний, аксіоматичний та узагальнений.
Операційний підхід реалізується в термінах певної абстрактної машини і використовується при створенні базового інтерпретатора відповідної мови, наприклад, семантика умовного виразу може бути записана в такий спосіб:
IF в THEN e1 ELSE e2.
Виходячи з робіт Р. Флойда та Й. А. Хоара, можна розглядати слабкі операторні формули p{S}q, де p — логічний вираз, що описує передумови виконання оператора S, а q — логічний вираз, що описує умову результату виконання оператора S. Семантика такої операторної формули полягає у наступному. Якщо виконання оператора S почалось зі стану щ, який задовольняє умову p, і завершилось станом н, то останній задовольняє умову q, що записується у вигляді:
.
Крім слабких операторних формул, розглядаються сильні операторні формули p[S], де p, S і q мають ту ж саму інтерпретацію. Якщо оператор почав виконуватися із стану щ, який задовольняє оператор p, то його виконання обов’язково завершиться і довільний отриманий результат н буде задовольняти умову q.
У теоретичних дослідженнях, проведених з формальними мовами, на рівні з іншими проблемами, також розглядається аналіз семантики мов програмування. При цьому семантика зіставляється не з самими словами, а з деревами їх виводу. Один із методів визначення семантичної функції фрази полягає в однозначному визначенні значення цієї функції з підфраз першого рівня. Формально фразу X подано як синтаксичне об’єднання власних підфраз першого рівня у вигляді:
X = ц(y1,…, ym) = u1 y1,…, umynum+1,
де u1,…,um+1 — довільні термінальні послідовності підфраз y1,…, ym.
Обмеження на семантичну функцію названі принципом гомоморфної інтерпретації, а визначення семантики фрази через семантику її підфраз першого рівня — семантичними правилами. Вказані правила і методи дослідження семантики формальних мов є підставою для побудови семантичного аналізу систем документообігу.
У другому розділі викладено теоретичні основи побудови семантичних аналізаторів для аналізу документів у автоматизованій системі документообігу. Основою будь-якого семантичного аналізу є: наявність системи інтерпретації та правил її використання; гомоморфізм між правилами використання системи інтерпретації та правилами побудови документів, які передбачено інтерпретувати; семантична несуперечність системи документів і системи інтерпретації.
Складовими частинами системи інтерпретації є такі компоненти: семантичний словник системи документів Sc; семантичне середовище G(Sc); система правил використання семантичного середовища.
Структура семантичного словника представлена у вигляді ієрархічного дерева, яке аналітично записується таким чином:
,
де Sik — множина ключових слів xik,j; Sjz — множина контекстно обумовлюючих слів xjz,i; Sjz(zi) — множини з різним рівнем семантичної значущості слів, які розміщаються у словнику Sc. Кількість слів, що реалізують інтерпретацію I(xi), складає не тільки кількість слів одного рядка інтерпретації, а й сумується з кількістю слів інтерпретаційного розширення I(xik) для слова xik з словника Sc. Це записується за допомогою співвідношення:
,
де р – функція перерахунку кількості елементів інтерпретаційного опису xi; xki – слова інтерпретаційного опису слова x*ik, яке має в рамках словника Sc власну інтерпретацію I(xi); р(xik1) = р(xik2) = … = р(xikm) – величини семантичної значущості слова xi(ki) у множині Sik, які задаються певним інтервалом числових величин, або р[xi(ki)] = [m, n]. Для множин Siz також задаються діапазони значень р(xiz), які визначають приналежність кожного з xiz до тієї чи іншої множини Siz.
В загальному вигляді така структура семантичного словника записується співвідношенням:
,
де „⊕” — символ виключаючої функції диз’юнкції.
Предметна область інтерпретації Q — це, в найпростішому вигляді, список множини елементів, які відображають усе, що на поточний момент відомо про неї. Якщо в рамках Q передбачається формувати новий об’єкт, або досліджувати нові процеси, які не мають абсолютного відображення в Q, то виникає необхідність у використанні процесів формування нової інтерпретації. Кожному елементу xi нового досліджуваного об’єкту приписується, або визначається його семантика за допомогою інтерпретаційного перетворення I(Q). Якщо компоненти нового об’єкту описуються як xi з Sc, то S(xi) = I(qi,…, qim), де qi ∈ Q — елементи, які визначаються у вигляді текстових описів через {qi,…, qi+k} ⊂ Q і qi ∉ {qi,…, qi+k}. У випадку середовищ, поданих в текстовій формі природної мови, у ролі функції I найчастіше використовується синтез функцій вибору і конкатенації, хоча можуть застосовуватись й інші функціональні перетворення.
Семантична значущість для слова xi в складі виразу нi завжди менша від персональної семантичної значущості xi з семантичного словника Sc. У документі di для кожного слова xi ведуть такі підрахунки величини значень семантичної значущості р(xi): всі речення розбивають на вирази нi у відповідності з прийнятою в Sc структурою V = {н1,…, нm}, а для кожного виразу його семантичну значущість р(vi) визначають за співвідношенням:

де рj(xi, vj) — семантична значущість слова xi в контексті виразу vj.
Семантичною суперечністю μ, для кожної конкретної позиції тексту, названо величину виходу функції, що відображає залежність р(vi), за верхню межу функції, яка відображає залежність р(xi) у відповідній позиції тексту.
Величину суперечності в заданій позиції тексту визначено співвідношенням:
μi = рi(vi) – рi(vi).
Для побудови моделей семантичного аналізу документів введено параметри, що відображають аспекти, пов’язані з захистом документів. Найпоширенішим у системах захисту є параметр, який характеризує міру таємності документа Pt. Другий параметр характеризує міру безпосередньої доступності документа Pd. Третій, важливий параметр, який характеризує документ і який використовують в задачах захисту документів, є час актуальності документа Pa. Серед осіб, які проводять аналіз дії документів, можуть бути й особи, яким заборонений доступ до інформації в конкретних документах.
У цьому випадку виникають такі задачі, що пов’язані із забезпеченням захисту інформації, або захисту документа:
- визначення швидкості зниження рівня таємності інформації в документі за період її використання для управління;
- визначення способу вимірювання величини таємності інформації як неперервної змінної та узгодження цієї величини з системами визначення міри таємності, що є по своїй суті дискретними і використовуються практично в установах, які проектують документи.
Швидкість зміни рівня таємності документа описано залежністю V[Pt(di)] = αRτ / Δt, де R — кількість параметрів, які формують зміни в об’єкті управління; — одиниця часу, наприклад один день; Δt = t2 – t1, де t2 — момент часу виникнення змін в об’єкті, t1 — дата видачі документа, α — коефіцієнт пропорційності.
Вищевказані параметри використано для семантичного аналізу тексту документа і для формування моделей відповідних семантичних загроз.
В третьому розділі досліджено особливості захисту інформації у системах автоматизованого документообігу. Для цього введено і розглянуто такі означення та правила.
Означення 1. Фразою Si названо таку сукупність слів x1,…, xm, яка побудована у відповідності з синтаксисом мови См, якою проектується документ і для якої справедливе співвідношення:
.
Означення 2. Слово x*i названо порожнім, якщо воно не має інтерпретаційного розширення у семантичному словнику.
Правило 1. Якщо у фразі використано кілька слів одного граматичного класу, то розміщені першими у фразі слова, що належать даному класу, мають найвищий пріоритет при їх семантичній оцінці і, відповідно, найвищу семантичну значущість щодо інших слів цього класу.
Це правило названо правилом пріоритетів і формально записане у вигляді:
,
де γi — ідентифікатор граматичного класу, до якого віднесено слова xi і xj. Знак „→” означає порядок розміщення слів xi і xj в межах фрази Si. У цьому випадку функція fi описує різні схеми розміщення слів одного класу у фразах, які мають завдяки цим розміщенням різні семантичні значущості.
Правило 2. Серед можливих схем розміщення двох слів xi(γi) і xj(γj) у фразі Si вибрано ту схему, яка забезпечує максимальне семантичне узгодження між схемами розміщення xi(γi) → xj(γj), xj(γj) → xi(γi) і префіксом та суфіксом фрази.
Правило 3. Якщо фраза Si регулярно використовується при проектуванні документа di, то для слів x1,…,xk, що належать одному граматичному класу (γi), формується маска mi(Si), яка визначає розміщення кожного слова у фразі Si.
Означення 3. Міра семантичної узгодженості η визначається довжиною секвенційного дерева ξi, що зв’язує два фрагменти, між якими встановлюється семантична узгодженість.
Величину семантичної узгодженості записано у вигляді формули:

де ξi — секвенція з системи Σ, яка зв’язує перехід між φj і φk, що описують поточні фрагменти, між якими встановлена семантична узгодженість, або ξi : φj (Si) → φk (Sj); ψ(Si), ψ(Sj) — функції, що описують фрагменти текстів Si і Sj, відповідно.
До базових параметрів, які визначають семантику документа, віднесено: семантичну значущість слів, фраз, або інших фрагментів документа; міру семантичної суперечності між компонентами, або фрагментами документа; семантичну узгодженість між окремими фразами документа; рівень таємності документа; міру безпосередньої доступності документа; період актуальності документа; швидкість зміни рівня захищеності документа.
Функціональна схема системи документообігу наведена на рис. 1.
На рис. 1 використано позначення: СВД — система виробництва документа; ВМД — визначення мети документа, ФСД — формування структури документа, ЗД — заповнення документа, КСД — контроль семантики документа, ІП — ідентифікатор помилки, КД — корекція документа, ПДВ — підготовка документа до видачі користувачеві, ТД — транспортування документа, СКД — система використання документа; ВД — використання документа, АД — архівація документа, ФЗЗ — формування зворотного зв’язку.

Рис. 1. Блок-схема системи документообігу
Для дослідження небезпек, що існують по відношенню до документа, сформовано модель документа, яку описано у вигляді систем співвідношень, кожна з яких відповідає певному рівню ієрархії структури документа .
Співвідношення для фраз записано у вигляді:
S1 = (x11 * x12 * … * x1m); …; Si = (xi1 * xi2 * … * xik); …; Sn = (xn1 * xn2 * … * xnn),
де xij — окремі слова, що складають фразу Si; * — знак конкатенації між окремими словами фрази Si. На другому ієрархічному рівні структури di описуються співвідношеннями, що складають окремі речення, які формально подано у вигляді:
h1 = (S11 * xi * S12 * … * xj * S1m),…, hi = (Si1 * Si2 * … Sik),…
…,hm = (Sm1 * Sm2 * xi * xk * … * Smm)
де Sij — окрема фраза речення hi. На третьому рівні ієрархії документ di описано елементами його структури або абзацами qi. Сукупність таких співвідношень виражено у формі:
q1 = (h11 * … h1k),…, qn = (hn1 * … hnm).
Слова xi і xj вживаються у фразі Si разом тільки в тому випадку, коли вони мають спільні фрагменти семантичного розширення.
Означення 4. Контекстно залежна інтерпретація I(xi, xj) слова xj від слова xi, яке є контекстом фрази Si, визначається кількістю спільних компонент в інтерпретаційних розширеннях слів xi і xj, використаних у фразі у вигляді xi → xj.
Вираз для загрози, яку може використати небезпека семантичної суперечності:
Z(μ) = φi[δ(I)],
де φi — функція, що залежить від величини δ(I), яка вказує на різницю інтерпретації слова з семантичного словника I(xi) та інтерпретації слова в контексті фрази I(xi, vi), або δ(I) = I(xi) – I(xi, vi). Необхідність використання функції φi[δ(I)] обумовлюється тим, що відхилення між семантичним значенням слова xi і семантичним значенням цього ж слова в межах фрази Si залежить також від синтаксичних правил побудови фраз.
Загроза небезпеки виникнення конфлікту записується у вигляді співвідношення:
Z(k) = {φi[I(Si) – I(Si, Sj)],
де I(Si) — інтерпретація фрази Si; I(Si, Sj) — контекстно залежна інтерпретація фрази Si від контексту, який в даному випадку складається з фрази Sj. Загроза конфлікту Z(k) тим імовірніша, чим менша δ[(Si, Sj)], або чим менша семантична різниця між двома вибраними фразами Si і Sj. Відсутність семантичної різниці між Si і Sj визначається мірою близькості інтерпретації фрази Si та Sj у предметній області W. Тому загрозу виникнення конфлікту визначено шляхом уточнення інтерпретації фраз I(Si), яке полягає у виділенні у фразі Si і Sj кількості слів, які мають одинакові граматичні ознаки qi, що відповідають групі слів, які є, наприклад, дієсловами. Тоді:
Zi(k) = α/{φ*i[I(Si)] – φ*j(Sj)]},
де φ*i і φ*j — функції підрахунку кількості дієслів і визначення їх інтерпретацій через пов’язані з ними словами у фразах Si і Sj. Якщо I(xi(q)) = xid, то співвідношення для Z(k) уточнюється:
,
де — сума величин інтерпретації дієслів у фразі Si; — сума величин інтерпретації дієслів у фразі Sj; (xid = xjd) — дві інтерпретації дієслова з фрази Si і Sj, які рівні між собою.
Вираз для визначення величини синтаксичної суперечності подано як величину відповідного типу загрози і описано як:

де перша сума відповідає всім елементам синтаксичних схем γi, що використані в документі di; друга — всім елементам базових схем граматики CM, які не виводяться в CM; третя — всім елементам вивідних схем γi. Таким чином, залишаються тільки недопустимі компоненти схем γi з di, які не є базовими і не виводяться з системи схем синтаксичних правил.
На основі сформульованих правил та означень для побудови фрагментів тексту і визначення семантичної значущості окремих текстових компонент розроблено моделі загроз конфліктів, семантичної і синтаксичної суперечностей. Величини вказаних загроз в системі документообігу адекватно визначаються при проведенні семантичного аналізу документа через контроль його власних семантичних параметрів.
В четвертому розділі сформовано моделі загроз, досліджено методи захисту та розглянуто загальну організацію роботи системи захисту документів на основі семантичного аналізу.
Величина загрози зміни міри актуальності документа Z(a) прямо пропорційна кількості функціонально значимих фрагментів hi у фразах Si, що визначається як та інтервалу часу, через який передається інформація про поточний стан документа Δτi:

де , α, β — коефіцієнти пропорційності. Функції fi для кожної окремої W описуються в словнику Sc.
Загрозу зміни рівня таємності документа Z(t) визначено як міру відхилення інтерпретації фраз Si і документа в цілому при використанні опису предметної області в межах Wi від інтерпретації, що використовує найповніший опис W:

Загроза зміни швидкості рівня захисту документа Z(v) описується на основі аналізу різниці між відношенням всіх даних документа I(d) до величини реальної зміни в процесі управління об’єктом і відношенням всіх даних документа до величини змін в цьому ж процесі, які повинні відбутися у випадку відсутності протидії. Або це можна записати у наступній формі:

де I(d) — повна інформація, що міститься в документі; ΔQr — величина змін в процесі управління об’єктом, яка обумовлюється даними I(d) з документа; ΔQr* =ΔQr – δQp, δQp — величина протидії змінам, які здійснюються за рахунок несанкціонованого отримання інформації з документа.
Загрозу розбіжності мети документа з результатами управління Z(u) визначено таким чином:
Z(u) = |I(d) – I(Q)|,
де I(d) — інтерпретація документа; I(Q) — інтерпретація результатів управління об’єктом.
В роботі сформовано методи розрахунку величини значень наведених вище загроз, завдяки чому стає можливим визначати необхідний рівень захисту, який є адекватним реальним небезпекам. Розрахунок всіх загроз базується на запровадженому понятті про семантичну значущість слів, фраз, речень та цілих фрагментів тексту документу. Також розроблено функціональні блок-схеми окремих підсистем, що безпосередньо призначені для розв’язування задач захисту.
На рис. 2 наведено блок-схему системи захисту, де використано позначення: МЗ — моделі загроз, РРБ — розрахунок рівня безпеки, РВЗ — розрахунок величини загрози, АІА — архів історії атак, ПВА — протидія виявленій атаці, ВЗ — поточне значення величини загрози, ДВЗ — допустиме значення величини загрози, КД — документ, який підлягає контролю, Вих.Д — вихідний документ.

Рис. 2. Блок-схема системи захисту
Функціональну блок-схему підсистеми визначення мети документа подано на рис. 3.

Рис. 3. Блок-схема визначення мети
На блок-схемі рис. 3 скорочення: АД — блок аналізу даних, що поступають по каналах зворотного зв’язку, ММ — блок модифікації мети, при розбіжності між метою і результатом управління об’єктом, ФМ — формування мети при ініціації проектування документу ІПД, ФПД — формування плану документу, ФСД — формування схеми документу підсистемою виготовлення документів, АЗРТ — аналіз зміни рівня таємності, ФПМЗ — формування параметрів моделі загрози Z(t), МД — модифікація документу, СЗД — система захисту документу, АДД — архів документів системи АСДО.
Обґрунтовано і розроблено блок-схему системи семантичного захисту документів та проаналізовано функціонування її в реальних інформаційних мережних комп’ютерних системах. На основі розроблених блок-схем, моделей загроз та запроваджених семантичних параметрів реалізовано програмні засоби семантичного аналізу та захисту документів.
Основні результати та ВИСНОВКИ
В дисертаційній роботі розв’язано актуальну наукову задачу розроблення нової інформаційної технології захисту документів в автоматизованій системі документообігу на основі семантичного аналізу їх змісту. При цьому отримано такі результати:
- Розроблено новий метод визначення величини семантичної значущості окремих слів та фраз на основі підрахунку їх інтерпретаційних розширень, що дає можливість обчислювати кількісні величини значень семантичних параметрів у процесі семантичного аналізу.
- Запроваджено нові семантичні параметри системи документообігу (семантичну значущість слів та фраз; міру семантичної суперечності між компонентами або фрагментами документа; семантичну узгодженість між окремими фразами; рівень таємності; міру безпосередньої доступності; термін актуальності документа), які описують семантичні особливості текстів документів і забезпечують можливість визначати наявні в них семантичні загрози.
- Розроблено методи виявлення семантичної суперечності та конфліктних ситуацій, шляхом визначення семантичної значущості слів семантичного словника в контексті фраз документа, які дають можливість визначити рівень відповідних загроз і несанкціонованих змін семантичного значення текстів документів.
- Вперше розроблено математичні моделі загроз, з використанням семантики документів (семантичної суперечності, небезпеки виникнення конфлікту, небезпеки виникнення синтаксичної суперечності, зміни міри актуальності, рівня таємності, швидкості рівня захисту документів та розбіжності мети документа з результатами управління), які використовуються у випадку виникнення відповідних небезпек здійснення атак на документи.
- Розроблено нові методи захисту документів, що ґрунтуються на аналізі їх семантики засобами математичної логіки і які покладено в основу алгоритму управління документообігом.
- Розроблено нову архітектуру реалізації системи документообігу, в якій передбачається зворотний зв’язок між проектантами та користувачами документів, що дає можливість охопити семантичним контролем документи на всіх стадіях їх існування.
Результати впроваджено у систему організації автоматизованого управління документообігом Української академії друкарства та Поліграфічного технікуму УАД, де вони реалізовані у вигляді АСДО.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
- Сабат В. І. Математичні моделі спеціалізованих семантичних аналізаторів // Моделювання та інформаційні технології. Зб. наук. праць. – Вип. 21. – 2003. – С. 195-203.
- Сабат В. І. Логічні методи формального опису семантичного аналізу текстів // Зб. наук. праць ІПМЕ ім. Г. Є. Пухова НАН України. – Вип. 20. – 2003. – С. 113-121.
- Дурняк Б. В., Сабат В. І. Моделі семантичного аналізу з використанням формальних граматик // Зб. наук. праць ІПМЕ ім. Г. Є. Пухова НАН України. – Вип. 21. – 2003. – С. 173-180.
- Сабат В. І. Теоретичні особливості захисту інформації на основі використання її семантики // Моделювання та інформаційні технології. Зб. наук. праць. – Вип. 22. – 2003. – С. 97-105.
- Дурняк Б. В., Сабат В. І. Основні небезпеки в системах автоматизованого документообігу // Моделювання та інформаційні технології. Зб. наук. праць. – Вип. 23. – 2003. – С. 121-128.
- Сабат В. І. Принципи роботи семантичних аналізаторів і використання їх можливостей при розв’язку задач захисту документів // Зб. наук. праць ІПМЕ ім. Г. Є. Пухова НАН України. – Вип. 22. – 2003. – С. 142-151.
- Сабат В. І. Моделювання семантики загроз документів // Зб. наук. праць ІПМЕ ім. Г. Є. Пухова НАН України. Вип. 23. – 2003. – С. 139-147.
- Дурняк Б. В., Сабат В. І. Моделі системи захисту документів. Моделювання та інформаційні технології // Зб. наук. праць ІПМЕ ім. Г. Є. Пухова НАН України. – Вип. 25. – 2003. – С. 113-121.
- Сабат В. І. Реалізація моделі захисту документів на основі семантичного аналізу // Зб. наук. праць ІПМЕ ім. Г. Є. Пухова НАН України. – Вип. 24. –2004. – С. 96-147.
- Дурняк Б. В., Сабат В. І. Способи організації систем автоматизованого документообігу // Інформаційні технології і системи. – Т. 7, №1. – 2004. – С. 59-63.
- Сабат В. І. Методи захисту документів в системах документообігу // Комп’ютерні технології друкарства. – №12. – 2004. – С. 297-305.
- Сабат В. І., Дурняк Б. В. Моделі загроз в системі докуметообороту, що ґрунтуються на основі семантики документів // Квалілогія книги. – Вип. 7. – 2004. – С. 15-24.
- Сабат В. І. Методи визначення загроз в системі документообігу на основі аналізу семантики документів / XXIII наук.-техн. конф. „Моделювання”. Тези доп. ІПМЕ ім. Г. Є. Пухова НАН України, К., 2004. – С. 40-41.
- Сабат В. І. Захист систем автоматизованого документообігу / Наук.-практ. конф. „Сучасні проблеми телекомунікацій — 2004”. – Матер. конф. Національний університет „Львівська політехніка”, Львів, 2004. – С. 35-36.
- Сабат В. І. Семантичний аналіз в автоматизованих системах документообігу / Наук.-метод. конф. „Підготовка фахівців в галузі телекомунікацій і Болонський процес”. Матер. конф. Національний університет „Львівська політехніка”, Львів, 2004. – С. 35-36.
|