Электронная библиотека Веда
Цели библиотеки
Скачать бесплатно
Доставка литературы
Доставка диссертаций
Размещение литературы
Контактные данные
Я ищу:
Библиотечный каталог российских и украинских диссертаций

Вы находитесь:
Диссертационные работы России
Технические науки
Информатика, вычислительная техника и автоматизация

Диссертационная работа:

Ильин Алексей Андреевич. Автоматизированная технология проектирования модели данных и контроля качества данных при построении информационно-аналитических систем : диссертация ... кандидата технических наук : 05.25.05 / Ильин Алексей Андреевич; [Место защиты: Тамб. гос. техн. ун-т]. - Тамбов, 2008. - 136 с. : ил. РГБ ОД, 61:08-5/184

смотреть содержание
смотреть введение
Содержание к работе:

ВВЕДЕНИЕ 4

ГЛАВА 1 ЗАДАЧА ПРОЕКТИРОВАНИЯ МОДЕЛИ ДАННЫХ И КОНТРОЛЯ КАЧЕСТВА ДАННЫХ ПРИ ПОСТРОЕНИИ ИНФОРМАЦИОННО- АНАЛИТИЧЕСКИХ СИСТЕМ 12

1.1 Проектирование модели данных 12

1.1.1 Логическая модель данных 13

1.1.2 Физическая модель данных 16

1.1.3 Классификация технологий проектирования моделей данных 23

1.1.3.1 Разработка модели данных «с нуля» 23

1.1.3.2 Индустриальные модели данных 26

1.1.3.3 Универсальная модель данных 28

1.2 Обеспечение качества данных 30

1.2.1 Классификация существующих технологий контроля качества данных 31

1.2.1.1 Репозитории метаданных 32

1.2.1.2 Средства профилирования информации 33

1.2.1.3 Системы мониторинга данных 35

1.2.1.4 Средства очистки информации 36

1.2.1.5 Системы управления базами данных 38

1.2.1.6 Средства управления справочниками 39

1.3 Постановка задачи 42

1.3.1 Недостатки существующих технологий проектирования модели данных 43

1.3.2 Недостатки существующих средств повышения качества данных.44

1.3.3 Требования к разрабатываемой технологии 45

ГЛАВА 2 ФОРМАЛИЗАЦИЯ ЗАДАЧИ И РАЗРАБОТКА АВТОМАТИЗИРОВАННЫХ МЕТОДОВ ПРОЕКТИРОВАНИЯ МОДЕЛИ ДАННЫХ И КОНТРОЛЯ КАЧЕСТВА ИНФОРМАЦИИ 47

2.1 Автоматизация проектирования модели данных 47

2.1.1 Математическое моделирование модели данных 47

2.1.2 Возможность автоматизации разработки модели данных 48

2.1.3 Макроязык для определения правил генерации структуры базы данных 57

2.1.4 Шаблоны генерации структуры,базы данных 61

2.1.5 Использование шаблонов автоматической генерации структуры базы данных и автоматизированная разработка модели данных 65

2.2 Автоматизация контроля качества данных 67

2.2.1 Контроль качества данных атрибутов 68

2.2.2 Контроль качества данных фактов 71

2.2.3 Классы проверок качества данных 73

2.2.3.1 Контроль значений колонок таблицы 73

2.2.3.2 Контроль наличия в таблице всех необходимых значений 74

2.2.3.3 Контроль дубликатов 77

2.2.3.4 Контроль правила «З о» 78

2.2.3.5 Контроль качества информации с помощью прогнозирования...79

2.2.4 Контроль качества данных и ETL 81

2.2.5 Абсолютное качество данных 82

ГЛАВА 3 РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА И АНАЛИЗ РЕЗУЛЬТАТОВ ПРИМЕНЕНИЯ РАЗРАБОТАННОЙ ТЕХНОЛОГИИ 84

3.1 Архитектура программного комплекса 84

3.2 Подсистема проектирования модели данных 85

3.3 Подсистема контроля качества данных 95

3.3.1 Использование системы контроля качества данных при разработке процедур ETL 98

3.4 Репозиторий метаданных 101

3.4 Производительность и расширяемость системы 102

3.5 Информационно-аналитическая система для анализа деятельности университета 104

3.6 Снижение трудозатрат при использовании разработанной технологии и программного комплекса при создании информационно-аналитических систем 111

ЗАКЛЮЧЕНИЕ 115

БИБЛИОГРАФИЧЕСКИЙ СПИСОК 116

ПРИЛОЖЕНИЯ 126 

Введение к работе:

Большинство организаций оперируют с большим объемом данных, которые необходимо правильно анализировать для получения полного представления о тенденциях, изменениях, других факторов, которые влияют или могут повлиять на деятельность организации. На сегодняшний-день разработан ряд программных средств, предназначенных для облегчения задачи анализа информации. Одним из классов таких программных средств являются информационно-аналитические системы.

Информационно-аналитические системы не являются готовыми продуктами, а состоят из набора интегрированных средств, выбор которых зависит от конкретной задачи.

Необходимая для анализа информация может содержаться в разных источниках: реляционных базах данных, текстовых файлах, документах html. Даже если работа предприятия управляется единой информационной системой, хранящей свою информацию в реляционной базе данных (такие базы называются оперативными), в большинстве случаев подобные системы не годятся для предоставления аналитической информации, так как оперативные системы и хранилища данных работают по разным принципам. Оперативные системы содержат текущую информацию, например, состояние банковского счета клиента, хранилище данных содержит историческую информацию, то есть в случае банковского счета хранится информация о средствах в разные моменты времени. Состояние оперативной системы все время изменяется, в ней происходит огромное количество небольших транзакций, на пример, перевод средств с одного счета на другой. Информация в,хранилище остается неизменной и лишь пополняется новыми данными- по определенному расписанию. Оперативные системы лежат в основе работы предприятия, в то время как хранилища данных помогают ответить на вопрос: «Как работает предприятие?» и используются при разработке стратегий, направленных на повышение эффективности работы предприятия.

Перед оперативными системами и хранилищами данных ставятся разт ные задачи, поэтому архитектуры их. также различаются. При построении-хранилища обычно используют,многомерную модель данных [44, 57].

Для; наполнения хранилища информацией используется программное обеспечение класса ETL (Extract Transfer Eoad) [56]. Программное обеспечение этого класса предназначено для извлечения, приведения к общему формату, преобразованию и загрузки данных в хранилище.

Информационно-аналитические системы должны включать в себя также инструменты анализа информации, содержащейся в хранилище данных, и средства представления ее в более удобном, для восприятия виде (графики, сводные таблицы, отчеты), позволяющем принимать обоснованные решения. С этой целью используют инструменты Business Intelligence.

На основе типовых задач, решаемых разработчиками, можно привести определение информационно-аналитической системы. Понятие информационно-аналитической системы определяется различными авторами по-разному. В настоящей работе используется определение, приводимое Р. Кимбаллом: «Информационно-аналитическая система - программный комплекс, предназначенный для извлечения, очистки, проверки и загрузки данных из источников в многомерное хранилище данных, а также предоставляющий средства извлечения и анализа содержащейся в хранилище информации, с целью помощи в принятии решений» [56].

Построение информационно-аналитических систем состоит из следующих этапов:

1. Проектирование модели данных.

2. Наполнение хранилища данных информацией с помощью процедур ETL.

3. Обеспечение качества данных.

4. Предоставление удобного доступа к информации пользователям и визуализация анализируемых данных.

Для задач 2 и 4 созданы специализированные универсальные программные средства, пригодные для использования в любом проекте по созданию информационно-аналитической системы, поэтому в данной работе эти задачи рассматриваться не будут. Задачи 1 и 3 являются уникальными для каждого проекта и решаются каждый раз заново [42, 69, 72]. Таким образом, ключевыми факторами, влияющими на успех проекта по созданию информационно-аналитической системы, являются задачи проектирования модели данных и обеспечения качества данных [26,66]. В результате этого, несмотря на опыт и методики, накопленные за более чем 30-летнюю историю, проекты по созданию информационно-аналитических систем остаются рискованными. Джек Олсон приводит неутешительную статистику: 37 % проектов прекра щаются, не получив каких-либо результатов;

50 % проектов доводятся до логического завершения, но при этом превышаются сроки или бюджет на 20 % и более; 13 % составляют успешные системы [66].

Высокий уровень рисков, связанный с проектами по созданию информационно-аналитических систем, а также постоянно увеличивающийся спрос на системы данного класса требуют поиска и разработки новых технологий проектирования модели данных и контроля,качества данных, что обусловливает актуальность представленной работы.

Цель и задачи исследования. Целью данной работы является разработка автоматизированной технологии проектирования модели данных и контроля качества данных, позволяющей сократить трудозатраты, необходимые для создания информационно-аналитических систем.

Для достижения поставленной цели решаются следующие задачи: 1) анализ существующих технологий в области построения информационно-аналитических систем, выявление существующих недостатков и определение требований к технологии разработки систем данного класса; 2) разработка методов проектирования модели данных и контроля качества данных при і построении информационно-аналитических систем, удовлетворяющих сформулированным требованиям; 3) разработка программного комплекса, предназначенного проектировать модель данных и осуществлять контроль качества данных при построении информационно-аналитических систем в рамках разработанных методов; 4) экспериментальная проверка разработанной техно логии с помощью макета информационно-аналитической системы для анализа деятельности вуза; 5) определение области применения разработанной технологии и возможности сокращения трудозатрат на основе анализа использования разработанной технологии для создания информационно-аналитических систем. •

Объект исследования: информационно-аналитические системы.

Предмет исследования: технология проектирования модели данных и контроля качества данных для построения информационно-аналитических систем.

Научная новизна. В диссертационной работе получены новые научные результаты:

1) технология разработки модели данных для информационно-аналитических систем, отличительной особенностью которой является декомпозиция общей задачи построения модели данных на независимые подзадачи разработки модели предметной области и описание правил формирования физической модели данных; такая особенность позволяет проводить решение указанной проблемы независимо специалистами в предметной области и по системам управления базами данных и средствам анализа данных, а также использовать «предыдущий опыт» и наработки предшествующих проектов для разработки данного проекта; а разработанный набор правил формирования физической модели данных позволяет автоматизировать получение ее, требуя лишь описание объектов предметной области;

2); методика автоматизированного контроля качества данных на всех этапах создания информационно-аналитической системы: в источниках данных, в приемнике, а также на всех промежуточных этапах;

3) программный комплекс, позволяющий автоматизировать решение задач проектирования модели данных и контроля качества информации и независимый от технологий, используемых при построении информационно-аналитической системы.

На защиту выносятся следующие основные положения:

1) технология проектирования модели данных для информационно-аналитических систем, дающая возможность автоматизировать получение физической модели данных;

2) методика контроля качества данных, позволяющая автоматизировать контроль качества информации на всех этапах создания информационно-аналитической системы;

3) структура программного комплекса, предназначенного для решения задач автоматизации проектирования модели данных и контроля- качества информации.

Практическая ценность работы заключается в снижении трудозатрат при разработке информационно-аналитических систем; в возможности использования опыта предыдущих проектов в разработке данного; в возможности разделения функций «универсального» специалиста на независимые функции специалиста предметной области и специалиста по системам управления базами данных и средствам анализа данных. Указанная технология по зволяет построить компьютерно-ориентированную автоматизированную систему.

Полученные в рамках диссертационной работы результаты были использованы в работе консалтинговой компании S&T International (г. Москва) при исследованиях и разработках в области информационно-аналитических систем. Разработанная технология и программный комплекс были успешно применены при разработке информационно-аналитических систем компаний Данон, Кампомос (обе - г. Москва), Балтийский банк (г. Санкт-Петербург) и М.Видео (г. Москва).

Апробация работы. Полученные результаты докладывались и обсуждались на третьей и четвертой ежегодных конференциях Business Intelligence (Москва, 2005 и 2006) [6, 16]; конференции «XI Державинские чтения» (Тамбов, 2006); Всероссийских конференциях «XII и XIII Державинские чтения» (Тамбов, 2007 и 2008) [8, 11], XVII Международной конференции-выставке «ИТО-2007» (Москва, 2007) [7] и в рамках публичных лекций для студентов и аспирантов в ходе мероприятий, посвященных 75-летию Института математики, физики и информатики ТГУ им. Г.Р. Державина. Результаты работы использовались в реализации совместного европейского проекта в ТГУ им. Г.Р. Державина по использованию информационных технологий в модернизации университетского управления - TEMPUS TACIS «Joint European Project on System Modernization of University Management (SMOOTH, UMJEP 24217-2003)».

Публикации. Основные положения диссертации опубликованы в 12 печатных работах [1, 6-16], в том числе 4 статьи опубликованы в двух журналах из Перечня рецензируемых научных журналов ВАК за 2006 г.: «Программные продукты и системы» (приложение к журналу «Проблемы теории и практики управления»), «Вестник Тамбовского университета. Серия: Естественные и технические науки».

Структура диссертационной работы. Диссертационная работа состоит из введения, трех глав и заключения, изложенных на 136 страницах, содержит 33 рисунка, 4 таблицы и библиографический список из 73 наименований.

Подобные работы
Леонова Юлия Викторовна
Технология построения информационно-справочных систем для научного сообщества
Егоров Сергей Яковлевич
Методология построения автоматизированной информационной системы принятия проектных решений по компоновке промышленных объектов
Мельник Иван Олегович
Разработка методов построения интегрированных информационных систем электронной торговли
Немтинов Владимир Алексеевич
Методология построения автоматизированной информационной системы принятия решений по обеспечению экологической безопасности
Дубенский Вячеслав Викторович
Технология создания электронных обучающих систем
Бахарев Сергей Петрович
Межрегиональная информационная система оценки эффективности применения технологии дистанционного обучения в средних специальных учебных заведениях
Дмитриев Вадим Александрович
Разработка отраслевой интерактивной системы формирования знаний в сфере информационных технологий
Лутхон Тарек
Разработка аналитических и процедурных моделей автоматизированной информационной системы контроля технологического процесса тепловлажностной обработки железобетонных изделий
Литвинов Антон Александрович
Информационная система выбора переменных контроля экологического объекта на основе построенных аналитических и процедурных моделей
Гунин Леонид Николаевич
Модель внедрения ИПИ-технологии на базе систем автоматизированного проектирования и технологической подготовки производства предприятия

© Научная электронная библиотека «Веда», 2003-2013.
info@lib.ua-ru.net