Поиск по базе сайта:
7. Технологія інтелектуального аналізу даних Data Mining icon

7. Технологія інтелектуального аналізу даних Data Mining




Скачати 154.8 Kb.
Назва7. Технологія інтелектуального аналізу даних Data Mining
Дата конвертації29.05.2013
Розмір154.8 Kb.
ТипДокументи

7.Технологія інтелектуального аналізу даних Data Mining


Комп'ютерні технології з організацією інтелектуальних обчислень переживають свій розквіт. Data Mining – це автоматизований процес обробки та аналізу даних. Елементи технології Data Mining стають невід'ємною частиною електронних сховищ даних та організації інтелектуальних обчислень.

Простий доступ користувача до сховища даних забезпечує лише отримання відповідей на питання, що були задані, технологія Data Mining дозволяє побачити ("знайти") приховані правила і закономірності у наборах даних, які користувач не може передбачити, і застосування яких може сприяти збільшенню прибутків підприємства.

Data Mining перекладається як "видобуток даних", але ця технологія швидше є "інтелектуальним аналізом даних". Людський розум не пристосований для сприйняття великих масивів різнорідної інформації. Людина не здатна вловлювати більш двох-трьох взаємозв'язків навіть у невеликих вибірках.

Традиційна математична статистика, яка довгий час претендувала на роль основного інструмента аналізу даних, часто пасує при рішенні задач з реального складного життя. Вона оперує усередненими характеристиками вибірки, що часто є фіктивними величинами (середня температура пацієнтів лікарні, середня висота будинків на вулиці). Тому, методи математичної статистики виявляються корисними, головним чином, для перевірки заздалегідь сформульованих гіпотез.

Можливості інтелектуального аналізу


Більшість організацій накопичують під час своєї діяльності величезні обсяги даних, але єдине, що вони хочуть від них одержати - це корисна інформація. Як можна довідатися з даних про те, що потрібно клієнтам, як розмістити ресурси ефективним чином або як мінімізувати втрати? Для вирішення цих проблем призначені технології інтелектуального аналізу. Вони використовують складний статистичний аналіз і моделювання для знаходження відношень, які приховані у даних - таких відношень, які складно виявити звичайними методами.

Компанія, яка довго знаходиться на ринку і знає своїх клієнтів вже має власні моделі бізнесу, які спостерігалися протягом існування компанії. Технології інтелектуального аналізу можуть не лише підтвердити ці емпіричні спостереження, але і знайти нові, невідомі раніше моделі. Спочатку це може дати компанії лише невелику перевагу, але, якщо об'єднати по кожному товару і кожному клієнту, це надасть дає істотний відрив від конкурентів.

Data Mining - це набір засобів, який допомагає аналітикам у знаходженні моделей і відношень у даних, але він не стверджує про цінність цих моделей для організації. Кожна модель повинна перевірятися в реальному середовищі.

Хоча інструментарій інтелектуального аналізу і звільнює користувача від можливих складностей у застосуванні статистичних методів, він все-таки потребує від нього розуміння роботи інструментарію й алгоритмів, на яких він базується.

Ключовою можливістю застосування технологій Data Mining стало величезне падіння цін на пристрої збереження інформації. Це істотно здешевіло і збільшило можливості збору і збереження великих обсягів інформації в інформаційних сховищах даних.

Необхідним атрибутом технології інтелектуального аналізу даних є клієнт-серверна архітектура. Такий підхід надає можливості виконувати найбільш трудомісткі процедури обробки даних на високопродуктивному сервері як розробникам проектів, так і користувачам. На цьому ж сервері можуть зберігатися і за запитами клієнтів виконуватися корпоративні проекти.

Сфера застосування технологій інтелектуальних обчислень


Сфера застосування технологій інтелектуальних обчислень нічим не обмежена - вона скрізь, де є які-небудь дані. В першу чергу методи Data Mining сьогодні є популярними серед комерційних підприємств, що розгортають проекти на основі інформаційних сховищ даних. Досвід багатьох таких підприємств показує, що віддача від використання технологій інтелектуального аналізу даних може досягати 1000%.

Ключем до успішного застосування методів інтелектуальних обчислень служить не просто вибір алгоритму, а майстерність людини, що проводить побудову моделі, і можливості програми проводити процес моделювання. Інформативність реалізованого проекту залежить від цих факторів у більшому ступені, ніж від алгоритмів.

Існують дві сторони успіху в пошуку даних. По-перше - це чітке і ясне формулювання задачі, що підлягає рішенню. По-друге - це використання правильних даних. Після вибору даних із усіх доступних джерел (чи навіть придбання даних із зовнішніх джерел) необхідно їх перетворити або згрупувати у визначеному порядку.

Чим більше аналітик може "грати" з даними, будувати моделі, оцінювати результати (тобто більше працювати з даними за одиницю часу), тим краще може бути результат. Робота з даними стає більш ефективної, коли можлива інтеграція наступних компонентів: візуалізація, графічний інструментарій, засоби формування запитів, оперативна аналітична обробка, що дозволяють зрозуміти дані й інтерпретувати результати, і, нарешті, самі алгоритми, що будують моделі.

Завдання, розв'язувані Data Mining:


  1. Класифікація - віднесення вхідного вектора (об'єкта, події, спостереження) до одного з наперед відомих класів.

  2. Кластеризація - поділ множини вхідних векторів на групи (кластери) за ступенем «схожості» один на одного.

  3. Скорочення опису - для візуалізації даних, спрощення рахунки та інтерпретації, стиснення обсягів збираної та збереженої інформації.

  4. Асоціація - пошук повторюваних зразків. Наприклад, пошук «стійких зв'язків в кошику покупця».

  5. Прогнозування - знаходження майбутніх станів об'єкта на підставі попередніх станів (історичних даних)

  6. Аналіз відхилень - наприклад, виявлення нетипової мережевої активності дозволяє виявити шкідливі програми.

  7. Візуалізація даних.

Загальний алгоритм аналізу Data Mining


Методика аналізу з використанням Data Mining базується на різних алгоритмах видобутку закономірностей у вхідних даних. Таких алгоритмів є багато, але вони не можуть гарантувати якісного кінцевого результату, бо існує багато чинників, що можуть вплинути на сам хід аналізу.

Для якісного аналізу будь-яких даних слід дотримуватися загальної схеми використання DM


  1. Висування гіпотез

  2. Збір та систематизація даних

  3. Підбір адекватної моделі

  4. Тестування та інтерпретація отриманих даних

  5. Використання у реальних умовах

Ця схема не залежить від предметної області та сфери діяльності. Вона є універсальної.

1. Висування гіпотез


Гіпотезою тут будемо вважати припущення про вплив певних факторів на процес, що досліджується.

Автоматизувати процес висування гіпотез є вкрай складно, тому, цю задачу мають вирішувати експерти – фахівці в предметній області.

Слід довіритися їх досвіду та здоровому глузду, максимально використати ці знання про предмет досліджень і зібрати як найбільше гіпотез/припущень.

Зазвичай, добрі результати надають тактики «круглого столу» або «мозкової атаки». На початку слід зібрати та систематизувати всі ідеї, а оцінювати їх пізніше. В результаті повинен бути складений перелік з описів всіх факторів досліджуваного об’єкту.

Наприклад, Для задачі прогнозування попиту товару потрібно скласти перелік факторів, що впливатимуть на об’єкт і експертно оцінити суттєвість кожного з них. Така оцінка не є вирішальною, але від неї починають відштовхуватися.

Сезон 100

День тижня 80

Об’єм продажів за попередні тижні 100

Об’єм продажів за аналогічний період минулого року 95

Рекламна компанія 60

Маркетингові заходи 40

Якість продукції 50

Бренд 25

Коливання ціни від середньо ринкової 60

Наявність подібного товару в конкурентів 15

Згодом, під час аналізу, може з’ясуватися, що фактор, який експерти оцінили як важливий, буде мати незначний вплив на процес і навпаки.

2. Збір та систематизація даних

2.1. Збір даних


Для аналізу потрібно як найбільше даних, бо це надає можливість оцінити вплив максимальної кількості показників. Згодом, простіше відхилити певну частину даних, аніж розпочинати новий збір.

Методи збору

1. Отримання даних з внутрішніх джерел


Це не складно, бо така інформація зазвичай зберігається в облікових системах у табличній формі, де існують різні механізми отримання звітів та експортування даних.

2. Отримання відомостей з непрямих даних.


Наприклад, потрібно оцінити реальний фінансовий стан мешканців певного регіону. Існує кілька категорій товару (авто), що різняться за ціною – для незаможних, середнього класу, заможних. Якщо отримати звіт про продажі товару в цьому районі і проаналізувати пропорції, то робиться висновок: чим більшим є відсоток продажів дорогого товару, тим заможнішими є мешканці.

3. Використання відкритих джерел


До широкого загалу надаються статистичні збірники, звіти корпорацій, результати маркетингових досліджень, соціологічні опитування.

4. Влаштування власних маркетингових досліджень та подібних заходів по збору даних


Це зазвичай є дорогим заходом, але доволі ефективним.

5. Наповнення даних згідно експертних оцінок співробітниками організації


Слід оцінити вартість збору даних, що потрібні для аналізу. Одні дані беруться з публічних інформаційних джерел, інші мають бути оплачені, дані про діяльність конкурентів можуть бути доволі дорогими.

Вартість збору інформації різними методами суттєво різниться за ціною та витраченим часом, тому, слід вважати на співвідношення теперішніх витрат з майбутніми результатами.

Від даних, які експерти вважають несуттєвими, певна річ, можна відмовитися, але від значущих даних не можна, бо аналіз буде базуватися у цьому випадку на другорядних факторах і відповідно, отримана модель буде надавати нестабільні та невірні результати.

2.2. Сховища даних


Для збереження зібраних даних в DM широко використовуються сховища даних, куди з певною заданою регулярністю надходить вся необхідна інформація, яка є попередньо систематизованою ті відфільтрованою.

^ Сховище даних – це предметно-орієнтований, інтегрований, прив’язаний до часу, незмінний збір даних для підтримки процесу прийняття рішень.

  • Предметна орієнтація – дані об’єднуються у категорії

  • Інтегрованість – дані задовольняють вимогам всього підприємства, а не лише певним гілкам бізнесу. Отже, звіти, що генеруються для різних аналітиків будуть містити однакові результати.

  • Прив’язка до часу – всі дані мають бути історичними. Параметр часу є обов’язковим для сховища даних.

  • Незмінність – дані у сховище лише долучаються і в подальшому не змінюються



Для організації та експлуатації інформаційного сховища створюють спеціальне ПЗ, що полегшує наповнення та систематизацію даних.

Створення сховища даних є доволі тривалим та дорогим процесом, але воно того варто. Збільшення додаткової інформації про реальний процес дозволяє значно покращити якість отриманих результатів.

Хоча в сховищі даних не реалізуються технології аналізу, воно є тою базою, на якій потрібно будувати аналітичну систему.

За відсутності сховища даних на збір та систематизацію потрібної для аналізу інформації буде витрачено велику частину часу, що зрештою знецінить всі переваги аналізу. Бо, одною з ключових ознак будь-якої аналітичної системи є можливість швидко отримати результат.

2.3. Формалізація даних


Для закладання даних у сховище слід визначити спосіб їх представлення, тобто вибрати один з чотирьох видів:

  • Число

  • Символьний рядок

  • Дата

  • Логічна змінна (так/ні)

Деякі дані доволі просто формалізуються, наприклад, об’єм продажів у гривнях – це певне число

Але, іноді представити фактор доволі складно, наприклад у випадку з якісними характеристиками. Якість – поняття складне, і якщо цей фактор є важливим, то варто обрати доцільний спосіб формалізації.

Наприклад, оцінювати якість за кількістю бракованих виробів на 1000 одиниць продукції або зробити кілька категорій якості відмінно/добре/задовільно/незадовільно

Зібрані дані перетворюються до єдиного формату (dbf або txt з розділенням). Дані мають бути уніфікованими і інформація повинна описуватися однаково.

Оскільки дані надходять з різних джерел, слід вважати на наступне:

  • Різні формати представлених чисел (цілі, дробові)

  • Різні формати дати (день/місяць/рік або рік/місяць/день)

  • Різні одиниці вимірювання (дюйми/метри або кілограми/тони)

2.4. Очищення даних


Є важливим етапом перед закладанням у сховище

Типи помилок


  • Протиріччя інформації

  • Пропущені дані

  • Аномальні значення

  • Шум

  • Помилки при введенні даних

Самим надійним способом є звичайне виправлення конкретної помилки особисто людиною, але за великих обсягів даних це буде проблематичним. Тому, варто приділити більшої уваги вирішенню таких проблем в автоматичному режимі за мінімальної участі людини.

Протиріччя інформації


Наприклад,

Ніжна Любов Петрівна - чоловік

Для виправлення можна застосувати 2 підходи:

  • При виявленні такого запису його знищують

  • Виправляють

Можна обчислити ймовірність появи хибних даних і обрати відповідний підхід

Пропущені дані


Це доволі серйозна проблема для сховищ. Для виправлення можна застосовувати

а) ^ Апроксимація чи екстраполяція. Якщо в певній точці немає даних, то береться її окіл і за відповідними формулами обчислюється значення у цій точці. Добре спрацьовує для впорядкованих даних (наприклад, щоденні продажі продуктів).

б) ^ Визначення най вірогіднішого значення. Для цього береться не окіл точки, а всі дані. Добре працює для невпорядкованих даних, коли не можна визначити, що є околом для точки.

Аномальні значення


Доволі часто в житті відбуваються надзвичайні події, які не є притаманними для повсякденного процесу. Тому, такі значення краще скорегувати, бо будь яка аномалія під час аналізу буде сприйматися як цілком нормальне значення, а результат буде спотворено.

Для усунення аномалій використовують методи, які є стабільними до сильних збурень. Існуючі дані набувають певних меж і при виході з них:

  • Значення вилучається (разом з рядком)

  • Змінюється на найближче граничне значення

Шум


Майже завжди у реальному житті є присутнім шум, він не надає жодної корисної інформації і заважає чіткому відображенню справжнього значення. Для усунення шуму застосовують

а) ^ Спектральний аналіз. Можна вилучити високочастотні складові даних (часті та незначні коливання навколо основного сигналу). Ширина спектру регулюється.

б) ^ Авторегресійні методи. Активно застосовуються при аналізі часових рядів, там знаходиться функція, що описує процес + шум. Після цього шум можна забрати і залишити основний сигнал.

Помилки при введенні даних


Це й описки й невідповідність форматів й пропущені коми або інше спотворення.

  • а) Перед внесенням даних до сховищ відбувається перевірка форматів.

  • б) Застосування систем перевірки орфографії

Отже, Забруднені дані є доволі великою проблемою


На вході сміття – На виході сміття

Тому, в цьому напрямку має бути постійна робота. В ідеалі, на вході до сховища мав би бути певний шлюз з реалізацією кількох фільтрів.

Методи очищення суттєво залежать від предметної області. Для прикладу, що для одних завдань є шумом, для інших цінною інформацією

2.5 Представлення та мінімальні об’єми даних


Для аналізу предметної області дані мають бути впорядкованими.

Впорядковані дані


Таки дані потрібні для вирішення задач прогнозування. Однією з ознак даних має бути час, тобто це мають бути історичні дані



Дата

Частота закупівель

Об’єм продажів (грн.)

1

01.09.2012

256

10 000

2

02.09.2012

270

10 500

Кожному стовпцю відповідає один фактор, в кожен рядок заносяться події з єдиним інтервалом між рядками. Якщо для процесу притаманна сезонність/циклічність, тоді потрібно мати дані принаймні за один повний сезон/цикл.

Максимальний час прогнозування залежить від об’єму даних

  • Дані за 1-2 роки – прогноз максимум на 1 місяць

  • Дані за 2-3 роки – прогноз максимум на 3 місяць

Невпорядковані дані


Потрібні для задач, де часовий фактор не є важливим і ситуація є статичною. Наприклад, для оцінювання кредитоспроможності, діагностики, сегментації споживачів.



Стаж роботи

Наявність авто

Кредит (грн)

1

> 5 РОКІВ

Є

15 000

2

< 5 РОКІВ

Немає

10 000

Кількість прикладів має бути значно більшою від кількості факторів. Інакше, є ймовірність, що випадковий фактор буде мати суттєвий вплив на отриманий результат. Якщо немає можливості збільшити кількість прикладів, тоді слід зменшити кількість факторів і лишити самі суттєві.

Бажано, щоб дані охоплювали різні ситуації реального процесу, а пропорції різних прикладів (прецендентів) мають відповідати реальному процесу. Наприклад, системи діагностики мають мати відомості і про здорових людей, інакше система буде вважати, що існують лише хворі люди.

Транзакційні дані


Використовують в алгоритмах пошуку асоціативних правил. Такий метод часто називають «аналізом споживчого кошику». Транзакція, це кілька об’єктів або даних, що згруповані в логічно пов’язану одиницю. Часто даний підхід використовується для аналізу покупок (чеків) в супермаркетах. Такж, це може бути продажа туристичних турів з набором відповідних послуг (візи, трансфер, гід тощо).

При такому методі знаходяться залежності типу

Якщо відбулася подія А, то з певною ймовірністю відбудеться подія Б

Транзакційні дані для аналізу слід сформувати наступним чином

Код транзакції

Товар

10200

Йогурт «Гармонія», 0.5

10200

Батон «Сихівський»

10201

Вода «Моршинська», 1.5л.

10201

Цукор, 1 кг.

10201

Хліб «Карпатський»

Код транзакції відповідає коду чеку, рахунку чи накладної. Товари з однаковим кодом вважаються разовою покупкою.

Таке представлення використовують для роботи звичайних асоціативних правил, де існують зв’язки між різними об’єктами.

Якщо купили йогурт «Гармонія», то куплять й батон «Сихівський».

Існує ще алгоритм пошуку узагальнених асоціативних правил, коли шукається зв’язок не лише між об’єктами, але і між групами об’єктів. Наприклад,

Якщо купили батон «Сихівський», то куплять щось з йогуртів.

Для пошуку узагальнених асоціативних правил потрібно підготувати додаткову інформацію з деревом відношень між об’єктами – ієрархією груп

ІД

ІД предка

Об’єкт

1




Хлібобулочні вироби

2

1

Хліб

3

1

Булки

4

2

Батон «Сихівський»

5

2

Хліб «Карпатський»

6




Молочні продукти

7

6

Молоко

8

6

Йогурти

9

8

Йогурт «Гармонія»

10

8

Йогурт «Молокія»

  • ІД – унікальний номер об’єкту

  • ІД предка – номер батьківського об’єкту.

Якщо об’єкт є кореневим, то це поле буде пустим. В полі об’єкти знаходяться як групи, так і товари

Таблицю ієрархії можна представити у вигляді графіку



Аналіз транзакцій доцільно проводити на великому обсязі даних, інакше можуть траплятися статистично необґрунтовані правила.

Алгоритми пошуку асоціативних зв’язків мають добрі властивості щодо масштабованості і спроможні обробляти величезні об’єми даних.

Приблизне відношення між кількістю об’єктів та об’ємом даних

  • 300-500 об’єктів – більше за 10 00транзакцій

  • 500- 1000 об’єктів – більше за 30 000 транзакцій

Якщо кількість транзакцій є недостатньою, можна зменшити кількість об’єктів аналізу, наприклад, їх можна згрупувати.

3. Побудова та підбір адекватної моделі


Існує багато алгоритмів побудови моделей, кожен з них має свої обмеження і вирішує певний клас задач, тому на практиці цілком є прийнятним комбінування різних алгоритмів.

Але, чим швидше отриману модель можна застосувати практично, тим швидше можна оцінити її якість.

Загальні рекомендації щодо аналізу


  • Приділити більшої уваги до очищення даних. Якнайповніше застосовувати попередню обробку

  • Комбінувати різні алгоритми для побудови моделей. Це дозволяє ширше розглядати поставлену проблему.

  • Не намагатися відразу досягнути абсолютної точності. Модель варто використовувати відразу після отримання перших позитивних результатів, бо все одно ідеальних результатів досягнути неможливо. Це дозволяє швидше мати практичну віддачу. Реальний результат можна оцінити лише на практиці. Модель можна вдосконалювати й далі, але вже враховувати отримані результати

  • Якщо прийнятні результати не досягаються, слід повернутися на попередні кроки аналізу. Помилки можна зробити на будь-якому кроці, наприклад, некоректно сформульовано гіпотезу або виникли проблеми зі збором даних.

4. Тестування та інтерпретація отриманих результатів


Для оцінювання адекватності отриманих результатів слід залучати експертів з предметної області. Як і висування гіпотез, так і інтерпретація моделі повинні робитися експертами, що мають глибинне розуміння процесу, яке є значно ширшим ніж зібрані дані для аналізу.

Можна скористатися формальними способами оцінювання якості моделі, зокрема: тестування отриманої моделі на різних вибірках, де можна спостерігати:

  • Результати будуть якісними при тестуванні даних, на яких модель побудована.

  • На інших, нових даних, які модель не використовувала для навчання (побудови) губляться властивості узагальнення і можна отримати погані результати.

5. Використання у реальних умовах


Потрібно чим раніше після досягнення прийнятних результатів, використовувати модель в реальних умовах.

На цьому DM-проект не завершується, бо модель вдосконалюється, дані оновлюються, а вимоги до точності підвищуються



Схожі:




База даних захищена авторським правом ©lib.exdat.com
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації