Duomenu gavyba

Įvadas

Tobulėjant šiuolaikinėms technologijoms, didėjant duomenų kiekiui darosi vis sudėtingiau juos išanalizuoti ir daryti greitus, efektyvius ir teisingus sprendimus. Duomenų bazės jau peržengė terabaitines ribas ir žmogus jau tampa nepajėgus išanalizuoti visą duomenų gausą. Tokiame milžiniškame kiekyje informacijos gali slėptis ir strategiškai svarbi ir niekinė informacija. Tokios problemos paskatino atsirasti aukštos kokybės taikomiesiems paketams, programavimo įrankiams, duomenų analizės priemonėms, kurios padeda nepasimesti informacijos gausoje. Savo ruožtu tai kartu padidino ir vartotojų prieinamumą prie pažangiausių technologijų, atvėrė elektroninės komercijos, on-line analizės ir kitas galimybes.

Viena iš tokių technologijų yra data-mining (duomenų gavyba arba duomenų kasyba). Tai procesas, naudojantis įvairius duomenų analizės įrankius, kurie padeda atrasti tokias duomenų struktūras ir ryšius, kurie būtų panaudojami realioms išvadoms ir sistemos rezultatams apibrėžti. Ši technologija sėkmingai taikoma tiek versle, medicinoje ir kitose gyvenimo srityse, kur reikia apdoroti labai didelius nformacijos kiekius.

1. Duomenų gavybos sistema

Duomenų gavybos tikslas – iš didelių duomenų bazių, tam tikros naujos informacijos išgavimas. Šios srities mokslininkai ir tyrinėtojai pateikia keletą apibrėžimų, kuriuos kiekvienas suvokia taip pat, tačiau apibrėžia skirtingai:• “Duomenų gavyba – įdomių struktūrų (modelių, ryšių, statistinių modelių, šablonų) radimas duomenų bazėse” (U.Fayyad, S.Chaudhuri and P.Bradley);• “Duomenų gavyba – statistikos pritaikymas tiriamųjų duomenų analizės ir prognozuojamų modelių forma, siekiant atrasti modelius ir kryptingumus (angl. trends) dideliuose duomenų rinkiniuose” (“Insightful miner 3.0 User Guide);• “Duomenų gavyba – didelių duomenų kiekių tyrinėjimas ir analizė automatizuotu arba pusiau automatizuotu būdu, siekiant rasti naudingus modelius (angl. patterns) ir taisykles” (M.J.A.Berry and G.S.Linoff).

“Duomenų kasyba”(angl. data mining) tai žinios, kurias galima apibendrinti iš jau turimų duomenų ir jas atitinkamai apdoroti. Data mining kaip technologija, jos veikimo principas ir panaudojimo sritys, glaudžiai siejasi su duomenų analizės, apdorojimo, statistikos ir kitomis informacinėmis technologijomis.

Duomenų gavyba, panašiai kaip statistika, nėra tik modeliavimas ir prognozė, tačiau ištisas problemų sprendimo procesas. Supratimas, ko verslui reikia iš tikrųjų yra svarbiausias sėkmingam duomenų išgavimui, nes net patys naujausi sudėtingiausi algoritmai negali to tiksliai ir tinkamai įvertinti. Tačiau reikia pabrėžti, kad duomenų kokybė taip pat yra labai svarbus aspektas duomenų gavyboje, nes tik iš kokybiškų duomenų galima išgauti kokybiškus duomenis ir kokybiškai atlikti patį duomenų išgavimą. Tikrovėje įvykdyti šią sąlygą yra gana sunku, kadangi realūs duomenys beveik nebūna paruošti duomenų gavybai, nes jie turi būti integruojami iš skirtingų duomenų šaltinių, turi klaidų arba neteisingų, trūkstamų reikšmių. Tai, kad reikalingų duomenų modelių ar taisyklių radimui galima panaudoti kompiuterį – pagrindinė duomenų gavybos idėja. Duomenų išgavimo technika ir algoritmai priklauso ne tik nuo pačių duomenų, bet ir nuo jų kilmės, užduoties struktūros, ir pan. Vienas iš didžiausių duomenų išgavimo privalumų yra tas, kad programinė įranga gali rasti tokius modelius, kurie nėra lengvai pastebimi ir akivaizdūs, tačiau labai naudingi tiriamoje srityje ar versle. Turėdami tam tikrą duomenų rinkinį, galime pradėti analizės procesą.Tada jam nustatoma metodologija duomenų, struktūros atvaizdavimui. Kai randamos tam tikros žinios ar taisyklės, programinei įrangai pateikiami didesni duomenų rinkiniai, kurie turi panašią duomenų struktūrą. Būtent todėl, ši sritis primena statistikos mokslą, kur pagrindinis uždavinys kaip ir duomenų išgavime yra informacijos bei žinių išgavimas iš turimų duomenų. Taigi galima teigti, kad statistika yra neautomatizuota duomenų gavyba. Šį procesą galima iliustruoti paprastu pavyzdžiu: įsivaizduokime, kad gaunami ir saugomi tam tikri duomenys (pardavimų, demografiniai, vartotojų, geografiniai duomenys ir pan.), kurie informacija tampa tik tada, kai pasidaro svarbūs problemos sprendimui. Duomenų vienetai apjungiami informacija (Tomas gyvena Kaune; Karolinai yra 50 metų,Tomas ir Karolina persikėlė gyventi kitur, Linas saugo pinigus Snoro banke ir pan.) ir tampa žiniomis, kai sprendimo procesas sėkmingai užbaigiamas. Vadinasi, žinios apjungia tam tikrus informacijos vienetus ( 1t anglių naudojama Panevėžio regione, klases D vartotojai naudoja 3% produkto Z laikotarpyje N ir pan.). Taigi tai gali apibūdinti “verslo intelekto “ grandinės fragmentas (1 pav.). Tai gali daryti įtaką priimamiems sprendimams, pavyzdžiui, labiau reklamuoti produktą A regione G, paslaugas U teikti vartotojams E ir pan.). Taigi pagrindinę problemą galim įžvelgti žinių gavime iš duomenų, ką ir realizuoja duomenų gavybos ir statistikos mokslai.

pav.1 Verslo intelekto grandinė

Pagrindiniai šeši duomenų gavybos veiklos procesai:1. Klasifikacija (prie vienos iš specifikuotų grupių ar klasių priskiriamas naujas objektas pagal tam tikrą savybę);2. Įvertinimas (pateikus tam tikrą kiekį įvedamų duomenų, grąžinama kokia nors nežinoma reikšmė, pvz. pajamos, pelnas ir pan.)3. Prognozė (tai tas pats procesas kaip klasifikacija ir įvertinimas, tačiau čia įrašai klasifikuojami pagal kažkokį prognozuojamą elgesį ar apytikrę vertę ateityje);4. Grupavimas pagal bendrus bruožus ar ryšių taisykles (priklausomybių modeliavimas, t.y. nusprendžiama, kurie subjektai dera kartu, pvz. prekių krepšelio analizė);5. Klasterizavimas (populiacijos segmentavimas į tam tikrą kiekį pogrupių ar klasterių)6. Apibūdinimas ir vizualizacija (vizuali, arba tiriamoji duomenų gavyba).

Pažvelgus iš metodinės pusės, tai duomenų gavyba apima:

• Neuroninius tinklus• Taisyklių indukciją (angl. rule induction)• K-means klasterizavimą (k-means clustering)• Sprendimų medžius (decision trees)• Artimiausio “kaimyno” klasifikavimas (the nearest neighbour classification)

2. Duomenų gavybos programinė įrangaDuomenų gavybos metodu dirbančios programinės priemonės yra vadinamos duomenų gavybos produktais. Programinė įranga taikyti buvo pradėta nuo 1995m, o šiomis dienomis jau galimas tikrai platus programinės įrangos paketų, kurie yra lengvai pritaikomi įvairių sričių duomenų gavybos analizėms, pasirinkimas. Ši programinė įranga vartotojui suteikia galimybes naudotis daugybe įvairiausių skaičiavimo metodų ir algoritmų bei aprūpina reikalinga informacija. Išskiriami 3 pagrindiniai duomenų gavybos programinės įrangos tipai:Pirmoji grupė: interaktyvios duomenų analizės įrankiai – OLAP duomenų bazės bei taikomieji įrankiai, kurie yra pagalbinės priemonės OLAP analizei. OLAP duomenų bazės – tai programinis produktas, kuris leidžia visapusiškai analizuoti informaciją realiuoju laiku. Darbinėse reliacinėse duomenų bazėse ar duomenų saugyklose yra saugomi pradiniai duomenys, kurie transformuojami ir sukuriamos optimizuotos duomenų saugojimo struktūros – OLAP duomenų kubai, kurie yra specialiai pritaikyti greitai duomenų analizei. OLAP kubuose didelė tarpinių skaičiavimų dalis atliekama dar iki duomenų kubo naudojimo, o vieną kartą atliktų tarpinių skaičiavimų rezultatais gali pasinaudoti visi prieigos teises turintys šios duomenų bazės vartotojai.

Kadangi OLAP duomenų bazės saugo tarpines agregatines reikšmes, pagal duomenų kubo įgyvendinimo būdą duomenų pasikeitimai ar naujų duomenų įkėlimas į OLAP duomenų bazę gali pareikalauti atnaujinti ar pertvarkyti kubo informaciją. Sąveika su tokiomis sistemomis vyksta interaktyviai, atsakymai į daugybę skaičiavimų reikalaujančias užklausas yra gaunami per kelias sekundes, o informacija pateikiama ne tik skaičiais, bet ir vartotojui lengviau suvokiamu grafiniu pavidalu.Dauguma OLAP produktų pasižymi draugiška vartotojui aplinka, o kreipiantis į duomenų šaltinius reikiamą informaciją galima gauti net ir nemokant rašyti sudėtingų užklausų.Kadangi dažniausiai OLAP duomenų bazėse sukaupta informacija vienu metu naudojasi daug vartotojų (kliento ir serverio modelis), tokiose programose dažniausiai numatyti ir įvairaus lygio saugumo apribojimai skirtingas priėjimo prie duomenų teises turintiems vartotojams. Taikomieji įrankiai padeda besinaudojantiems OLAP identifikuoti daugelį svarbių dimensijų ir segmentų, o jų rinkos lyderiais yra laikomi „Business Miner“ and „Cognos Scenario“.Antrąją kategoriją sudaro vadinamieji tiesioginiai duomenų gavybos produktai. Jie yra skirti duomenų gavybos specialistams/analitikams kurie atlieka pagrindinį vaidmenį – sprendžia, ar gaunamas modelis, taisyklė arba funkcija yra tikslūs, teisingi ir naudingi. Šių programinių įrankių lyderiais pripažįstami – „IBM Intelligent Miner“, „Oracle Darwin“, „SAS Enterprise Miner“, „SGI MineSet“ ir „SPSS Clementine“ .Ir trečiasis tipas yra programiniai duomenų gavybos įrankiai, kurie yra skirti tik konkretiems specifiniams analitiniams procesams nagrinėti, kuriuose duomenų gavybos fazė yra integruota analitinė dalis. Pateiksime paprastą pavyzdį: naudojant tiesiogines duomenų gavybos programas (antra kategorija) spręsti vadybiniams sprendimams, gali tekti panaudoti ir programinius paketus, sukurtus būtent šiai specifiniai sričiai, paremtus duomenų valdymo technologijos veikimu. Savo programinę įrangą yra išleidusios šios duomenų bazių ir verslo sprendimų programinės įrangos gamintojos „SAS“ („SAS Enterprise Miner“), „SPSS“ („SPSS Clementine“), „Insightful“ („Insightful Miner“), „Oracle“ („Oracle Darwin“), „Angoss“ („Angoss KnowledgeSTUDIO“), „IBM“, „HNC“, „Unica“. Kai kurių stambiausių duomenų bazių gamintojų duomenų gavybos programinė įranga yra integruota į pačias duomenų bazių valymo sistemas ir tai yra daroma siekiant sumažinti duomenų perdavimą ir supaprastinti tokios programinės įrangos naudojimą („Oracle Darwin“, „Microsoft SQL Server“ duomenų gavybos moduliai), tačiau tai turi ir trūkumų: ribotos integracijos su kitomis duomenų bazių valdymo sistemomis bei programine įranga galimybės. Tačiau duomenų apsikeitimą galima realizuoti naudojant OLE duomenų bazės technologijas bei populiarėjantį XML standartą duomenų gavybai „PMML“ („Predictive Model Markup Language“).
Taigi, programinės įrangos, skirtos duomenų gavybos sričiai, yra tikrai daug. Svarbiausia dalis pasirenkant produktą – paketo galimybių aktualumas sprendimo realizavimui. Taip pat žinotina, kad geras duomenų valdymo programinis įrankis turi turėti kelis bendrus visiems atributus:• Vartotojo sąsają, (realizuotą per procedūrinius komponentus arba vartotojo vedlius);• Būdus realizuoti ir disponuoti duomenimis; • Keletą algoritmų modelių kūrimui;• Galimybę pavaizduoti rezultatus(skaitine/grafine išraiška) bei juos interpretuoti.

Reikėtų paminėti ir pagrindinius duomenų gavybos trūkumus – tai duomenų transformacijos. Naudojimas tokių funkcijų kaip duomenų jungimas, filtravimas, balansavimas dideliuose duomenų kiekiuose dar nėra puikiai išvystyti pardavinėjamose programinėse įrangose. Beto duomenų įterpimas arba tam tikrų stulpelių eliminavimas gali būti ribotas. Nors kai kuriuose produktuose (SAS, Insightful, SPSS) ir yra įdiegta procedūrinė valdymo galimybė, kurios paskirtis yra atlikti visas norimas transformacijas, tačiau ji yra gana sudėtinga paprastam vartotojui. Duomenų gavybos programiniai įrankiai yra naudingi nagrinėjant duomenis, kurie yra įsisavinti sistemos viduje. Šios programos yra efektyvus pagalbinis įrankis analitikams, sugebantiems apdoroti gautus rezultatus ar, pavyzdžiui, sprendžiant išlaidų sumažinimo ir pajamų gavimo problemas bet kurioje sistemoje.

Duomenų gavybos algoritmaiLabai didelę reikšmę duomenų gavyboje turi algoritmų kokybė bei įvairovė. Uždavinių bei metodų įvairovę papildo duomenų gavybos algoritmai. Vieni iš pagrindinių algoritmų, kuriais yra grindžiama duomenų gavybos technologija yra šie:Sprendimų medžiai: Šį algoritmą galima įsivaizduoti kaip modelį, kuris yra panašus į medį. Išsišakojimai reiškia vieną ar kitą atsakymą į siekiamus išsiaiškinti klausimus. Tokiu būdu yra sudaromos taisyklės, kurios klasifikuoja nagrinėjamą duomenų aibę atsižvelgdamos į pasirinktų elementų savybes. Proceso pradžioje turėta duomenų aibė yra tol skaidoma į šakas, kol kiekviena iš jų tampa homogeniška. Pagrindiniu sprendimų medžių privalumu laikomas jų aiškumas ir suprantamumas.Neuroniniai tinklai: Šie algoritmai yra naudojami prognozavimo bei klasifikavimo uždaviniams spręsti. Tai netiesiniai modeliai savo struktūra primenantys biologinius neuroninius tinklus. Neauroniniai tinklai suteikia galimybę mokytis iš duomenų ir praplėsti ateities numatymo ribas. Pats tinklas yra sudarytas iš kelių sluoksnių: įvesties, išvesties ir vieno ar daugiau paslėptų sluoksnių. Įvesties sluoksnyje yra elementą aprašanti informacija, išvesties sluoksnyje yra gaunamas rezultatas,o paslėptuose sluoksniuose realizuojama uždavinio logika. Nagrinėjami elemento duomenys yra perverčiami į didesnį ar mažesnį svorį ir šių svorių parinkimas yra formuluojamas kaip pagrindinis šio algoritmo uždavinys.

Artimiausių kaimynų metodas: Artimiausiojo kaimyno metodu klasifikavimo uždaviniai yra sprendžiami ne grupuojant elementus pagal nustatytas ar analizės metu rastas taisykles, bet pagal elemento turimų savybių panašumą į jo kaimynus. Šie algoritmai remiasi nagrinėjamo objekto lyginimu su prieš tai buvusiais. Trūkumas – sudaryto modelio dydis.Genetiniai algoritmai – tai algoritmai, kurių veikimo principas yra pagrįstas selekcijos, mutacijos bei kryžminimo procesais ir kurie remiasi evoliucijos koncepcija.Taisyklių metodas: Šis algoritmas yra paremtas taisyklių “jeigu — tai” taikymu. Jis yra panašus į sprendimų medį, nes elementai kaip ir medžio atveju yra sugrupuojami pagal jų duomenis. Nepaminėjome visų galimų algoritmų, tačiau pristatėme vienus iš pagrindinių.

Didžiulės metodų ir algoritmų pasirinkimo galimybės bei alternatyvos atskleidžia duomenų gavybos sudėtingumą bei leidžia šią technologiją pritaikyti gausybėje nagrinėjamų situacijų. Nors ir buvo daug skeptikų, teigusių, jog ši sritis negyvuos ir nesiplėtos, tačiau, kaip matome, viskas yra atvirkščiai ir didieji laimėjimai dar tik prieš aky.

Žinių išgavimo iš duomenų sistemosŽinių išgavimo iš duomenų (ŽID) sistemos sudedamosios dalys yra duomenų saugyklos ir duomenų gavybos technologijos. Tai yra ta sritis, kuri yra susijusi su informacijos gavybos ciklu, kuris apima didelių duomenų bazių koncepciją, kreiptis į jas bei informacijos išgavimo iš duomenų procesus.Duomenų gavybos technologijos ir duomenų saugyklų integracija leidžia sukurti interaktyvias analizės priemones, nors daugelis naudojamų duomenų gavybos priemonių gali efektyviai tarnauti ir be duomenų saugyklų. Suprantama, kad be duomenų saugyklų duomenis reikėtų papildomai išskirti, persiųsti ir išanalizuoti, todėl integracija supaprastina duomenų gavybos rezultatų taikymą. Toliau paveiksle pateikiama integruotos duomenų gavybos architektūra.

Integruota duomenų gavybaPradiniu tašku yra laikoma duomenų saugykla, kurioje paprastai yra saugomi įvairūs vidiniai ir išoriniai duomenys. Duomenų gavybos serveris leidžia lengvai sudaryti vartotojo modelį, kuris tampa esminis, naviguojant duomenų saugyklose. Daugiadimensės duomenų struktūros leidžia vartotojui analizuoti duomenis norimais pjūviais, o duomenų gavybos serveris užtikrina grįžtamuosius ryšius. Procesų atžvilgiu duomenų gavybos atliktas darbas apibrėžia konkrečios srities tikslus, o integracija su duomenų saugyklomis palengvina operacinius sprendimus. Taigi tokiu būdu duomenų saugyklos yra papildomos naujais sprendimais bei rezultatais, kurie gali būti naudojami tolimesnei kitų sprendimų paramai.

Žinių išgavimas iš duomenų bazių tai sritis, kurioje yra naudojamos priemonės tokios kaip, kad, pavyzdžiui: modelių atpažinimas, mokomųjų mašinų technologijos, vizualizavimas ir statistika, kurios leidžia automatiškai išskirti labai didelių duomenų bazių modelius bei koncepcijas. Šios mokslo srities tikslas – išskirti žinias (informaciją) iš žemesnio duomenų bazių lygio. Svarbu išskirti duomenų gavybos priemones, kurios yra skirtos informacijai ir žinioms išskirti bei žinių išgavimo procesą, kuriame šios priemonės ir yra naudojamos bei interpretuojamos glūdinčios daumenų bazėse žinios. Išskirtos žinios yra naudojamos sprendimų parėmimui, pavyzdžiui, prognozavimo ir klasifikavimo uždaviniuose, duomenų bazių turinio apibendrinimui arba stebimų reiškinių suvokimui.

Žinių išgavimas iš duomenų bazėsPagrindinėmis žinių išgavimo problemomis yra laikoma:• Išskirtų žinių pateikimas;• Sudėtinga paieška; • Preliminarių žinių naudojimas išskyrimo procesui pagerinti; • Išskyrimo operacijų kontrolė; • Tinkamiausių duomenų gavybos metodų parinkimas tam tikrai duomenų visumai. O pranašumai tampa vis akivaizdesni kuomet nepaliaujamai didėjančiam duomenų, informacijos ir žinių kiekiui absoliučiai visose srityse gebėjimo analizuoti didėjimas nei iš tolo negali prilygti, ko pasekoje yra gaunama tik dalinė informacijos išteklių optimizacija.

Duomenų gavybos panaudojimo galimybės

Metodologijos tinkamumas ir panaudojimo galimybės yra svarbus aspektas įvairioms sritims. Data-mining metodologija gali būti taikoma spendžiant ryšius tarp duomenų, duomenų klasifikaciją ir informacinių modelių identifikavimo problemas. Įgyvendimo technologijos gali būtilaba įvairios, tai prikalauso nuo to, kokiam tikslui ši metodologija bus panaudota. Pvz.Sdarant hipotezes, statstinius skaičiavimus, ieškant konkrečių modelių su netolygiais kintamaisiais. Norint optimizuoti sprendimus, visų pirma atsižvelgiama į laiko ir sistemos resursų aspektus. Arba siekiant sumažinti žmogiškojo faktoriausklaidas, kontrolės ir komandų įgyvendinime. Data-mining galima naudoti tikrai įvairiose srityse, ir tai, kad ta pati metodologija tinka visiškai skirtingoms sritims, rodo jos universaluma, nors tuo pačiu ir unikaluma. Panaudoimo sritys:

Medicininiai taikymai: Data-mining metodologijos naudojamos farmacijoje, cheminės ir genetinės informacijos apdorojimaui. Vaistų gamyboje (pvz.jų veiksmingumo nustatymui), netgi tam tikrų ligų ydymo procese.Cheminėje inžinerijoje. Taip pat naudojamos operacijų ir procedurų efekyvumui nustatyty, medicininių testavimų sritye. Mažmenininkų veikla: Data-mining metodologijos naudojamos ne tik sprendžiant kokį produktą siūlyti rinkai, bet net gi kaip jį pateikti prekybos vietose. Taip pat nustatant tam tikrų reklamimių kampanijų efektyvumą. Verslo veiklos analizei data-mining padeda ieškant duomenų ryšių ir metodų, kurių teisingumas turi būti patvirtintas realaus pasaulio reiškiniais. Klientų vadybos fazėse: Pagal tam tikras charakteristikas, tikslinių rinkų analizė. Naujų klientų paieška, lojaliūjų išsaugojimas, pajamų gavimas iš esamų. Versle ir finansuose: Duomenų gavyba plačiai naudojama didelių įmonių, nes ji yra viena iš labiausiai besivystančiu ir progresuojančių dirbinio intelekto sričių. Ši metodologija leidžia analizuoti ne tik vartotojų praeities elgesį, bet ir pagal tai numatyti ateities veiksmus, atlikti strateginius ateities sprendimus. Galbūt palčiausiai duomenų gavyba nuadojama ryšių su klientais valdymui (angl. Customer Relationship Management, sutr. CRM). Norint surinktus duomenis apie vartotojus paversti reikalinga informacija, reikia naudotis šios srities įrankiais ir metodais. Tai leidžia gauti įvairius atsakymus į organizacijai aktualius klausimus, pvz:• Kokie vartototojai susidomi jų teikiamomis paslaugomis ar prekėmis dažniausiai;• Kurie iš praeities vartotojų gali išlikti vartotojais ateityje;• Ar yra vartotojų grupių, turinčiomis panašius charakteristikos apibūdinimus;• Kokios prekės ar paslaugos yra populiariausios vartotojų tarpe;• Kokios prekės ar paslaugos turėtų turėti paklausą atetityje ir pan. Atakymai į šiuos klausimus dažniausiai būna organizacijų surinktuose duomenyse, tačiau tai nebūna dar visiškai pilni atsakymai. Norint, kad būtų į juos atsakyta, reikalingi galingi duomenų gavybos įrankiai, kurie galėtų apdoroti visus šiuos duomenis. Jei duomenų gavybos modelius papildytumėme ekonominėmis žiniomis, tai dar tik labiau patikslintų ir suteiktų aiškumo mūsų atsakymams į iškilusius klausimus.

IšvadosKad ir kokia būtų puiki data-mining metodologija, ji niekada nesugebės atstoti profesionalaus analitiko. Tačiau padės jam geriau panaudoti turimus duomenis ir greičiau bei tiksliau priimti sprendimus, tuo minimizuodami klaidos tikimybę. Be abejonės svarbiausia data-mining funkcija yra išrinkti svabiausius duomenis iš begalės kitų, mažinant laiko bei technologinius resursus ir optimizuojant gaunamus rezultatus. Yra nemažai faktorių, dėl kurių atsirado ir toliau vystosi data-mining technologijos, tačiau pagrindiniai yra šie:• Modelių testavimo sudėtingumas ir empiriškas patikrinimas;• Labai dideli kiekiai duomenų;• Įvairių anlitinių, statistinių ir tikimybinių modelių sudarymas.Data-mining metodologija gali būti taikoma ne tik sprendžiant duomenų klasifikacijos ir ryšių tarp duomenų bei informacinių modelių identifikavimo problemoms, bet ir numatomos galimybės dirbti su meta duomenimis, perspektyviose duomenų sistemose. Tai tik patvirtina data-mining svarbuma ir tinkamuma šiuolaikiškame besivystančių technologijų pasaulyje.

Literatūros sąrašas:

Informacijos ir komunikacijos technologijos/ Rimvydas Skyrius, Audronė Mikalauskienė, Laima Zalieckaitė,2005

http://www-db.stanford.edu/~ullman/mining/overview.pdf

http://www.thearling.com/

http://www.neo.lt/nkm/index.phtml?lst=articles&ptid=2&tpid=30&arid=460

http://www.kompiuterija.lt/archyvas/2001/01/200101p01.shtml