Turinys
Įvadas 3
Duomenų saugyklų paradigma ir problemos 4
Duomenų saugyklos kūrimas 7
Rekomenduojami duomenų saugyklos kūrimo etapai 8
SAS duomenų sandėlio kūrimo principai 9
Esminiai SAS® sistemos duomenų sandėliavimo skirtumai 10
Išvados 12
Literatūra 13Įvadas
Didžioji dalis pasaulio informacijos sukaupta kompiuterių diskuose, garso ir vaizdo juostose, telefonų autoatsakikliuose, kreditinėse ir kitose magnetinėse kortelėse. Šiose priemonėse žodžius, skaičius, vaizdus ir garsus saugo skirtingomis kryptimis įmagnetinti magnetiniai domenai (feromagnetikų vienalyčio įmagnetėjimo sritys).
Pastaruosius dešimtmečius dirbtinė atmintis turėjo didžiulę įtaką visuomenei: kompiuterių atmintis ramiai sekė žmonių, pinigų ir prekių judėjimo srautus. Informacijos amžiuje ji yra elektroninių žinių sandėlis, kuriame laikomi mo
okslo, kultūros, medicinos, pramonės ir finansų duomenys. Ši informacija pranašesnė už kitas technologijas, nes lengvai užrašoma, perskaitoma ir ištrinama.
Remiantis duomenų sandėliavimo “tėvu” ponu Bilu Inmonu (Bill Inmon), duomenų sandėlis nėra duomenų bazės sinonimas. Duomenų sandėliavimas nėra tik duomenų saugojimas, tai yra procesas, susidedantis iš daugiau dalių.
Duomenų sandėlio koncepcija yra informacijos valdymo pagal verslo analitikų poreikius būdas. Duomenų sandėlis duoda sprendimų priėmėjams žinias geresniems sprendimams priimti. Galima fiziškai atskirti organizacijos verslo informacijos sistemą nuo jos operacinių sistemų. Verslo informacijos sistema yr
ra suminės ir detalios informacijos, kuri gaunama iš duomenų, esančių operacinėse sistemose, saugykla, pagal pareikalavimą papildyta informacija iš išorinių šaltinių. Pastarieji duomenys paprastai yra plačiai išsibarstę įmonėje ir izoliuoti atskiruose departamentuose.
Duomenų bazėse saugomi duomenys būtų beverčiai, jeigu jų nebūtų ga
Yra kuriama programinė įranga vartotojui leidžia nagrinėti turimus duomenis, naudojant įvairius daugiamačius duomenų bazės pjūvius, kurti naujus išvestinius rodiklius, juos palyginti, grupuoti pagal dominančius kriterijus, analizuoti skirtingais agregavimo lygiais. Gauta analitinė informacija gali būti atvaizduojama tiek tekstiniame, tiek grafiniame pavidale bei išsaugoma skirtinguose duomenų saugojimo formatuose.
Specialistų teorinis ir praktinis šių žinių taikymas leidžia sėkmingai integruoti duomenis, egzistuojančius skirtingose įmonės informacinėse sistemose ir/arba išoriniuose šaltiniuose, patalpinti į duomenų saugyklą išvalytą informaciją, ją konsoliduoti bei apibendrinti.Duomenų saugyklų paradigma ir problemos
Šiuolaikinės saugyklų technologijos leidžia saugoti iki milijonų milijardų baitų (petabaitų) duomenų. Ar


Istoriškai DS atsirado anksčiau už DG (W. H. Immonas yra laikomas jos “tėvu” (Immon, 1996)). Antra vertus, DS yra informacinė sistema, skirta sprendimų paramai (įmonės valdymui, veiklos rezultatų analizei, klientų analizei ir pan.) (Mattison, 1996). DS vaidina įmonės “referento” vaidmenį, nes ji homogeniniu būdu sujungia duomenis, saugomus skirtingose DB ir turinčius skirtingus formatus. DS leidžia surinkti, saugoti, integruoti, suskaidyti ir analizuoti duomenis įmonės poreikius atitinkančiais pjūviais. Greita kreiptis į duomenis ir visapusiška jų analizė padeda įmonėms geriau prisitaikyti prie rinkos pokyčių.
DS suteikia galimybę daug paprasčiau rasti reikiamą informaciją duomenų struktūroje, skirtoje žinioms išgauti, pagerina sprendimų paramą, sumažina informacijos gavimo sąnaudas, leidžia tiksliau identifikuoti įmonės tikslus ir pan. DS paskirtis iš esmės ir yra šių galimybių įgyvendinimas per strateginius įmonės tikslus.
Kadangi DS nėra nei produktas, nei programinė įranga, o tik aplinka, kuri kuriama, o ne perkama, tai DS konstravimas yra gana ilgas procesas (Kimball, 1997). DS projektas skiriasi nuo klasikinio, nes jis reikalauja per tam tikrą laiką atlikti darbo imlias procedūras: paimti neapdorotus duomenis iš produkcijos sistemų, paruošti naujas duomenų visumas bei jų apdorojimo procedūras ir kt.
DS konstravimą galima išskaidyti į tris tarpusavyje nepriklausomas stadijas (Mattison, 1996):
1) ikiprojektinį tyrimą, kurio metu apibrėžiami DS projekto tikslai, nustatoma ko
2) duomenų modelio, aprašančio DS konceptualiu ir loginiu lygiu, tyrimą;
3) DS užpildymo tyrimą, kuriam reikia nuodugniau analizuoti duomenis, pasirinkti užpildymo metodą ir nustatyti tikslias datas, kada duomenys pateks į DS.
DS paprastai susideda iš keturių tipų elementų (Kimball, 1997):
duomenų šerdis – pirminė lentelė, kurios pagrindu sudaromos kitos duomenų lentelės. duomenų šerdis paprastai yra normalizuotos formos lentelė, kaip ir reliaciniame modelyje. Iš šerdies gali būti sukonstruoti žvaigždės arba snaigės pavidalo modeliai, kuriuose yra faktų lentelė ir su ja susijusios faktų dimensijų lentelės.
Kolekcijos arba agregatai, DS aplinkoje skirti greitai patenkinti žinomus ir apibrėžtus vartotojų poreikius. Pavyzdžiui, galima įsiminti produkto pardavimų sumas per tam tikrą laikotarpį. Toks įsiminimas pagreitina paiešką, bet neužtikrina duomenų vientisumo, kadangi duomenys DS nėra keičiami. Kolekcijos gali būti įsimenamos dviem būdais: sukuriant naują faktų lentelę agregatui ir ištrinant visas nenaudingas ir nesuderinamas su faktu dimensijas arba papildant pradinę lentelę agregatais kartu su informacija, nurodančia grupavimo lygį.
Archyvai – duomenų visumos, skirtos duomenims rūšiuoti ir jiems reintegruoti į DS. Archyvuose saugomi “žali”, elementariausi duomenys, užkonservuoti nuo laiko tėkmės. Archyvai dažniausiai yra vienintelė vieta, kurioje yra detaliausio lygio duomenys. Archyvuose saugoma įvykių konteksto istorija gali padėti užkirsti kelią jau buvusių aplinkybių pasikartojimui.
Metaduomenys yr
pav. Duomenų saugyklos vieta sistemoje
Bene aktualiausios yra šios DS problemos:
priimančių sprendimus asmenų mentalitetas ir esamos metodologijos, pagal kurias kiekviena sistema suvokiama kaip atskira ir nepriklausoma;
esama kompiuterių architektūra (von Neumano palikimas), kurioje sudėtinga atlikti transakcijas ir kreiptis į tuos pačius duomenis;
produkcijos sistemų duomenys modeliuojami atsižvelgiant į įmonės padalinių poreikius, todėl tas pats objektas gali turėti skirtingą prasmę skirtinguose padaliniuose;
duomenų tarša dėl prastos duomenų kokybės, dažniausiai susijusios su nepakankamai korektišku konceptualiu projektavimu arba privačiu duomenų pobūdžiu.Duomenų saugyklos kūrimas
Apie duomenų saugyklų ir duomenų vitrinų kūrimo technologijas, kūrimo metodus parašyta daug teorinių straipsnių, nuolat vyksta metodiniai ginčai. Ne kartą apie tai buvo rašyta ir “Informacinėse technologijose”. Šiandien mes norėtume pavaizduoti teorinius žingsnius konkrečiu pavyzdžiu – energijos srautų duomenų saugyklos realizavimo projektu. Priimant sprendimus, firmos vadovas ir jam padedantys padaliniai vadovams nori gauti juos dominančią informaciją apie kiekvieno padalinio bei apie visos firmos veiklą. Reikalingi duomenys imami iš viso informacijos srauto, kurį generuoja buhalterinės, sandėlio ir kitos programos ir pateikiami įvairiais būdais – įprastinėmis popierinėmis ataskaitomis, elektroninių lentelių bylomis bei kitais būdais. Minėti duomenų šaltiniai – tai dažniausia kliento/serverio architektūros OLTP (“On-line Transaction Processing”) sistemos. Kartais tai būna atskiros operacinės sistemos bylos. Surinkti reikalingą informaciją iš skirtingo formato, skirtingų duomenų šaltinių ne taip paprasta. Šis procesas priklauso nuo tam tikrų priežasčių: Pirma. OLTP sistemose saugomi ne visi duomenys arba jie yra per daug išsamūs. Skirtingose OLTP sistemose tie patys dalykai gali skirtingai vadintis ir būtisusiję skirtingais ryšiais. Tokia neapdorota informacija analizei nelabai tinka.
Antra. Dažniausia šios sistemos dirba skirtingoseoperacinėse sistemose, informacija saugoma skirtingose RDBVS arba skirtingose bylose ir, norėdamas gauti reikiamą informaciją, be kvalifikuoto programuotojo neišsiversi.
Trečia. Vartotojui, vargu, ar galima pasiūlyti naudoti, pavyzdžiui, SQL kalbą. Informaciją jam reikia pateikti įprastinėje aplinkoje, pavyzdžiui, MS Excel aplinkoje, arba nors jau ataskaitų forma.
Šiuo metu kliento/serverio architektūros OLTP sistemoms į pagalbą ateina duomenų saugyklų kūrimotechnologijos, padedančios spręsti analitikų problemas. Praktikoje analitinės sistemos dažniausia turi atskirą duomenų šaltinį – duomenų saugyklą – ir yra nesusijusios su konkrečių uždavinių (buhalterijos, sandėlio ir t.t.) OLTP sistemomis. Dažniausia pasitaikančios duomenų saugyklos yra:
1. Loginė duomenų saugykla. Jos pagrindas – metaduomenys, pagal kuriuos aprašomi pirminiai duomenų šaltiniai. Reikalingi duomenys gaunami iš SQL užklausų, duomenų apdorojimo procedūrų ar naudojant kitą programinę įrangą iš griežtai apibrėžtose vietose esančių duomenų šaltinių. Tokia architektūra nėra “tikra” duomenų saugykla, nes pradiniai duomenys taip ir lieka OLTP sistemose. Pagrindinis trūkumas – nepakankamas darbo su duomenimis efektyvumas. Norint gauti duomenis, per užklausą reikia kreiptis į visas OLTP sistemas. Duomenų gavimo greitis, didėjant duomenų šaltinių skaičiui, mažėja. Todėl dažniausia, esant paskirstytai šaltinių architektūrai, metaduomenų architektūra tampa praktiškai nerealizuojama.
2. Atskiriems (nutolusiems) firmos padaliniams kuriamos atskiros duomenų vitrinos, pateikiančios tik jiems reikalingus duomenis. Gaunama atskirų duomenų vitrinų aibė. Pagrindinis trūkumas – duomenys jose nesinchronizuoti ir, formuojant suvestinę informaciją, gali tekti kurti papildomą suvestinių (sinchronizuotų) duomenų saugyklą.
3. Centralizuota duomenų saugykla realizuota RDBVS arba MDBVS (OLAP sistemos) pagrindu. Į ją duomenys pakraunami iš OLTP sistemų. Reikalingi (ne visi) duomenys imami iš centrinės duomenų saugyklos ir kraunami į duomenų vitrinas. Vienareikšmiškai šis variantas yra geriausias.Rekomenduojami duomenų saugyklos kūrimo etapai
1. Galutinių vartotojų informacinių poreikių analizė.
2. Duomenų šaltinių – tekstinių bylų, elektroninių lentelių, reliacinių duomenų bazių, geografinių duomenų sistemų ir pan. analizė. Duomenų struktūrų ir procedūrų, užkraunančių pradinius duomenis, apibrėžimas. Kraunant duomenis į duomenų saugyklą, šiuos reikia apdoroti – denormalizuoti lenteles, išvalyti ir transformuoti duomenis, sukurti naujus, trūkstamus atributus. Paskutinis žingsnis – įkrauti duomenis į duomenų saugyklą.
3. Duomenų apdorojimas: papildomos informacijos įvedimas, konsolidavimas, agregavimas ir t.t., padidinantis duomenų naudojimo efektyvumą. Naudojant klientines taikomąsias programas, paruošti duomenys atiduodami analitikams. Vartotojų “rolių” sukūrimas. Vartotojų mokymas.
4. Gali būti papildomas duomenų srautas – iš duomenų saugyklos į OLTP sistemą, po to, kai į duomenų saugyklą užkrauti duomenys papildomi iš kitų duomenų šaltinių ir apdorojami.
5. Duomenų vitrinų kūrimas.SAS duomenų sandėlio kūrimo principai
SAS sistema yra integruotas programinės įrangos rinkinys, skirtas įvairiapusės informacijos tiekimui įmonėje . Sistemos funkcionalumo pagrindas – tai, kad ji užtikrina prisijungimą prie duomenų, duomenų valdymą, duomenų analizę ir duomenų pateikimą. Šie keturi tikslai yra iš esmės bendri kiekvienam taikymui. Taikymai padaryti su SAS sistema apima vadovų informavimo sistemas, duomenų įvedimą, atstatymą, valdymą, ataskaitų ruošimą ir grafiką, statistinę ir matematinę analizę, verslo planavimą, prognozavimą ir sprendimų palaikymą, operacijų tyrimą ir projektų valdymą, statistinį kokybės gerinimą, kompiuterio panaudojimo vertinimą, aplikacijų vystymą. SAS sistemos modulinis dizainas leidžia organizacijoms licencijuoti jų poreikiams būtinas sistemos dalis. Jei organizacijų poreikiai išauga ar pasikeičia, gali būti įdėtos papildomos sistemos komponentės, kurios daugelyje kompiuterinių platformų pilnai integruojamos į turėtą sistemą.
Pirma ir svarbiausia išvada yra ta, kad duomenų sandėlio kūrimas savaime reikalauja vystymo fazėmis metodo, naudojant greito aplikacijų paruošimo ir prototipų taikymo technikas, kurios yra įdiegtos SAS® sistemoje. Tai yra integruotas, orientuotas į verslo poreikius būdas: galutinių vartotojų departamentai įneša reikšmingą indėlį į visas fazes jau nuo pirmosios dienos, o IT departamentai turi būti pasiruošę ne tiek laipsniškam, bet labai ryškiam duomenų sandėlio naudojimo padidėjimui ataskaitų ruošimui ir analizei. SAS® sistemoje esančios priemonės ir galimybės (“protingas” klientas/serveris, daugelio tiekėjų architektūra ir t.t.) taip pat įgalina taikyti lankstų ir žema rizika pasižymintį metodą: kiekviename žingsnyje resursai, kurie turi būti skirti (pvz. domenų apdorojimo techniniai pajėgumai, personalas ir t.t.) yra labai nedideli, palyginti su potencialia nauda verslui.
Galų gale, kadangi duomenų sandėlio kūrimas yra procesas, yra svarbu, kad šio proceso valdymas būtų kaip galima labiau integruotas.
Duomenų sandėlio kūrimo procesas gali būti logiškai išskirstytas į tris atskiras fazes: valdymas, organizavimas, eksploatavimas. Šios fazės yra greičiau integruotos, negu nuoseklios, kaip kad kuriant tranzakcines duomenų bazes. Dėl to integravimo priemonių rinkinys SAS® sistemoje tampa svarbiu turtu visame projekto cikle.
Duomenų sandėlio valdymo dalis skirta prisijungimui prie duomenų šaltinių, duomenų iš išorinių ir vidinių šaltinių apjungimui bei tų duomenų transformavimui. Šie procesai yra skirti duomenų sandėlio užkrovimui.
Duomenų sandėlio organizavimo dalis apima sandėlio duomenims tinkamiausios ir efektyviausios struktūros sukūrimą, o taip pat tokius strateginius dalykus kaip centralizuotą ar paskirstytą sandėliavimą. Siekiant efektyvios organizacijos, integruotos metabazės sukūrimas yra fundamentalus dalykas. Integruota metabazė – tai aktyvių, dinaminių metaduomenų aibė, kuri įprasmina duomenų sandėlio informaciją.
Duomenų sandėlio eksploatavimas apima galutinį tikslą – verslo informacijos pristatymą verslo ekspertams, suteikiant priemones vartotojo kontroliuojamam informacijos išgavimui iš duomenų, ataskaitų ruošimui ir analizei.Esminiai SAS® sistemos duomenų sandėliavimo skirtumai
Pateikiame kai kuriuos pagrindinius SAS Duomenų sandėlio skirtumus, gautus lyginant jį su kitų tiekėjų siūlomais sandėliais:
• Tai pilnas (end-to-end) sprendimas, kai vieno tiekėjo produktai dengia Valdymo (prisijungimo, restruktūrizavimo bei automatiškai pagal tvarkaraštį atnaujinimo iš operacinių šaltinių), Organizavimo (fizinis saugojimas bei metaduomenų valdymas) ir Eksploatavimo (aplikacijų verslui galutinių vartotojų departamentuose) sferas.
• Galimybė per iš anksto sukurtus priėjimo interfeisus naudotis bet kuriais operacinių duomenų šaltiniais. Be šios galimybės galutiniam vartotojui negali būti duota garantija, kad jų verslo aplikacijos galės naudoti bet kurią reikalingą informaciją, nepriklausomai nuo šaltinio.
• Šimtai egzistuojančių ir labai sėkmingų (pamatuotos investicijų grąžos požiūriu) Duomenų sandėlių įdiegimų, nuorodos į kuriuos pateikiamos viešai (pasaulyje virš 3000 SAS Duomenų sandėlių).
• Patikrinta Greito sandėliavimo metodologija, kuria vadovaujantis galima atlikti duomenų sandėlio projekto įdiegimą “žingsnis po žingsnio” metodu, atsižvelgiant į egzistuojančias infrastruktūras ir yra orientuota į pamatuojamos investicijų grąžos pateikimą per 90 dienų.
• SAS/Warehouse Administrator – SAS sistemos dalis, skirta pilnai duomenų sandėlio valdymo ir organizavimo kontrolei. SAS/Warehouse Administrator sumažina reikalingo duomenų sandėlio sukūrimui darbo apimtį. Tai įmanoma specialiai sukurto interfeiso, kuris įgalina automatiškai generuoti duomenų paėmimo, transformavimo ir pakrovimo programas, dėka.
• SAS® sistema skirtingai nuo Reliacinių duomenų bazių valdymo sistemų yra sukurta duomenų sandėliavimui.
• SAS Institutas ir jo partneriai turi ilgametę duomenų sandėliavimo patirtį .Išvados
Duomenų saugyklos, tai kompiuterinės sistemos leidžiančios įrašyti, taisyti ir peržiūrėti informaciją. Duomenų saukyklos nėra nei produktas, nei programinė įranga, o tik aplinka, kuri kuriama, o ne perkama, tai duomenų saugyklos konstravimas yra gana ilgas procesas Pagrindinis duomenų saugyklos atsiradimo motyvas yra tai, kad saugomi duomenys yra svarbus informacijos šaltinis.
Informacija duomenų saugyklose yra pranašesnė už kitas technologijas, nes lengvai užrašoma, perskaitoma ir ištrinama. Yra sukrtos įvairios programinės įrangos leidžiančios vartotojui nagrinėti turimus duomenis. Šiuolaikinės saugyklų technologijos leidžia saugoti iki milijonų milijardų baitų (petabaitų) duomenų.Literatūra
1. www.leidykla.vu.lt/inetleid/inf-mok/22/str8.html –
2. www.it.lt
3. http://www.paspara.lt/aktualijos.dw.phtml