Untitled - Vitajte na stránkach www.einsty.hostujem.sk
Untitled - Vitajte na stránkach www.einsty.hostujem.sk
Untitled - Vitajte na stránkach www.einsty.hostujem.sk
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
I N F O W A R E<br />
vého <strong>sk</strong>ladu urèenými údajmi v požadovanom<br />
èase. Z konkrétnych nástrojov môžeme spomenú<br />
Oracle Warehouse Builder (OWB), Microsoft DTS<br />
(Data Transformation Services), DPS (Data Pipeline<br />
Services) od èe<strong>sk</strong>ej firmy Adastra a ïalšie (obr. 1).<br />
Obr. 2 Štruktúra údajov jednoduchého príkladu exportu údajov<br />
Obr. 3 Štruktúra údajov pôvodnej databázy cvièného príkladu<br />
JEDNODUCHÝ ILUSTRAÈNÝ<br />
PRÍKLAD TRANSFORMÁCIE<br />
Pomerne jednoduchou úlohou je „presvedèi “<br />
prakticky ¾ubovo¾ný databázový server, aby vyexportoval<br />
údaje z databázovej tabu¾ky do flat súboru.<br />
Ako príklad uvedieme export z databázy<br />
spravovanej vo¾ne šírite¾ným (a preto aj populárnym)<br />
databázovým serverom MySQL. Tento server<br />
nemá implementované nijaké a<strong>na</strong>lytické nástroje,<br />
takže ani nemáme inú možnos . Ak máme<br />
údaje pod správou moderných výkonných (a drahých)<br />
databázových serverov typu Oracle, MS SQL<br />
Server, IBM DB2, môžeme tieto servery využi aj<br />
<strong>na</strong> a<strong>na</strong>lýzu a data warehouse. Export sa bude týka<br />
tabu¾ky market (poznáme ju z predošlej èasti),<br />
ktorá má ve¾mi jednoduchú štruktúru (obr. 2).<br />
Už pri letmom poh¾ade <strong>na</strong> tlaèidlá konzoly<br />
MySQL vidíme, že s exportom do súboru zrejme<br />
nebudú väèšie problémy. Z uvedených údajov nám<br />
vznikne textový súbor, ktorý, ako sme už uviedli,<br />
dokáže <strong>na</strong>èíta akýko¾vek databázový server.<br />
# mesiac tovar mesto ce<strong>na</strong><br />
1,' knihy' ,' Zili<strong>na</strong>' ,' 187.20'<br />
3,' potraviny' ,' Kosice' ,' 634.20'<br />
2,' kozmetika' ,' Bratislava' ,'1295.40'<br />
K dispozícii máme, samozrejme, aj iné možnosti,<br />
<strong>na</strong>príklad zaregistrova tento zdroj údajov a pristupova<br />
k nemu cez rozhranie ODBC a podobne.<br />
PRÍKLAD Z REÁLNEJ PRAXE<br />
Z údajov v predchádzajúcom príklade by sme pravdepodobne<br />
niè nevydolovali, preto <strong>sk</strong>úsme zložitejší<br />
príklad, ktorý môže poslúži aj ako podklad<br />
<strong>na</strong> a<strong>na</strong>lýzu a dolovanie údajov (datamining). Ve¾mi<br />
èasto sa používajú príklady s <strong>na</strong>plnenými demonštraènými<br />
databázami, v prípade SQL Servera 2000<br />
je to <strong>na</strong>príklad databáza fiktívnej firmy Northwind,<br />
Foodmart a podobne. No už len vysvetlenie<br />
štrukrúry spomí<strong>na</strong>ných demonštraèných<br />
databáz a relácie medzi jednotlivými tabu¾kami<br />
by prekroèilo rozsah tohto èlánku. Navyše<br />
nie každý èitate¾ bez ekonomického<br />
vzdelania pochopí štruktúru firemnej databázy,<br />
preto použijeme jednoduchý príklad<br />
„zo života“, databázovú tabu¾ku záz<strong>na</strong>mov<br />
hovorov z telefónnej ústredne. Veï telefonujeme<br />
(a platíme úèty) prakticky všetci,<br />
takže údaje o telefónnych hovoroch, <strong>na</strong>vyše<br />
koncentrované do jednej tabu¾ky, netreba<br />
zvláš komentova .<br />
Ako platformu pre tento príklad použijeme<br />
platformu Microsoft<br />
SQL Server Server 2000,<br />
pretože táto platforma<br />
má niektoré nástroje pre<br />
business intelligence<br />
a datawarehouse, <strong>na</strong>príklad<br />
Microsoft Data Transformation<br />
Services a Microsoft A<strong>na</strong>lysis<br />
Services, implementované priamo.<br />
Zdrojom údajov sú reálne<br />
záz<strong>na</strong>my z prevádzky telefónnej<br />
ústredne (konkrétne údaje sú<br />
vyma<strong>sk</strong>ované z dôvodu zachovania<br />
telekomunikaèného tajomstva).<br />
Telefón<strong>na</strong> ústredòa<br />
zaz<strong>na</strong>menáva do databázy údaje<br />
o každom u<strong>sk</strong>utoènenom hovore.<br />
Nieko¾kodòový záz<strong>na</strong>m<br />
bol uložený v 20-megabajtovom<br />
súbore MDB (Microsoft Access)<br />
a obsahoval 175 000 záz<strong>na</strong>mov<br />
o telefónnych hovoroch. Štruktúra<br />
návrhu pôvodnej databázy<br />
je jasná z návrhového zobrazenia (obr. 2).<br />
Aby sme si urobili ešte lepšiu predstavu o údajoch<br />
v databáze, uvedieme zopár ilustraèných<br />
záz<strong>na</strong>mov.<br />
Obr. 4 Definícia parametrov transformácie údajov<br />
z Access databázy do databázy MS SQL Servera<br />
2000<br />
Zvláštne vysvetlenie si zaslúži ståpec Skupi<strong>na</strong>,<br />
ktorý obsahuje èísla 1 až 5. Tento údaj zaraïuje<br />
u<strong>sk</strong>utoènený telefónny hovor do jednej z <strong>na</strong>sledujúcich<br />
<strong>sk</strong>upín: 1 Miestne hovory<br />
2 Medzimesto<br />
3 Hovor <strong>na</strong> mobilný telefón<br />
4 Hovor <strong>na</strong> audiotexovú službu<br />
5 Medzinárodný hovor<br />
Údaje sme prenášali do novovytvorenej databázy<br />
pod správou SQL Servera 2000 s názvom A<strong>na</strong>lýza.<br />
Transformácia bola v tomto prípade ve¾mi jednoduchá<br />
a spoèívala vo vynechaní niektorých ståpcov,<br />
ktoré neniesli podstatné informácie alebo sa<br />
dali odvodi z iných ståpcov (obr. 4).<br />
Transformácia 165 000 údajov trvala menej<br />
ako pol minúty, a to <strong>na</strong> z<strong>na</strong>ène poddimenzovanom<br />
poèítaèi s procesorom Celeron 366 a 256 MB<br />
RAM, takže môžeme smelo konštatova , že „dátová<br />
pumpa“ Microsoft DTS spåòa nároèné èasové<br />
požiadavky <strong>na</strong> proces ETL, uvedené v úvode<br />
èlánku.<br />
Volajuci Skup Cas zaciatku Trvanie Impulzov Volane cislo Prihlasenie<br />
---------- ---- -------------------- ------- --------- ------------- ------------<br />
8x-951xx 1 2000-10-11 14:50:00 16 1 63451xx 17<br />
8x-951xx 3 2000-10-11 15:02:00 12 2 090319xxxx 51<br />
8x-952xx 1 2000-10-11 15:25:00 15 2 6345xxx 20<br />
Po transformácii máme údaje bezpeène prenesené<br />
z vratkého úloži<strong>sk</strong>a Access databázy a uložené<br />
pod správou MS SQL Servera 2000. Nieko¾ko<br />
Obr. 5<br />
Príklad výberu<br />
vstupných a<br />
predikovaných<br />
ståpcov<br />
124 PC REVUE 12/2001