Intelligenz für jedermann - Computerwoche
Intelligenz für jedermann - Computerwoche Intelligenz für jedermann - Computerwoche
DIE TRANSFORMATION DER GESCHÄFTSANALYSE IM UNTERNEHMEN Intelligenz für jedermann SYBASE®, EIN SAP®-UNTERNEHMEN 1
- Seite 2: Intelligenz für jedermann DIE TRAN
- Seite 6: 8 Kapitel 1: Die Big-Data-Lüge 11
- Seite 10: Einmal mehr wird ein Katastrophensz
- Seite 14: Vier Schritte zur Datenqualität 4.
- Seite 18: Vier zentrale Faktoren für Enterpr
- Seite 22: Intelligenz für jedermann KAPITEL
- Seite 26: EDWs: die Achillesferse des Unterne
- Seite 30: WIE IN KAPITEL 1 BEREITS ERWÄHNT,
- Seite 34: Business Analytics in der Praxis KA
- Seite 38: Innovation im Analytics-Bereich: Ge
- Seite 42: HEALTHTRANS, eines der größten un
- Seite 46: MIT DER BEWÄLTIGUNG DER BIG-DATA-H
- Seite 50: 1515691///567 1515691///567 In den
DIE TRANSFORMATION DER<br />
GESCHÄFTSANALYSE<br />
IM UNTERNEHMEN<br />
<strong>Intelligenz</strong> <strong>für</strong><br />
<strong>jedermann</strong><br />
SYBASE®, EIN SAP®-UNTERNEHMEN<br />
1
<strong>Intelligenz</strong> <strong>für</strong> <strong>jedermann</strong><br />
DIE TRANSFORMATION DER GESCHÄFTSANALYSE<br />
IM UNTERNEHMEN<br />
2 3
<strong>Intelligenz</strong> <strong>für</strong> <strong>jedermann</strong><br />
Die Transformation der Geschäftsanalyse<br />
im Unternehmen<br />
Veröffentlicht von Sybase, einem SAP®-Unternehmen<br />
.Prinzenallee 13, 40540 Düsseldorf, Deutschland<br />
Der Guide to Analytics ist auf folgender Website bestellbar:<br />
sybase.com/analyticsguide<br />
Copyright © 2011 Sybase, ein SAP®-Unternehmen. Alle Rechte vorbehalten.<br />
Sybase und das Sybase-Logo sind registrierte Marken von Sybase, Inc oder<br />
dessen Tochtergesellschaften. ® verweist auf eine Registrierung in den<br />
Vereinigten Staaten von Amerika. SAP und das SAP-Logo sind Marken oder<br />
eingetragene Marken der SAP AG in Deutschland und anderen Ländern.<br />
Alle anderen Marken sind Eigentum der jeweiligen Inhaber.<br />
Gedruckt in den Vereinigten Staaten.<br />
Sofern dies durch das Urheberrechtsgesetz der Vereinigten Staaten aus<br />
dem Jahr 1976 nicht ausdrücklich gestattet ist, darf kein Teil dieser<br />
Publikation ohne vorherige schriftliche Genehmigung durch den<br />
Herausgeber reproduziert oder verteilt bzw. in irgendeiner Form in einer<br />
Datenbank bzw. auf einem anderweitigen Datenspeichersystem<br />
gespeichert werden.<br />
Design : Boing Design<br />
Irfan Khan,<br />
SVP & Chief Technology Offi cer<br />
Sybase, ein SAP®-Unternehmen<br />
Der Guide to Analytics zeigt anhand von Fakten und Beispielen, dass die in der Analysebranche<br />
weit verbreitete Furcht vor massiven Datenvolumen, stetig steigenden Nutzerzahlen und immer<br />
mehr Datentypen weit überzogen ist. Behauptungen, nach denen das so genannte Big-Data-<br />
Phänomen die Performance und Skalierbarkeit von Analytics Data Warehouses ernsthaft gefährden<br />
könnte, sind in dieser Schärfe schlicht nicht haltbar. Dies heißt nicht, dass die Schaffung eines<br />
reaktionsschnellen, umfassenden und skalierbaren Analytics Data Warehouse ein leichtes<br />
Unterfangen ist. Ganz im Gegenteil. Aber wie die folgenden Beispiele zeigen, lassen sich die<br />
damit verbundenen Herausforderungen durchaus erfolgreich meistern.<br />
Der Guide to Analytics schildert, wie es Unternehmen der verschiedensten Industriezweige<br />
gelungen ist, die Analyse tief in ihre betrieblichen Abläufe einzubetten. Er erörtert Studien,<br />
mit denen der Nutzen der Unternehmensanalyse ermittelt wird, und nennt zahlreiche<br />
Fallbeispiele <strong>für</strong> den signifikanten ROI, der mit der Analyse erzielbar ist und von dem<br />
besonders Unternehmen profi tieren, die mit wachsenden Datenmengen, steigenden Nutzerzahlen,<br />
vielen verschiedenen Datentypen, zunehmender Auslastung und immer mehr Ad-hoc-Abfragen<br />
zu kämpfen haben.<br />
4 5
8 Kapitel 1: Die Big-Data-Lüge<br />
11 Das Daten-Armageddon: ein Blick in die Vergangenheit<br />
14 Vier Schritte zur Datenqualität<br />
16 Gesucht: mehr Daten<br />
21 Kein Grund zur Panik<br />
22 Kapitel 2: <strong>Intelligenz</strong> <strong>für</strong> <strong>jedermann</strong><br />
26 EDWs: die Achillesferse des Unternehmens?<br />
29 Eine solide Analytics-Architektur<br />
34 Kapitel 3: Business Analytics in der Praxis<br />
37 Die erfolgreiche Bewältigung der Datenflut<br />
39 Die Ummünzung von Big Data in greifbare Vorteile<br />
42 Weniger Speicherbedarf, mehr Einblicke<br />
43 Analyse-Software in der Cloud<br />
43 Appliances: kleine Lösungen <strong>für</strong> überschaubare Ansprüche<br />
44 Analytics <strong>für</strong> mobile Nutzer<br />
45 Mehr Nutzer, weniger Probleme<br />
47 Aussagekräftige Datenstichproben<br />
48 Kapitel 4: Best Practices und der ROI von Analyseprojekten<br />
51 Der Proof of Concept – ein leistungsstarkes Instrument<br />
53 Die Voraussetzungen <strong>für</strong> ein erfolgreiches Analyseprojekt<br />
54 Jenseits des Proof of Concept<br />
56 Die Berechnung des ROIs von Analyselösungen<br />
58 Von der Theorie zur Praxis<br />
59 Im Fokus: Performance und Profit<br />
60 Quellen<br />
62 Weitere<br />
6 7<br />
1515691///567<br />
1515691///567<br />
INHALT
Die Big-Data-Lüge<br />
KAPITEL 1: DIE BIG-DATA-LÜGE<br />
8 9
Einmal mehr wird ein Katastrophenszenario<br />
an die Wand gemalt.<br />
Dieses Mal heißt das Stichwort „Big Data“ – enorme<br />
Datenmengen, die IT-Abteilungen unter sich zu begraben drohen. Seien Sie also gewarnt,<br />
und wappnen Sie sich <strong>für</strong> die nächste große Katastrophe!<br />
Aber wie Rotkäppchen und der böse Wolf oder die Mär<br />
vom drohenden Weltuntergang ist auch das Big-Data-<br />
Phänomen eine Fiktion. Eine Erfindung.<br />
In den einschlägigen Medien, allen voran den<br />
US-Publikationen, ist Big Data das Thema. Wenn man<br />
danach googelt, erhält man drei Millionen Treffer<br />
weltweit. Big Data ist aber nicht nur Gegenstand<br />
zahlreicher Artikel der IT-Presse, sondern findet sich<br />
auch in allgemeinen Publikationen wie der New York<br />
Times oder dem Christian Science Monitor. Sogar<br />
einen eigenen (englischsprachigen) Wikipedia-Eintrag<br />
gibt es schon. Nicht zu vergessen die zahlreichen<br />
Veranstaltungen auf großen Konferenzen, die sich<br />
mit dem Thema Big Data befassen. GigaOm hat 2011<br />
sogar eine jährliche Konferenz lanciert, die sich ausschließlich<br />
mit Big Data beschäftigt und nun online<br />
verfügbar ist. 1 In Deutschland widmet sich die Konferenz<br />
“Big Data und Analytische Datenbanken” in Neuss<br />
diesem Thema. Diese Flut von Daten und Informationen<br />
hat viele Beobachter dazu verführt zu glauben, dass<br />
die IT-Welt in der Big-Data-Welle untergehen wird.<br />
Eine bekannte Analystenfirma bezeichnet das Datenwachstum<br />
gar als die „schwierigste Herausforderung <strong>für</strong><br />
die Data-Center-Infrastruktur großer Unternehmen“ 2 .<br />
Angesichts dieses Hypes verwundert es nicht,<br />
dass IT-Leiter weltweit nervös auf ihre Analytics-<br />
Infrastruktur blicken und sich fragen, ob sie dem Druck<br />
der furchteinflößenden, massiven Datenmengen<br />
gewachsen sein wird. Hier mein Rat: Entspannen Sie<br />
sich. Big Data ist halb so schlimm, wie uns momentan<br />
weisgemacht wird.<br />
Das heißt nicht, dass die Datenmenge in den<br />
Unternehmen nicht anwachsen wird. Selbstverständlich<br />
tut sie das. Zwischen jetzt und 2020 wird sich das<br />
Datenvolumen in den meisten Unternehmen um das<br />
35-Fache aufblähen, prognostizieren die Analyseexperten<br />
von IDC. 3 Allerdings ist Big Data keineswegs ein neues<br />
Phänomen. Es kam nur nicht immer unter einem so<br />
griffigen Namen daher, mit dem Journalisten, Analysten<br />
und Experten machen können, was sie wollen.<br />
Das<br />
Daten-Armageddon:<br />
ein Blick in die<br />
Vergangenheit<br />
KAPITEL 1: DIE BIG-DATA-LÜGE<br />
10 11
KAPITEL 1: DIE BIG-DATA-LÜGE<br />
EREITS IN DEN 1950ER Jahren beobachteten die<br />
Unternehmen mit Sorge das Ansteigen der<br />
Datenmengen. So erkannte IBM schon sehr<br />
früh, dass sein aufblühendes Mainframe-Geschäft<br />
ohne einen bedeutenden technologischen Durchbruch<br />
sehr schnell an seine Grenzen stoßen würde, da die<br />
Menge der Transaktionsdaten in einem Tempo zunahm,<br />
mit dem die damaligen Speichertechnologien nicht<br />
mithalten konnten.<br />
Prompt präsentierte das Unternehmen 1956 das<br />
weltweit erste magnetische Festplattenlaufwerk,<br />
mit dem Daten auch außerhalb des Computerhauptspeichers<br />
abgelegt werden konnten.<br />
12 13<br />
4 Mit<br />
Kosten von rund 7.000 Euro pro Megabyte galt das<br />
riesige 4,4-MByte-Laufwerk von IBM aus insgesamt<br />
50 Platten mit einem Durchmesser von circa 60<br />
Zentimetern, die in einer mehr als kühlschrankgroßen<br />
Einheit untergebracht waren, als die Antwort auf die<br />
Skalierbarkeitsprobleme der Zeit. Ein Irrtum, wie sich<br />
bald herausstellen sollte.<br />
Denn mehr Kapazität ermöglichte immer mehr<br />
Daten. Und mehr Daten erforderten immer mehr<br />
Computer zu ihrer Verarbeitung. Entsprechend rasant<br />
stieg die weltweite Zahl der Computer von 600 im<br />
Jahr 1956 auf 30.000 in 1966 und 400.000 in 1976,<br />
um 1984 mit Einführung der Personal Computer<br />
schließlich auf 6 Millionen anzuschwellen. 5 Heutzutage<br />
verteilen sich rund 3 Milliarden Computer rund um<br />
den Erdball, wobei allein 2010 ganze 352 Millionen<br />
Geräte ausgeliefert wurden. 6 überwältigen. In seinem 1970 erschienenen Bestseller<br />
„Der Zukunftsschock“ prägte Alvin Toffler den Begriff<br />
der Informationsüberfütterung, um zu erklären,<br />
warum es Individuen und Unternehmen angesichts<br />
der Überfülle an Daten so schwerfällt, Entscheidungen<br />
zu treffen. 1986 schrieb der Technologiekritiker<br />
Theodore Roszak: „Ein Übermaß an Informationen<br />
kann Ideen regelrecht verdrängen und dazu führen,<br />
dass der Geist durch sterile, unzusammenhängende<br />
Fakten abgelenkt wird, ja orientierungslos zwischen<br />
Bergen von Daten hin und her irrt.“<br />
Die Datenflut, die<br />
von all diesen Computern hervorgebracht wird, ist<br />
schwindelerregend. Nach Schätzung von IDC wurden<br />
2009 weltweit 800.000 Petabyte an Daten erzeugt<br />
und gespeichert; bis 2020 soll das Datenvolumen auf<br />
runde 35 Zettabyte ansteigen.<br />
Auf jedem Abschnitt dieses langen Wegs gab<br />
es Be<strong>für</strong>chtungen, die von all den Computern<br />
erzeugten Daten könnten Nutzer und Unternehmen<br />
7 Dabei erfüllte die<br />
Informationsflut nicht nur populärwissenschaftliche<br />
Autoren, sondern auch Technologieexperten mit Sorge.<br />
So stand bereits 1990 eine IEEE-Konferenzveranstaltung<br />
unter dem Motto „Massenspeicher in der Krise“.<br />
Große Datenmengen sind also nichts Neues.<br />
Trotzdem wird uns gesagt, die aktuelle Big-Data-Krise<br />
bewegt sich auf einem völlig anderen Niveau. Ein<br />
Bericht formuliert es folgendermaßen: „Big Data<br />
bringt Änderungen in einem nie da gewesenen,<br />
kritischen Ausmaß mit sich, das weiter eskalieren<br />
wird, wenn neueste Technologietrends zusätzlichen<br />
Schwung erhalten und zusammengeführt werden.“ 8<br />
Menge der erzeugten Daten deutlich über der Speicherkapazität liegen wird.<br />
Eine andere Studie geht davon aus, dass 2020 die<br />
Abb. 1 Eine Kluft entsteht<br />
erzeugte Information > verfügbarer Speicherplatz<br />
Petabytes<br />
40.000.000<br />
erzeugte digitale Information<br />
verfügbarer digitaler Speicherplatz<br />
35.000.000<br />
30.000.000<br />
25.000.000<br />
20.000.000<br />
15.000.000<br />
10.000.000<br />
5.000.000<br />
9<br />
Trotz der immer wieder an die Wand gemalten Weltuntergangsszenarien ist es der Computerindustrie<br />
bisher stets gelungen, die anschwellende Datenflut zu bewältigen – durch eine IT-Infrastruktur, die besser<br />
und schneller ist, mehr Daten aufnehmen kann, weniger kostet und weniger Raum einnimmt. Anhand der<br />
Entwicklung der Festplattenlaufwerke lässt sich sehr gut erkennen, wie die Branche das Big-Data-Problem<br />
in den vergangenen Jahrzehnten erfolgreich gemeistert hat:<br />
Die Festplattenkapazität stieg<br />
von 3,75 Megabyte auf über 1 Terabyte und ist mehr als 270.000-mal so<br />
groß wie früher.<br />
Die Festplattengröße sank<br />
von 2,5 Kubikmetern (dem Format eines großen Kühlschranks) auf ganze 0,05<br />
Kubikzentimeter (2,5-Zoll-Formfaktor mit Plattenstapel) und ist damit nur noch<br />
ein 44.000stel so groß wie früher.<br />
Die Speicherkosten sanken<br />
von 10.600 Euro pro Megabyte auf weniger als 0,0001 Euro pro Megabyte<br />
(70 Euro pro Terabyte), was einem Preissturz um das 150.000.000-Fache entspricht.<br />
2010 2020<br />
Die durchschnittliche Zugriffszeit reduzierte<br />
sich von über 0,1 Sekunden auf wenige Tausendstel einer Sekunde und damit um<br />
mehr als das 40-Fache.<br />
Zusätzlich zur beeindruckenden Weiterentwicklung der Festplatte arbeitete die Computerindustrie erfolgreich<br />
und mit Hochdruck an anderen Hardware-Verbesserungen wie der Mikroprozessorleistung oder der<br />
Geschwindigkeit der internen Busse. Allerdings war und ist Hardware nur ein Aspekt zur Bewältigung der<br />
Big-Data-Krise, insbesondere im Bereich der Unternehmensanalyse.<br />
Quelle: IDC Studie “The Digital Universe Decade: Are You Ready?”,<br />
mit Unterstützung von EMC, Mai 2010<br />
10<br />
B<br />
Die Kluft im<br />
digitalen<br />
Universum
Vier Schritte<br />
zur Datenqualität<br />
4.<br />
3.<br />
2.<br />
1.<br />
AUF DEM WEG ZUR BEREITSTELLUNG EINES ANALYTICS DATA WAREHOUSE KOMMT DER DATENQUALITÄT HÖCHSTE<br />
BEDEUTUNG ZU. DABEI GIBT ES FÜR DIE SICHERSTELLUNG DER DATENQUALITÄT BEWÄHRTE METHODEN – VON DER<br />
DATENBEREINIGUNG BIS ZUM MASTER DATA MANAGEMENT. ALLERDINGS SOLLTE DAS STREBEN NACH GRÖSSTMÖGLICHER<br />
DATENQUALITÄT AUCH DIE INTERNE PRÜFUNG DER FOLGENDEN FAKTOREN UMFASSEN:<br />
Datenlatenz: Betrachten Sie alle drei Dimensionen der Datenlatenz im Unternehmen: das zeitliche<br />
Auftreten der Daten, die Dauer des Ereignisses und die Zeitspanne <strong>für</strong> die Entscheidung.<br />
Datenkorrelation: Ermitteln Sie gemeinsam mit Geschäftsanwendern den Kontext der Daten und definieren<br />
Sie Beziehungen zwischen den verschiedenen verwendeten Datensätzen unter Berücksichtigung von<br />
Wachstumsraten und doppelt vorhandenen Quellen.<br />
Self-Service: Legen Sie fest, wie Power-User die Daten <strong>für</strong> ihre Abfragen nutzen können, ohne IT- und andere<br />
Ressourcen über Gebühr zu belasten.<br />
Chief Data Officer: Übertragen Sie die Aufgaben eines Chief Data Officer an einen erfahrenen Mitarbeiter<br />
um sicherzustellen, dass sowohl die operative Qualität der Daten als auch die Unternehmensführung<br />
und -kontrolle gewährleistet sind. (Ob der Mitarbeiter den Titel eines CDO führt, ist dabei zweitrangig.)<br />
Die Wichtigkeit der Datenqualität kann gar nicht hoch genug gestellt werden. So zeigte eine Untersuchung der<br />
University of Texas, dass die Qualität bzw. Effektivität der Daten sowohl den Umsatz als auch den Gewinn der<br />
Unternehmen beeinflusst. Maßgebliche Einflussfaktoren sind dabei:<br />
Finanzielle Auswirkungen auf<br />
Bereiche wie Mitarbeiterproduktivität,<br />
Eigenkapitalrendite (ROE), Rendite<br />
auf das investierte Kapital (ROIC)<br />
und Gesamtkapitalrendite (ROA)<br />
Kundenfokussierte Auswirkungen<br />
auf Bereiche wie Innovationsfähigkeit<br />
und Umsatzerwirtschaftung<br />
aus neuen Produkten sowie die<br />
Fähigkeit zur Erweiterung der<br />
bestehenden Kundenbasis<br />
KAPITEL 1: DIE BIG-DATA-LÜGE<br />
Operative Auswirkungen auf<br />
Bereiche wie Kapazitätsauslastung,<br />
Planungs- und Prognosegenauigkeit,<br />
zeitgerechte Produktlieferung<br />
bzw. Servicebereitstellung 11<br />
14 15
Gesucht:<br />
mehr Daten<br />
995 FAND die erste internationale Konferenz zum<br />
Thema Knowledge Discovery und Data Mining<br />
in Montreal statt. Das Symposium beschäftigte<br />
sich mit der vorherrschenden Ansicht, dass das<br />
Potenzial der großen Datenmengen <strong>für</strong> Gesellschaft<br />
und Unternehmen nicht ausreichend ausgeschöpft<br />
würde, da der einzelne Anwender mit ihrer Analyse<br />
schlicht überfordert sei.<br />
In der Konferenzbroschüre schrieben die Veranstalter:<br />
„Datenbanken und Datensätze haben eine Größe<br />
erreicht, die menschlichen Nutzern selbst eine<br />
Teilanalyse unmöglich macht, und ersticken die<br />
Nutzer damit regelrecht. Dieses Phänomen, bei<br />
dem Daten wie aus einem Feuerwehrschlauch auf<br />
den Nutzer niederprasseln, findet sich in vielen<br />
Bereichen, z. B. in der wissenschaftlichen Datenanalyse,<br />
im Medizinsektor und Gesundheitswesen, auf<br />
Unternehmens- und Marketingebene sowie in den<br />
Finanzmärkten.“ 12 1<br />
Eines der Kernziele der Konferenz<br />
bestand darin, sich über neueste Methoden,<br />
statistische Modelle, Technologien <strong>für</strong> maschinelles<br />
Lernen und andere nicht Hardware-gestützte<br />
Ansätze auszutauschen, mit denen ein Überblick<br />
über die wachsende Datenflut erreicht werden<br />
sollte. Die Konferenzteilnehmer diskutierten<br />
Themen wie die Nutzung umfangreicher Datenmengen<br />
zur Erkennung von Betrugsdelikten oder<br />
die Rolle von Big Data bei der Entwicklung neuer<br />
Medikamente gegen HIV. In beiden Fällen hat die<br />
Kombination großer Datenvolumen mit modernsten<br />
KAPITEL 1: DIE BIG-DATA-LÜGE<br />
Analyseverfahren immense Fortschritte gebracht.<br />
1995 war auch das Jahr, in dem spaltenorientierte<br />
oder Column-Store-Datenbanken auf den Markt<br />
kamen. Dieser Ansatz, der sich vom klassischen<br />
Einheitskonzept der relationalen Datenbanken<br />
grundlegend unterschied, war bahnbrechend <strong>für</strong><br />
die Schaffung eines Analytics Data Warehouse<br />
(siehe Kapitel 2).<br />
Dank einer spaltenorientierten Analyseinfrastruktur<br />
brauchen sich die Unternehmen heute keine<br />
Sorgen über Big Data zu machen und können sich<br />
stattdessen voll auf die Vorteile dieses Phänomens<br />
konzentrieren. Massive Datenmengen, selbst wenn<br />
sie so heterogen sein sollten wie unstrukturierte<br />
Daten, können in spaltenorientierten Data Warehouses<br />
problemlos analysiert werden. Spaltenorientierte<br />
Data Warehouses punkten zudem durch ihre hohe<br />
Verarbeitungsgeschwindigkeit und ausgezeichnete<br />
Skalierbarkeit, dank der Sie so viele Anwender und<br />
Daten hinzufügen können, wie zur Erledigung der<br />
jeweiligen Aufgabe vonnöten sind.<br />
Dabei geht es nicht etwa um Funktionalitäten<br />
und Performance-Gewinne, die <strong>für</strong> die Zukunft<br />
erwartet oder prognostiziert werden. Es geht<br />
nicht darum, Big Data in handlichere Brocken<br />
aufzusplitten und auf Data Marts zu verteilen.<br />
Es geht weder um die Beschränkung von Nutzergruppen<br />
noch um die strikte Kontrolle von Workloads<br />
oder die Vermeidung von Ad-hoc-Abfragen. Und es<br />
geht erst recht nicht darum, die Analysefähigkeit Ihres<br />
16 17
Vier zentrale Faktoren<br />
<strong>für</strong> Enterprise Analytics<br />
BIG DATA ALS UNERBITTLICHES<br />
PHÄNOMEN<br />
-Datenmengen werden<br />
Speicherkapazität überschreiten<br />
EXPLOSION DER BENUTZERZAHLEN<br />
- Millionen von Data Minern<br />
befinden sich in Wartestellung<br />
NEULAND BEI UNSTRUKTURIERTEN<br />
DATEN<br />
- Heterogenität der Daten wird<br />
zum Standard<br />
NEUE DIMENSION DER GESCHWINDIGKEIT<br />
- Datenzufluss erfolgt immer<br />
schneller<br />
Unternehmens von Big Data beschneiden zu lassen.<br />
Vielmehr geht es darum, Big Data innerhalb und<br />
außerhalb eines Unternehmens zu identifizieren<br />
und mit diesen Daten die Business Intelligence bis ins<br />
Innerste des Unternehmens voranzutreiben. Es geht<br />
darum, Unternehmen agiler, wettbewerbsfähiger<br />
und rentabler zu machen.<br />
Ein Beispiel: comScore, ein Anbieter von Cloudbasierten<br />
Analyseservices und -lösungen <strong>für</strong> den<br />
E-Commerce, erkannte von Anfang an, dass sich<br />
der Fokus beim Webmarketing weg von bloßen<br />
Besucherzahlen hin zur Rentabilität verlagerte.<br />
Die comScore Customer Knowledge Platform bietet<br />
daher einen 360-Grad-Blick auf das Verhalten und<br />
die Präferenzen der Kunden bei ihrer Shoppingtour<br />
im Internet. Der Service überwacht das Surf- und<br />
Kaufverhalten auf jeder besuchten Website und<br />
verwendet dabei die Daten von Nutzern, die einer<br />
Analyse ihres Internetverhaltens ausdrücklich<br />
zugestimmt haben.<br />
Da sich Millionen von Webnutzern <strong>für</strong> die Analyse<br />
zur Verfügung stellten, sammelte comScore schnell<br />
enorme Datenmengen. Mittlerweile analysiert<br />
comScore mehr als 40 Terabyte an komprimierten<br />
Daten, wobei Woche <strong>für</strong> Woche 150 Gigabyte an<br />
Daten hinzukommen.<br />
Trotz dieses exorbitanten Volumens ist die Reaktionszeit<br />
bei Abfragen außergewöhnlich kurz. Laut<br />
Ric Elert, Vice President Engineering bei comScore,<br />
kann das Unternehmen daher „die Daten innerhalb<br />
kürzester Zeit analysieren und den Kunden sehr viel<br />
schneller Ergebnisse bereitstellen. Unseren Kunden<br />
hilft das wiederum, ihre Produkte und Services<br />
effektiver zu vermarken und mehr Geschäft<br />
zu generieren.“<br />
Dank Column-Store-Technologie erzielt comScore<br />
zudem eine Komprimierungsrate von 40 Prozent.<br />
Kurzprofil comScore<br />
1999 Cloud<br />
Gegründet 1999 Cloud-basierter Anbieter von Daten zum Online-Kundenverhalten<br />
3 Millionen 150 Gigabyte<br />
Erfasst mehr als 3 Millionen Websites Enormes Datenvolumen mit wöchentlicher Zunahme<br />
von 150 Gigabyte<br />
2 Millionen 40 Terabyte<br />
Mehr als 2 Millionen Verbraucher lassen<br />
ihr Konsumverhalten konstant erfassen<br />
Bei einem traditionellen Ansatz wären die<br />
Speicherkosten nach Aussage des Unternehmens<br />
erheblich höher.<br />
„Die Datenkomprimierung ist <strong>für</strong> uns überaus<br />
wichtig, da gigantische Datenströme über unsere<br />
Systeme laufen“, erläutert Scott Smith, Vice<br />
President Data Warehousing bei comScore. „ Den<br />
größten Teil unseres riesigen Datenpools bekommen<br />
die normalen Benutzer ja nie zu sehen.“ Wie comScore,<br />
ist auch Suntel durch dynamisches Wachstum<br />
charakterisiert. Als am schnellsten wachsender<br />
Telekommunikationsanbieter Sri Lankas verzeichnet<br />
Suntel bereits heute 500.000 Kunden. Mit modernster<br />
Technologie, innovativen Konzepten und einer<br />
ausgeprägten Dienstleistungsorientierung<br />
entwickelt das Unternehmen maßgeschneiderte<br />
Telekommunikationslösungen, die auch den<br />
anspruchsvollsten Anforderungen gerecht werden.<br />
Durch die Verbindung aus Innovationsfreude und<br />
Top-Technologie positioniert sich Suntel als führender<br />
Wegbereiter <strong>für</strong> den Übergang Sri Lankas in die<br />
40 Terabyte komprimierte Daten<br />
40% Komprimierungsrate<br />
KAPITEL 1: DIE BIG-DATA-LÜGE<br />
Wissensgesellschaft.<br />
Ein Wermutstropfen bestand <strong>für</strong> das Unternehmen<br />
allerdings darin, dass seine klassische relationale<br />
Datenbank mit den ehrgeizigen Zielen nicht Schritt<br />
halten konnte. So kam es bei der Abfrageverarbeitung<br />
zu inakzeptablen Verzögerungen.<br />
„Wir waren an einem Punkt angekommen“,<br />
erklärt Tariq Marikar, Director of Information<br />
Technology & Solutions Delivery, „an dem unsere<br />
Produktionsdatenbank um 20 Prozent über ihrer<br />
Auslastungsgrenze lag – ein unhaltbarer Zustand.<br />
Außerdem wollten wir Reports und Abfragen<br />
anhand von Daten erstellen, die mehrere Jahre und<br />
nicht nur wenige Monate alt waren. Wir wussten,<br />
dass dies nur mit einem separaten Repository<br />
möglich war, einem Data Warehouse, das speziell<br />
<strong>für</strong> das Reporting und die Analyse ausgelegt<br />
sein musste.“<br />
Mit einem spaltenorientierten Data Warehouse<br />
<strong>für</strong> modernste Analyseaufgaben gelangte Suntel<br />
ohne Umwege ans Ziel. „In unserer Branche ist es<br />
18 19
unabdingbar, große Mengen an historischen Daten<br />
anzeigen und analysieren zu können“, ergänzt<br />
Marikar. Wie der Vertreter von comScore lobt auch<br />
er den spaltenorientierten Ansatz, der „mit seiner<br />
hervorragenden Komprimierung den Platzbedarf<br />
<strong>für</strong> die Daten unserer Produktionsdatenbank auf<br />
ein Drittel verringert hat“.<br />
Marikar weiter: „Skalierbarkeit heißt, dass wir<br />
eine steigende Zahl von Nutzern unterstützen<br />
können, wenn wir diesen Datenschatz in Zukunft<br />
heben werden. So wollen wir anhand der Daten<br />
z. B. die Kundenerfahrung <strong>für</strong> unterschiedlich<br />
große Kunden individuell gestalten und außerdem<br />
Programme <strong>für</strong> das Cross- und Up-Selling unserer<br />
Services einführen.“<br />
In Spanien organisiert das spaltenorientierte<br />
Data Warehouse von Airtel-Vodafone den Datenpool<br />
gemäß der Business Map des Unternehmens.<br />
Dadurch bleiben Konsistenz und Integrität der<br />
Kurzprofil Airtel Vodafone<br />
2000 14 Millionen<br />
Im Jahr 2000 aus Merger der Anteilspakete<br />
von British Telecom und Vodafone an Airtel<br />
Móviles hervorgegangen<br />
1995 1000+<br />
100% Mehrdimensionale<br />
Daten auch dann gewahrt, wenn viele verschiedene<br />
Abteilungen ein und dieselben Daten nutzen. Das<br />
Data Warehouse wandelt Daten in Wissen um und<br />
macht Fakten über eine eigene Schnittstelle zu<br />
wertvoller Business Intelligence. Die Fähigkeit zur<br />
präzisen Analyse und Prognose der Kundenaktivität<br />
ist von essenzieller Bedeutung <strong>für</strong> die übergeordnete<br />
Geschäftsstrategie des Unternehmens.<br />
Auch das spaltenorientierte Data Warehouse<br />
von Airtel-Vodafone bewältigt das immense<br />
Abfrage-Aufkommen ohne Probleme. Mehr als<br />
1.000 Beschäftigte nutzen es <strong>für</strong> die systemtechnisch<br />
besonders anspruchsvolle mehrdimensionale<br />
Analyse. Diese Form der Analyse, bei der eigene<br />
Informationsstrukturen zum Einsatz kommen,<br />
ermöglicht die Extraktion von Daten zu Kunden,<br />
Infrastrukturen und Unternehmensprozessen<br />
und gestattet den Nutzern die Erzeugung von<br />
Modellierungs- und Simulationsprozessen<br />
14 Millionen Kunden<br />
Airtel Móviles seit 1995 am Markt 1.000+ Data Warehouse-Nutzer<br />
Umfassende Daten-integration über alle<br />
Abteilungen hinweg<br />
Mehrdimensionale Analyse<br />
-Kunden<br />
-Infrastruktur<br />
-Geschäftsprozesse<br />
einschließlich spezieller, analyseergänzender<br />
Verfahren.<br />
Auch Data-Mining-Techniken werden herangezogen,<br />
um mehr über das Verhaltensmuster der Kunden zu<br />
erfahren. Mitarbeiter mit Kundenkontakt speisen<br />
die Tag <strong>für</strong> Tag gewonnenen Informationen in das<br />
System ein, wo sie mit den bereits im Warehouse<br />
vorhandenen Daten integriert werden. All diese<br />
Daten werden miteinander kombiniert und in<br />
Informationsstrukturen umgewandelt, die dann<br />
<strong>für</strong> Abfragen zur Verfügung stehen.<br />
Das spaltenorientierte Data Warehouse ermöglicht<br />
den Datenzugriff nach Workflow anstelle nach<br />
der hierarchischen Unternehmensstruktur, was<br />
zu einer höheren Produktivität und Effektivität der<br />
Mitarbeiter führt. Damit stehen den Mitgliedern<br />
der Marketingabteilung beispielsweise dieselben<br />
Informationen zur Verfügung wie den Finanzexperten<br />
des Unternehmens, obwohl das Data Mining unter<br />
einem völlig anderen Blickwinkel und anhand ganz<br />
unterschiedlicher Analysen erfolgt. Die Data-Warehouse-<br />
Umgebung umspannt Marketingdatenbanken,<br />
Anrufsysteme, Kundenservice, Statistikdaten<br />
aus dem GSM-Netzwerk, Fakturierungssysteme,<br />
Datensammlung und -abruf sowie sämtliche<br />
Logistikinformationen.<br />
Airtel-Vodafone verfügt damit über eine<br />
maßgeschneiderte Lösung, mit der sich Daten<br />
aus den verschiedensten operativen Umgebungen<br />
schnell und kostengünstig integrieren lassen.<br />
Informationen zu den Unternehmensaktivitäten<br />
können im gewünschten Detailgrad direkt aus der<br />
Data-Warehouse-Umgebung abgerufen werden.<br />
Durch sein spaltenorientiertes Data Warehouse<br />
konnte Airtel-Vodafone seinen Marktanteil steigern<br />
und sich als Top-Player im europäischen Telekommunikationsmarkt<br />
etablieren.<br />
ButUmmm<br />
Sorry!<br />
Kein<br />
Grund<br />
zur<br />
Panik<br />
DIE HIER GENANNTEN BEISPIELE sind nur ein<br />
kleiner Teil der Unternehmen, die aus<br />
eigener Erfahrung wissen, dass Big Data<br />
keine Katastrophe, sondern eine Chance ist.<br />
Weitere Beispiele <strong>für</strong> ähnlich erfolgreiche<br />
Unternehmen folgen in den späteren Kapiteln<br />
dieses Guides. Sie illustrieren weitere wichtige<br />
Aspekte des aktuellen Technikstands in der<br />
Unternehmensanalyse.<br />
Die Analysebranche hat heute keinerlei<br />
Entschuldigungen mehr, wenn es darum geht,<br />
Big Data <strong>für</strong> sich nutzbar zu machen. Sie hat keinerlei<br />
Ausflüchte, wenn es darum geht, ihre Analytics<br />
Data Warehouses <strong>für</strong> Tausende von Nutzern fit zu<br />
machen oder die Analyse auf variable Datentypen<br />
aus jeder nur denkbaren Quelle auszudehnen, wie<br />
beispielsweise auf die massiven, unstrukturierten<br />
Datenmengen von Social-Media-Websites.<br />
Lassen Sie uns eines ganz klarstellen: Die Analysebranche<br />
kann sich nicht mehr hinter dem Big-<br />
Data-Schreckgespenst verstecken, denn wir wissen,<br />
es ist lediglich das: ein Gespenst.<br />
20 21<br />
Ooops<br />
My bad KAPITEL 1: DIE BIG-DATA-LÜGE
<strong>Intelligenz</strong> <strong>für</strong> <strong>jedermann</strong><br />
KAPITEL 2: INTELLIGENZ FÜR JEDERMANN<br />
22 23
EINE GEMEINSAMKEIT der analysegetriebenen<br />
Unternehmen aus Kapitel 1 besteht darin,<br />
dass ihre IT-Leiter wissen: Moderne BI-<br />
Umgebungen müssen steigende Informationsmengen<br />
verarbeiten, kürzere Antwortzeiten bereitstellen<br />
und größer werdende Nutzerzahlen unterstützen.<br />
Die IT-Verantwortlichen sind sich bewusst, dass<br />
wachsende Datenmengen zu wachsenden Nutzerzahlen<br />
führen, die immer mehr geschäftliche Gründe<br />
da<strong>für</strong> haben, diese Datenmengen abzufragen.<br />
Tatsächlich kann die Zunahme der Nutzerpopulation<br />
<strong>für</strong> manche Anbieter von Data Warehouses (und<br />
damit auch <strong>für</strong> ihre Kunden) ein sehr viel größeres<br />
Problem sein als das so ge<strong>für</strong>chtete Big-Data-Phänomen.<br />
Bis zu einem gewissen Grad kann jedes System<br />
so angepasst werden, dass es auch größere Datenmengen<br />
besser bewältigt. Anwender aber lassen<br />
sich sehr viel weniger gut managen. Ihre Abfragen,<br />
Analyse revolutioniert die Arbeitswelt<br />
die von ihnen verursachten Workloads und Aktivitäten<br />
können nicht vorhergesagt werden. Sie sind die<br />
große Unbekannte in jeder Analytics-Umgebung.<br />
Wenn Sie jedoch das System nicht an die Bedürfnisse<br />
der Nutzer anpassen können, können Sie auch<br />
nicht jedem Unternehmensanwender die benötigte<br />
Business Intelligence bereitstellen.<br />
<strong>Intelligenz</strong> <strong>für</strong> <strong>jedermann</strong> ist <strong>für</strong> Airtel-Vodafone,<br />
comScore, Suntel und viele andere keine Illusion.<br />
All diese Unternehmen können ihren rasch wachsenden<br />
Nutzerpopulationen wertvolle Business Intelligence<br />
bereitstellen, da sie bereits in der Frühphase der<br />
BI-Einführung die Vorstellung von einem Universal-Tool<br />
<strong>für</strong> alle Analyseaufgaben auf den Prüfstand<br />
gestellt haben.<br />
Standard-Datenbanktechnologien eignen sich<br />
zweifellos <strong>für</strong> eine Vielzahl von Anwendungen. Ein<br />
Enterprise Data Warehouse (EDW) ist eine hervor-<br />
ragende Lösung <strong>für</strong> eine überschaubare Zahl von<br />
Nutzern, die regelmäßige Reports und strategische<br />
Einblicke benötigen, bei denen Zeit oder Performance<br />
keine gewichtige Rolle spielen.<br />
Wenn Sie Ihre Analyse-Tools jedoch einer großen<br />
und weiter wachsenden Zahl von Anwendern<br />
bereitstellen wollen, die den Umfang und die<br />
Heterogenität der Daten zunehmend erhöht,<br />
immer mehr Ad-hoc-Abfragen stellt und die<br />
Systemauslastung kontinuierlich steigert, dann<br />
stoßen Sie mit einer Universallösung schnell an<br />
Ihre Grenzen. Wenn es um Analysen geht, lassen<br />
sich die inhärenten Beschränkungen eines Enterprise<br />
Data Warehouse nicht mehr „wegmogeln“, indem<br />
Sie einfach ein neues Modul hinzufügen oder<br />
in mühevoller Arbeit versuchen, das System zu<br />
einzustellen. Dieser Weg ist eine Sackgasse.<br />
Aber warum gelangen EDWs eigentlich so<br />
schnell an die Grenzen ihrer Möglichkeiten, wenn<br />
es um die unternehmensweite Analyse geht?<br />
War dies denn nicht der ursprüngliche Zweck eines<br />
Enterprise Data Warehouse? Warum prognostiziert<br />
Gartner trotz der vielen Milliarden, die in EDW-<br />
Investitionen gefl ossen sind: „Bis 2012 werden<br />
35 Prozent der globalen Top-5000 regelmäßig<br />
scheitern, wenn sie anhand ihres Daten-Pools<br />
fundierte Entscheidungen zu signifikanten<br />
Veränderungen in ihrem Unternehmen und ihren<br />
Märkten treffen wollen“ 13 ?<br />
Die Antwort führt uns zurück zur Technologie<br />
und zu einer weiteren Frage: Warum ist die Architektur<br />
Ihrer Data-Warehouse-Software so überaus wichtig?<br />
Ganz einfach: Weil sie das Fundament ist, auf<br />
dem Sie Business Intelligence <strong>für</strong> <strong>jedermann</strong><br />
bereitstellen können.<br />
Geschäftsführung Manager Wissensarbeiter Marketing Vertrieb Operatives Geschäft Servicetechniker Partner<br />
Sofortiger Einblick<br />
in alle Sachverhalte<br />
Smarteres<br />
Programmmanagement<br />
Schnellere<br />
Ummünzung von<br />
mehr Daten in mehr<br />
Wissen<br />
Metrikgestützte<br />
Kampagnen<br />
Schnellere, gezielte<br />
Ansprache besonders<br />
rentabler Kunden<br />
Mehr Kontrolle,<br />
weniger<br />
Produktionspannen<br />
KAPITEL 2: INTELLIGENZ FÜR JEDERMANN<br />
Schnellere<br />
Problemevaluierung<br />
und -behebung<br />
Bessere<br />
Überschaubarkeit<br />
der Supply Chain<br />
24 25
EDWs:<br />
die Achillesferse des<br />
Unternehmens?<br />
N SEINER KOLUMNE „THE STORY SO FAR “ 14 schreibt der<br />
langjährige Branchenbeobachter Frank Hayes,<br />
dass das Konzept des Data Warehousing mehr<br />
als 25 Jahre zurückreicht – lange bevor der Begriff<br />
„Data Warehouse“ überhaupt geprägt wurde.<br />
Damals schien es machbar, alle relevanten<br />
Geschäftsdaten in einem zeilenbasierten, universellen<br />
und transaktionsorientierten Datenbanksystem<br />
zusammenzufassen. Von Big Data hatte noch<br />
keiner etwas gehört, und die Zahl der potenziellen<br />
Analytics-Anwender war gering. Folglich investierten<br />
IT-Verantwortliche erhebliche Summen in Enterprise<br />
Data Warehouses als primäre Infrastruktur <strong>für</strong><br />
Analyseanwendungen.<br />
Dies führte zu einem fundamentalen Problem,<br />
wie BI-Experte Colin White herausstellt. Seiner<br />
Ansicht nach wurden EDWs „in erster Linie eingeführt,<br />
um konzeptionelle Schwächen von Geschäftstrasaktionssystemen<br />
zu beheben“. Auf Betreiben der<br />
Anbieter sei der Leistungsanspruch der Systeme<br />
dann aber so ausgeweitet worden, dass „mittlerweile<br />
Business Intelligence mit Data Warehousing<br />
gleichgesetzt wird“. White weiter: „ Diese Gleichsetzung<br />
ist falsch und muss dringend korrigiert werden.“ 15<br />
I<br />
Lassen Sie uns also eines der technologischen<br />
Defizite betrachten, die ein EDW-Einheitskonzept<br />
KAPITEL 2: INTELLIGENZ FÜR JEDERMANN<br />
laut White <strong>für</strong> den Analysesektor hat.<br />
Ein universelles Enterprise Data Warehouse beruht<br />
auf einer zeilenbasierten Datenbank (siehe Kasten:<br />
Drei Ansätze zur Speicherung von Analysedaten).<br />
Dies ist ideal <strong>für</strong> eine transaktionsorientierte<br />
Verarbeitung, die primär auf die Aufzeichnung<br />
eines Ereignisses abzielt. Nehmen wir z. B. an, Kunde X<br />
kauft ein Gerät Y. Wenn die Datenbank das Ereignis<br />
in das Speichersystem schreibt, werden alle Attribute<br />
der Transaktion berücksichtigt – Kundendaten,<br />
Preisinformationen, Gerätespezifikationen, Datum/<br />
Uhrzeit und viele andere Informationen, die alle in<br />
der aufgezeichneten Transaktion enthalten sind.<br />
Wenn ein Business-Analyst jedoch einen Teilsatz<br />
dieser Attribute näher untersuchen möchte, muss<br />
ein Universal-EDW erst alle Attribute in den Speicher<br />
laden, bevor mit der Analyse begonnen werden<br />
kann. Wenn Sie z. B. nur die Beziehung zwischen<br />
Datum/Uhrzeit der Transaktion und der Art des<br />
verkauften Gerätes ermitteln und diese Daten<br />
dann mit externen Informationsquellen koppeln<br />
möchten, ist das System außerstande, nur die<br />
relevanten Daten zu extrahieren, sondern muss erst<br />
sämtliche Kunden- und Preisdaten der Transaktion<br />
abrufen. Dieser Mehraufwand führt zwangsläufig<br />
zu deutlich längeren Antwortzeiten.<br />
26 27
Abb. 2 Drei Ansätze zur Speicherung von Analysedaten<br />
1<br />
2<br />
3<br />
Column-Store- oder spaltenorientierter Ansatz<br />
Speichert die Daten in Spaltenform und ermöglicht einen hohen Komprimierungsgrad, wodurch sich der<br />
Speicherplatzbedarf signifi kant verringert. Der Column-Store-Ansatz verkürzt zudem die Reaktionszeit bei<br />
Datenabfragen, da die Daten sehr viel schneller ausgelesen werden können, als dies bei herkömmlichen<br />
Verfahrensweisen möglich ist. Beim Laden in die Datenbank werden die Daten automatisch indexiert.<br />
In-Memory-Ansatz<br />
Speichert alle Daten im RAM. Trotz seiner unbestrittenen Schnelligkeit ist dieser Ansatz in 32-Bit-Umgebungen<br />
aufgrund der relativ geringen Speicherkapazität nicht effektiv. In 64-Bit-Systemen mit ihrem inhärent<br />
größeren RAM kann er sinnvoll sein, ist aber mit höheren Kosten verbunden.<br />
Zeilenbasierter Ansatz<br />
Speichert die Daten in Zeilenform auf der Festplatte. Der zeilenbasierte Ansatz ist ideal <strong>für</strong> die<br />
transaktionsorientierte Aufzeichnung der Daten, erschwert jedoch ihre Indexierung und kann bei<br />
Performance und Skalierbarkeit mit neueren Technologien nicht mithalten.<br />
Verfechter von universellen EDW-Lösungen<br />
werden nun argumentieren, dass es Technologien zur<br />
Behebung der erwähnten Defi zite gibt. Dabei setzen<br />
sie primär auf die Generierung und Speicherung<br />
separater Indexe, um so die längeren Antwortzeiten zu<br />
kompensieren. Dem ist entgegenzuhalten, dass die<br />
Performance von Universal-EDWs mit ausgeklügelten<br />
Tricks zwar erhöht werden kann, dass dies jedoch<br />
stets mit einem erheblichen Zeit- und Kostenaufwand<br />
verbunden ist und das Management der Systeme<br />
deutlich erschwert. Es beschränkt außerdem die<br />
fl exible Erzeugung verschiedener Abfragetypen,<br />
falls die IT-Abteilung die notwendigen Indexe nicht<br />
sorgfältig genug generiert hat. Und selbst wenn<br />
alles richtig gemacht wird, können Universallösungen<br />
maßgeschneiderten Analyse-Engines hinsichtlich<br />
Performance und Skalierbarkeit nicht das<br />
Wasser reichen. Selbst einer der Pioniere<br />
zeilenbasierter relationaler Datenbanken gibt mittlerweile<br />
zu, dass die Technologie ihre besten Zeiten<br />
hinter sich hat, und bezeichnet sie als „in die Jahre<br />
gekommen“ 16 .<br />
Data Warehouses wurden <strong>für</strong> Geschäftstransaktionen<br />
entwickelt, und da so viele Unternehmensdaten<br />
in ihnen lagern, wurden sie nach und nach mit<br />
Analysefähigkeiten ausgestattet. Man könnte also<br />
sagen, dass aus Universal-EDWs fast schon versehentlich<br />
Analyse-Engines wurden.<br />
Aus Nutzersicht sollte dieses Versehen schleunigst<br />
korrigiert werden. Denn wenn die Reaktionszeit<br />
ein kritischer Faktor ist oder wenn die Unterstützung<br />
von Hunderten, ja Tausenden Nutzern über Wohl<br />
und Wehe eines Unternehmens entscheidet, dann<br />
werden EDW-Einheitslösungen aufgrund ihrer<br />
mangelnden Performance und Skalierbarkeit nur<br />
allzu leicht zur Achillesferse des Unternehmens.<br />
Eine solide<br />
Analyse-Architektur<br />
Analyse- Architektur<br />
WENN DIE GUTE ALTE RELATIONALE DATENBANK NICHT<br />
DIE RICHTIGE WAHL IST, WAS IST IST ES DANN? WIE SEHEN DIE<br />
ZENTRALEN ARCHITEKTURMERKMALE ARCHITEKTURMERKMALE EINES EINES ANALYTICS<br />
DATA WAREHOUSE WAREHOUSE AUS?<br />
KAPITEL 2: INTELLIGENZ FÜR JEDERMANN<br />
28 29
WIE IN KAPITEL 1 BEREITS ERWÄHNT, benötigen Sie zunächst eine speziell <strong>für</strong><br />
diese Aufgabe entwickelte Analyse-Engine. Eine solche Engine<br />
verwendet vermutlich einen Column-Store- oder spaltenorientierten Ansatz <strong>für</strong><br />
die Datenspeicherung. Einer der größten Vorteile der spaltenorientierten Tech-<br />
nologie besteht in der ausgezeichneten Kompressionsfähigkeit. Dass dies nicht<br />
nur in der Theorie, sondern auch in der Praxis ein handfester Vorteil ist, zeigt<br />
das Beispiel der deutschen Citigroup-Tochter. Ihre spaltenorientierte Datenbank<br />
enthält Handelsdaten aus vier Jahren (13,2 Millionen Transaktionen!) und erzielt<br />
eine Komprimierungsrate von 43 Prozent. Ein herkömmliches zeilenbasiertes<br />
System würde demgegenüber jeden Deal, den die Citigroup-Tochter in ihrer<br />
Datenbank speichert, um 4 Prozent vergrößern. Ähnlich sieht es bei comScore<br />
aus. Der Experte <strong>für</strong> Analysen über und <strong>für</strong> Online-Unternehmen konnte<br />
den Speicherplatzbedarf seiner immensen Datensammlung um 40 Prozent<br />
verringern. Andere Unternehmen erzielten mit einem zeilenorientierten<br />
System sogar Komprimierungsraten von bis zu 70 Prozent.<br />
Vorteile der Unternehmensanalyse<br />
Strategie-Leitlinien<br />
-Akquisitionen<br />
-Bewertung von Initiativen<br />
-Marktstrategien<br />
Geringeres Risiko und<br />
höhere Compliance<br />
-Weniger Beurteilungsfehler<br />
-Besseres Datenmanagement<br />
und effi zientere Workfl ows<br />
-Bessere Speicherung und<br />
Zugänglichkeitder Daten<br />
Geschäfts-wert<br />
KAPITEL 2: INTELLIGENZ FÜR JEDERMANN<br />
Verfeinerte KPIs<br />
-Bessere Metriken<br />
-Präzisere Messung<br />
-Bessere Feedbackprozesse<br />
Mehr Innovation<br />
-Gezielte Produkt-/Service-Entwicklung<br />
-Kürzere Markteinführungszeit<br />
-Weniger Konstruktionsfehler<br />
30 31
Aber die Komprimierung ist nur ein Vorteil der<br />
Column-Store-Technologie. Schließlich geht es<br />
Ihnen ja nicht nur um die Speicherplatzverringerung,<br />
sondern darum, ein System mit modernsten<br />
Analysefähigkeiten zu erhalten. Die Architektur<br />
eines solchen Systems muss imstande sein, die<br />
komprimierten Daten mittels Massively Parallel<br />
Processing (MPP) zu parallelisieren – ein entscheidender<br />
Performance-Gewinn. Denn obwohl alle<br />
spaltenorientierten Systeme die komprimierten<br />
Daten automatisch indexieren, verfügen keineswegs<br />
alle über dieselbe Architektur. Einige legen eine<br />
Meta-Ebene über die Daten, um deren Verarbeitung<br />
durch das MPP-System zu ermöglichen. Diese<br />
Meta-Ebene beeinträchtigt die Rohleistung, die<br />
Verarbeitungsperformance bei Ad-hoc-Abfragen<br />
und das Wachstum der Nutzerzahlen; zur Bewältigung<br />
der Big-Data-Herausforderung kann sie sich gar als<br />
völlig ungeeignet erweisen.<br />
Das spaltenorientierte Fundament einer<br />
maßgeschneiderten Analyse-Architektur ermöglicht<br />
unter anderem eine schnellere Implementierung.<br />
Verglichen mit herkömmlichen Universal-EDWs,<br />
die <strong>für</strong> die Datenindexierung langwierige manuelle<br />
Tuning-Schritte benötigen, indexiert eine<br />
spaltenorientierte Datenbank die Daten automatisch,<br />
sobald sie in das System geladen werden.<br />
Auch bei der Skalierung schneidet eine<br />
Spezialarchitektur sehr viel besser ab. Der Schlüssel<br />
hier<strong>für</strong> liegt in der Verwendung einer Shared-Everythinganstelle<br />
einer Shared-Nothing-Technologie.<br />
Ein MPP-gestütztes Data Warehouse mit einem<br />
Shared-Everything-Ansatz kann Abfragelasten<br />
über alle Netzknotenpunkte hinweg dynamisch<br />
managen und ausbalancieren. Es verwendet einen<br />
automatischen Load Balancer, mit dem sich die<br />
Rivalität um kostbare Ressourcen wirksam vermeiden<br />
lässt. Das Ergebnis ist eine berechenbar hohe<br />
Performance und Ressourceneffi zienz <strong>für</strong> ein<br />
breites Spektrum von gleichzeitigen Workloads.<br />
Eine Shared-Everything-Architektur unterstützt<br />
die unabhängige Skalierung von Datenspeichervolumen<br />
und gleichzeitigen Nutzerabfragen und<br />
vereint so eine hohe Leistungsfähigkeit mit einem<br />
Unstrukturierte Daten – ein ungehobener Schatz<br />
Flickr umfasst mehr als 5 Milliarden Bilder.<br />
Mehr als 30 Milliarden Beiträge werden monatlich auf Facebook gepostet.<br />
98 Millionen Tweets gehen täglich über Twitter.<br />
YouTube-Nutzer laden jede Minute Videos mit einer Länge von insgesamt 24 Stunden hoch.<br />
LinkedIn beinhaltet mehr als eine Million Unternehmensprofi le.<br />
einfachen Management. Damit können Sie kontinuierlich<br />
weitere Daten und Nutzer hinzufügen, ohne dass<br />
bestehende Workloads und Arbeitsabläufe<br />
darunter leiden.<br />
Ein weiterer Vorteil von Spezialarchitekturen<br />
besteht in ihrer Fähigkeit zur In-Database-Analyse.<br />
Dies bedeutet, dass alle Workload-relevanten<br />
Daten <strong>für</strong> die Verarbeitung verfügbar sind, ohne<br />
dass das System sie von außerhalb abrufen muss.<br />
Denn die Verschiebung von Daten ist ein echter<br />
Performance-Killer. Wenn Sie hingegen Analysefunktionen<br />
und Daten innerhalb der Datenbank<br />
unterbringen, können Sie die Reaktionszeiten<br />
drastisch verkürzen.<br />
Eine maßgeschneiderte Analyse-Architektur<br />
wird von vornherein <strong>für</strong> alle denkbaren Datentypen<br />
entworfen. Demgegenüber stammt die<br />
Architektur von Universal-EDWs aus Zeiten, in<br />
denen BI-Anwendungen ausschließlich strukturierte<br />
Daten nutzten. Heutzutage muss dagegen jede<br />
ernstzunehmende Analyse-Engine in der Lage<br />
sein, BI-Funktionen mühelos auf riesige Mengen<br />
unstrukturierter Daten anzuwenden, die aus den<br />
verschiedensten Quellen in das System strömen (siehe<br />
Kasten: Unstrukturierte Daten – ein ungehobener<br />
Schatz). Nach Schätzung von IDC liegen 90 Prozent<br />
der Informationen im „digitalen Universum“ in<br />
unstrukturierter Form vor. Universal-EDWs sind<br />
schon mit den unstrukturierten Daten aus sozialen<br />
Netzen überfordert bzw. führen dazu, dass<br />
wichtige Informationen ignoriert werden – mit<br />
den entsprechend negativen Folgen <strong>für</strong> die<br />
Analysegenauigkeit.<br />
Beim Thema Datentypen darf nicht vergessen<br />
werden, dass relationale Systeme an der Verarbeitung<br />
nicht relationaler Daten nur allzu leicht scheitern<br />
können. So stellt die Analyse von hierarchischen<br />
XML-Daten, unstrukturierten Weblogs und Punkt-zu-<br />
KAPITEL 2: INTELLIGENZ FÜR JEDERMANN<br />
Punkt-Diagrammen relationale Datenbanken<br />
vor ein unlösbares Problem. Maßgeschneiderte<br />
Analysesysteme mit einer sorgfältig konzipierten<br />
Architektur kommen dagegen sogar mit diesen<br />
Datentypen zurecht.<br />
Zusätzlich zur Verarbeitung ständig anwachsender<br />
und scheinbar unendlich vielfältiger Daten müssen<br />
Analyse-Engines noch eine weitere Hürde nehmen:<br />
die gleichzeitige Bewältigung zahlreicher Workloads.<br />
Sie dürfen bei keiner Aufgabe – wie anspruchsvoll<br />
auch immer – in die Knie gehen. Wenn der DBA neue<br />
Daten aus externen Quellen in die Datenbank lädt und<br />
gleichzeitig verarbeitungsintensive Batch-Berichte<br />
zu erstellen sind, muss das System trotzdem die<br />
Ad-hoc-Abfragen der diversen Nutzerpopulationen<br />
mühelos abarbeiten können. Workload-Variabilität<br />
ist eine essenzielle Voraussetzung <strong>für</strong> die Analyselandschaft<br />
des 21. Jahrhunderts.<br />
Zudem muss gewährleistet sein, dass Geschäftsanalysten<br />
standardmäßige SQL-Tools <strong>für</strong> ihre<br />
Abfragen nutzen können. Auch sollte es möglich<br />
sein, Executive Dashboards ohne einen Wechsel des<br />
Visualisierungs-Tools zu nutzen. Und schließlich<br />
sollten Entwickler bei der Erstellung von BI-Apps<br />
neueste Programmierfortschritte wie MAP Reduce<br />
nutzen können.<br />
Eine maßgeschneiderte Architektur stellt jedem<br />
Unternehmensanwender die benötigten Analysefunktionen<br />
zur Verfügung. Sie deckt das ganze<br />
Spektrum der Datentypen ab und unterstützt<br />
gleichzeitig eine dramatische Ausweitung des zu<br />
verarbeitenden Datenvolumens. All dies ohne<br />
Einbußen bei der Performance oder Skalierbarkeit.<br />
Auf den folgenden Seiten erfahren Sie, wie<br />
Unternehmen ihre BI-Probleme mit einer auf sie<br />
zugeschnittenen Analytics-Technologie konkret in<br />
den Griff bekommen haben.<br />
32 33
Business Analytics<br />
in der Praxis<br />
KAPITEL 3: BUSINESS ANALYTICS IN DER PRAXIS<br />
34 35
EDE BRANCHE HAT IHRE GANZ SPEZIELLEN BESONDERHEITEN.<br />
Das gilt auch <strong>für</strong> Unternehmen, selbst wenn sie<br />
innerhalb ein und derselben Branche tätig sind.<br />
Dennoch steht fast jedes Unternehmen in jeder<br />
Branche vor denselben zwei eng miteinander<br />
verwobenen Problemen: Was tun mit all den<br />
Informationen, die 24 Stunden am Tag in das<br />
Rechenzentrum strömen? Wie umgehen mit der<br />
steigenden Zahl von Anwendern, die diese<br />
Informationen analysieren wollen?<br />
Im Gesundheitsweisen wird die Umstellung auf<br />
elektronische Patientenakten und die resultierende<br />
Analyse von Patientendaten dadurch vorangetrieben,<br />
dass sich die Anbieter davon jährliche Einsparungen<br />
von mehreren 707 Milliarden Euro versprechen. 17<br />
J<br />
In der Produktion konnte durch das Lieferketten-<br />
Outsourcing laut McKinsey zwar viel Geld gespart<br />
Aufgabe<br />
Massiver Datenzufluss in Echtzeit<br />
Extrem kurze Entscheidungszeiten<br />
Komplexes, ständig im Wandel<br />
befindliches Rechtsumfeld<br />
werden; gleichzeitig ist es aber <strong>für</strong> Unternehmensleitung,<br />
Geschäftsanalysten und Prognoseexperten<br />
wichtiger denn je, möglichst viele Informationen<br />
über sämtliche Aspekte von der Rohstoffverfügbarkeit<br />
bis zu den Lagerbeständen bei Partnerfirmen zu<br />
sammeln, abzurufen, zu speichern und zu analysieren18 .<br />
Und Handelskonzerne wie Wal-Mart mit einem<br />
täglichen Volumen von 267 Millionen Transaktionen19 stellen fest, dass „die Einbindung von Customer<br />
Insight in Geschäftsentscheidungen dramatische<br />
Wettbewerbsvorteile bringen kann“ 20 .<br />
In diesen und anderen Branchen erwarten immer<br />
mehr Nutzer von ihrem CIO, dass er ihnen Zugang<br />
zu der ins Unternehmen strömenden Datenflut<br />
gibt und deren Analyse ermöglicht. Natürlich<br />
erwarten sie außerdem, dass die Reaktionszeit<br />
auf ihre Abfragen dem entspricht, was sie von<br />
Innovation im Analytics-Bereich: Finanzdienstleistungen<br />
Innovation<br />
Analytics Engine, die immense Datenmengen<br />
problemlos bewältigt<br />
Reaktionszeiten im Millisekunden-Bereich<br />
Einfaches Management von Datenspeicherung<br />
und -zugriff <strong>für</strong> eine zuverlässige<br />
Einhaltung der Vorgaben zur langfristigen<br />
Daten-aufbewahrung<br />
Suchmaschinen wie Google oder Bing kennen. Der<br />
sofortige Zugriff auf Informationen und Antworten<br />
ist aber nicht nur ein Trend oder eine Erwartung,<br />
er ist ein absolutes Muss <strong>für</strong> jedes Unternehmen.<br />
Dabei kann das, was wir Menschen unter<br />
„sofort“ verstehen, <strong>für</strong> manche Märkte zu langsam<br />
sein. Unternehmen, die in diesen Märkten aktiv<br />
sind, benötigen eine Analyse in Machine-to-<br />
Machine (M2M)-Geschwindigkeit.<br />
Die Beschleunigung zum Machine-to-Machine-<br />
Takt findet sich laut Wall Street & Technology<br />
besonders in der Finanzindustrie, wo sich die<br />
Frist <strong>für</strong> Entscheidungen von „Mikrosekunden zu<br />
Millisekunden und Nanosekunden immer weiter<br />
verkürzt“. Analysefunktionen werden hier auf<br />
Geschäftsprozesse <strong>für</strong> Finanztransaktionen<br />
angewendet, die von Computern ausgeführt<br />
werden, da nur noch Computer fähig sind, mit<br />
der reißenden Geschwindigkeit des Datenstroms<br />
mitzuhalten. Die immensen Kosten der hier<strong>für</strong><br />
notwendigen Technologien führen dazu, dass nur<br />
die ganz Großen der Branche imstande sind, dieser<br />
Entwicklung durch immer schnellere Hardware und<br />
Netzwerke zu begegnen. Für alle anderen besteht<br />
laut Larry Tabb, CEO des Analysehauses Tabb Group,<br />
„der nächste Schritt darin, komplexere Entscheidungen<br />
zu treffen“. Wenn Ihr Unternehmen also nicht<br />
über unbegrenzte Mittel verfügt, müssen Sie ganz<br />
einfach smarter werden. Konkurrenzfähig wird<br />
laut Tabb nur der sein, der „die Hürden <strong>für</strong> die<br />
Analyse senkt“. 21<br />
Ähnlich wie Finanzdienstleister werden auch<br />
Telekommunikationsunternehmen unter einer<br />
regelrechten Datenlawine begraben, aus der sie<br />
KAPITEL 3: BUSINESS ANALYTICS IN DER PRAXIS<br />
Die<br />
erfolgreiche<br />
Bewältigung<br />
der Datenflut<br />
DIE OPTIONS PRICE REPORTING AUTHORITY (OPRA)<br />
ist nur einer der vielen Marktdaten-Feeds,<br />
zu denen auch Consolidated Quote System,<br />
New York Stock Exchange Open Book, NASDAQ Trade<br />
Data Dissemination Service und zahlreiche andere<br />
gehören. Neben anderen essenziellen Informationen<br />
zu den Finanzmärkten stellt sie detaillierte Daten<br />
zu abgeschlossenen Handelstransaktionen und<br />
aktuellen Optionen bereit. Dabei entsteht Sekunde<br />
<strong>für</strong> Sekunde ein unvorstellbares Datenvolumen, das<br />
ständig weiter anschwillt.<br />
Jährliche Spitzenwerte bei den Nachrichten pro<br />
Sekunde (MPS):<br />
500 1995<br />
4.000 2000<br />
83.000 2005<br />
2.200.000 2010<br />
OPRA-Abonnenten müssen gigantische Datenmengen<br />
meistern können: Bei einem Durchschnittswert von 120<br />
Bytes pro MPS ergeben sich 264 MByte, die jede Sekunde<br />
allein über OPRA eingespeist werden.<br />
36 37
Innovation im Analytics-Bereich: Gesundheitswesen<br />
Aufgabe<br />
Unterstützung bei der Konsolidierung und<br />
Analyse großer Datenvolumen mit dem Ziel,<br />
die Forschung zu beschleunigen, die<br />
Gesundheitsversorgung zu verbessern und<br />
die Kosten zu senken<br />
Unterstützung beim Anpassungsdruck<br />
infolge des ständigen Wandels der gesetzlichen<br />
Vorschriften und Regelungen<br />
Echtzeit-BI destillieren müssen. Europäische Tier<br />
1-Anbieter verzeichneten von 2007 bis 2010 eine<br />
Zunahme ihres Datenvolumens um 700 Prozent.<br />
In Lateinamerika verdoppelte sich der Datenzustrom<br />
bei vergleichbaren Anbietern in nur vier Jahren<br />
von 5 auf 10 Terabyte. Damit nicht genug: Der von<br />
Smartphones erzeugte Netzverkehr wird von 18,5<br />
Prozent 2009 auf geschätzte 56 Prozent im Jahr<br />
2015 steigen und so die Datenmenge weiter nach<br />
oben treiben. 22 Allein die Fülle und Geschwindigkeit,<br />
mit der die Informationen in die Rechenzentren<br />
der Telekommunikationsanbieter strömen,<br />
würde – wie im Finanzsektor auch – einen menschlichen<br />
Analysten komplett überfordern. Echtzeitentscheidungen<br />
sind z. B. <strong>für</strong> die Sicherstellung der<br />
Dienstgüte (QoS) relevant und müssen auf Basis<br />
einer Analyse getroffen werden, die in Geschäftsprozesse<br />
integriert ist, wobei Letztere wiederum von<br />
Computern verarbeitet werden.<br />
Angesichts dieses Big-Data-Szenarios raten<br />
Innovation<br />
Analytics-Technologien, die Data Mining,<br />
statistische Analyse, Prognose, prädiktive<br />
Modellierung und Optimierungstechniken<br />
nutzen, um strategische und operative<br />
Entscheidungen und Maßnahmen zu<br />
unterstützen<br />
Technologien, die den immer neuen<br />
HIPAA-Anforderungen entsprechen und die<br />
Integration von Geschäfts-prozessen<br />
wirksam unterstützen<br />
manche Branchenvertreter dazu, bei der Datenanalyse<br />
nach dem Motto „Weniger ist mehr“ zu handeln.<br />
Dieser Ratschlag kommt häufig von Anbietern, die<br />
eben nicht über die Technologie <strong>für</strong> die Bewältigung<br />
von Big Data verfügen und Ihnen weismachen<br />
wollen, dass die Analyse von kleineren Datenmengen<br />
„völlig ausreichend“ sei.<br />
Wie Googles Chief Economist Hal Varian bemerkt,<br />
zeigt ein genauerer Blick zwar, dass die Analyse<br />
eines kleinen, zufällig gewählten Datenausschnitts<br />
durchaus valide Ergebnisse erbringen kann. Um<br />
eine wirklich zufällige Datenauswahl zu erhalten,<br />
benötigen Sie jedoch einen gewaltigen Daten-Pool.<br />
Ohne einen derartigen Pool sind Ihre Analyseprozesse<br />
nicht wirklich stichhaltig. Anders ausgedrückt: Big<br />
Data ist die beste Voraussetzung <strong>für</strong> den Erhalt<br />
valider Daten. 23<br />
Wenn ein Anbieter also wieder einmal argumentiert,<br />
dass kleine Datenvolumen ausreichen, liegt das vermutlich<br />
daran, dass er Big Data nicht gewachsen ist.<br />
Die Ummünzung<br />
von Big Data in<br />
greifbare Vorteile<br />
38 39<br />
12B56<br />
57>4d<br />
KAPITEL 3: BUSINESS ANALYTICS IN DER PRAXIS
KOLOSSALE DATENMENGEN sorgen schon heute <strong>für</strong><br />
maximale Einblicke. Weltweit lassen Unternehmen<br />
ihr Big-Data-Aufkommen erfolgreich<br />
analysieren, um daraus greifbare Vorteile zu ziehen.<br />
Ein Beispiel hier<strong>für</strong> ist CoreLogic, eine Tochter des<br />
Fortune 500-Finanzdienstleisters First American.<br />
Als innovativer Anbieter von Hypothekenabsicherungen<br />
stand CoreLogic vor der Aufgabe, sein Geschäft<br />
auszubauen und immer anspruchsvolleren Kunden<br />
attraktive Lösungen zu offerieren, gleichzeitig jedoch<br />
eine effiziente Technologie-Infrastruktur zu unterhalten.<br />
Neue Web-Angebote und eine verbesserte Funktionalität<br />
der Analyseanwendungen standen ebenfalls auf<br />
der Bedarfsliste.<br />
Problematisch war, dass CoreLogic bei der Analyse<br />
bis dahin einen herkömmlichen Einheitsansatz verfolgt<br />
hatte. Das Analysesystem war somit nicht in der<br />
Lage, die variablen Workloads der zweistelligen<br />
Terabyte-Volumen zu verarbeiten. Bei 20 Prozent der<br />
Nutzerabfragen benötigte das System fünf Minuten<br />
und länger, während es bei fünf Prozent der Abfragen<br />
aufgrund der schieren Datenmenge einfach mitten<br />
in der Verarbeitung ausstieg.<br />
Heute verfügt CoreLogic über eine maßgeschneiderte<br />
Analyse-Engine mit einer Architektur, die modernste<br />
Column-Store-Technologie und die Fähigkeit zur<br />
Bewältigung massiver Datenmengen aufweist. Die<br />
Performance der BI-Anwendungen konnte damit um<br />
glatte 800 Prozent gesteigert werden.<br />
Für CoreLogic ging es hier nicht nur um einige<br />
kosmetische Verschönerungen, sondern um eine<br />
Rundumerneuerung, die den Nutzern von CoreLogic –<br />
insbesondere den Power-Usern – eine völlig<br />
neuartige Erfahrung verschafft hat.<br />
Der rapide technologische Fortschritt hat auch im<br />
traditionell heiß umkämpften Telekommunikationsmarkt<br />
eine neue Ära eingeläutet. Dazu kommt, dass Telekommunikationsanbieter<br />
aufgrund der weltweiten<br />
Gesetze zur Datenaufbewahrung vor neuen<br />
Herausforderungen stehen. Auch Taiwan Mobile,<br />
ein großer asiatischer Mobilfunkbetreiber, ist hier<br />
keine Ausnahme.<br />
Bei ihrer Tätigkeit sammeln Telekommunikationsunternehmen<br />
gigantische Mengen an Rohdaten,<br />
die <strong>für</strong> Kundenrechnungen und Finanztransaktionen<br />
verwendet werden. Darüber hinaus sind sie gesetzlich<br />
verpflichtet, Verbindungsdaten (Call Detail Records,<br />
CDRs) zu speichern und den Behörden bei Bedarf zur<br />
Verfügung zu stellen. CDRs umfassen Angaben zu<br />
Datum, Uhrzeit, Ziel, Rufnummer und Dauer eines<br />
jeden Telefonats und müssen zwischen sechs und 24<br />
Monaten aufbewahrt werden.<br />
Taiwan Mobile ist verpflichtet, diese Verbindungsdaten<br />
<strong>für</strong> die Dauer von sechs Monaten zu speichern. Bei<br />
mehr als sechs Millionen Mobilfunkkunden geht<br />
die Zahl der täglichen Rufdaten und Transaktionen<br />
leicht in die Milliarden. Taiwan Mobile schätzt sein<br />
Gesamtspeichervolumen auf rund 10 Terabyte – viel<br />
zu viel <strong>für</strong> das bisherige System.<br />
Indem es anstelle der herkömmlichen Universaltechnologie<br />
einen modernen spaltenorientierten<br />
Ansatz wählte, konnte Taiwan Mobile seinen<br />
Aufbewahrungspflichten nachkommen, dank der<br />
hohen Komprimierungsrate den Speicherbedarf<br />
drastisch verringern und zugleich die Analysegeschwindigkeit<br />
deutlich erhöhen.<br />
Innovation im Analytics-Bereich: Telekommunikation<br />
Aufgabe<br />
Customer Analytics – Geringere<br />
Kundenfluktuation und höherer ARPU<br />
durch bessere, schnellere Einblicke in<br />
umfangreiche Daten zu Kundenprofil,<br />
-nutzung und -trends<br />
Servicequalität – Sicherstellung der<br />
Kundenzufriedenheit und Einhaltung<br />
stringenter SLAs durch die Integration<br />
und Analyse von Netzwerk- und<br />
Kundendaten in Echtzeit<br />
Optimierung der Netzwerkkapazität<br />
–Optimierung von Netzwerkaufwendungen<br />
und -auslastung durch die<br />
Echtzeitüberwachung und -messung<br />
von Milliarden Netzwerkereignissen<br />
bis hinunter auf die Geräteebene<br />
KAPITEL 3: BUSINESS ANALYTICS IN DER PRAXIS<br />
Innovation<br />
Aktive Überwachung der Kundenfluktuation<br />
– Erkennung von Mustern bei<br />
der Abonnementkündigung sowie von<br />
Chancen <strong>für</strong> die Steigerung der<br />
Kunden-zufriedenheit<br />
Aktive Überwachung von Netzwerkbedingungen<br />
und Priorisierung der<br />
Netzwerkauslastung auf Basis der<br />
Kunden-rentabilität<br />
Vereinheitlichung aller historischen<br />
Kundendaten <strong>für</strong> aktuelle Einblicke durch<br />
die Kundenbetreuer<br />
Erfassung, Filterung und Aggregation der<br />
Kundendaten <strong>für</strong> eine historische Analyse<br />
nach Faktoren wie Support-Anrufen,<br />
Zahlungsverhalten, Upgrades, Nutzung<br />
und Gesamtrentabilität<br />
40 41
HEALTHTRANS, eines der größten und am schnellsten<br />
wachsenden PBM-Unternehmen (Pharmacy<br />
Benefits Management) in den USA, unterstützt<br />
Arbeitgeber, externe Verwaltungsstellen, Vermittler,<br />
Berater, Managed-Care-Anbieter und andere Kunden<br />
mit leistungsfähigen Tools und medizinischem<br />
Know-how dabei, ihre Programme zum Management<br />
der Arzneimittelzuschüsse effizienter und wirksamer<br />
umzusetzen. Das Unternehmen verwaltet über 100<br />
Terabyte an Daten und verarbeitet täglich mehr als<br />
Kurzprofil HealthTrans<br />
Weniger Speicherbedarf,<br />
mehr Einblicke<br />
2000 100 Millionen<br />
Gegründet 2000 100 Millionen Fälle/Jahr<br />
15,3 Millionen $4 Milliarden<br />
eine Viertelmillion neuer Transaktionen.<br />
Die vorhandene klassische Datenbankarchitektur<br />
des Unternehmens kam bei diesem Volumen<br />
regelmäßig ins Stocken und benötigte acht bis<br />
zehn Stunden <strong>für</strong> die Report-Erstellung. Durch<br />
den Umstieg auf ein individuell zugeschnittenes<br />
Analysesystem ließ sich diese Zeitspanne auf zwei<br />
bis drei Minuten verkürzen. Gleichzeitig benötigt<br />
HealthTrans nun 69 Prozent weniger Speicherplatz<br />
als zuvor.<br />
15,3 Millionen Patienten Milliarden US-Dollar <strong>für</strong> verschreibungspflichtige<br />
Medikamente<br />
100 250.000+<br />
100 Terabyte gespeicherte Daten 250.000+ Transaktionen/Tag<br />
69 %<br />
Verringerung des Speicherbedarfs um 69%<br />
Analyse-Software in der Cloud<br />
CLOUD-BASIERTE ANALYSE-SOFTWARE wird von<br />
zahlreichen kleineren Firmen angeboten,<br />
die ihren Kunden die Ausführung von<br />
BI-Anwendungsinstanzen in einer gemeinsam<br />
genutzten Infrastruktur ermöglichen. Cloud-Lösungen<br />
verursachen geringe Einstiegskosten, da die Software<br />
zwar konfigurierbar ist, jedoch nur schwer oder überhaupt<br />
nicht angepasst werden kann. Weil der Kunde weder<br />
Software noch Hardware anschaffen muss, fallen lediglich<br />
Betriebskosten an; viele kleine und mittelständische<br />
Unternehmen (KMUs) entscheiden sich <strong>für</strong> Cloud-basierte<br />
Lösungen und umgehen somit die IT.<br />
Allerdings haben Cloud-Analyseprogramme trotz ihrer<br />
geringen Kosten und einfachen Implementierbarkeit auch<br />
signifikante Nachteile. Einer der größten ist zweifellos<br />
die Datensicherheit – ein Thema, das von vielen, aber<br />
eben nicht allen Anbietern zufriedenstellend gelöst ist.<br />
Big Data ist ein noch schwerwiegenderes Problem.<br />
Selbst wenn die Analyse von Daten-Gigabytes in der Cloud<br />
EINE DATA WAREHOUSE APPLIANCE ist ein vorkonfiguriertes<br />
und vorabgestimmtes Produkt, das zumeist eine<br />
Datenbank, grundlegende Modellierungs-Tools<br />
und BI-Funktionen umfasst, die nach dem Laden der<br />
Daten sofort nutzbar sind. Data Warehouse Appliances<br />
werden in der Regel als taktische Lösung <strong>für</strong> Data-Mart-<br />
Anwendungen eingesetzt.<br />
Die Datenmenge sollte 1 Petabyte nicht überschreiten,<br />
und auch die Nutzerpopulation sollte begrenzt sein.<br />
KAPITEL 3: BUSINESS ANALYTICS IN DER PRAXIS<br />
problemlos funktionieren sollte, stelltdas Laden von<br />
Terabytes in die Cloud eine erhebliche Hürde dar.<br />
Und spätestens die Cloud-Analyse von Datenmengen<br />
im Petabyte-Bereich endet im Desaster. Auch die<br />
Erweiterung eines Systems auf eine größere Zahl von Anwendern<br />
bleibt nicht ohne Schwierigkeiten. Dazu kommt,<br />
dass Ad-hoc-Abfragen in vielen Fällen nicht machbar sind.<br />
Eine Cloud-basierte BI ist ideal <strong>für</strong> kleine Unternehmen,<br />
die sich keine eigene Analyse-Infrastruktur leisten<br />
können oder wollen. Cloud-Lösungen verschaffen<br />
ihnen wertvolle Einblicke in ihr Geschäft und ihre<br />
Märkte. Nicht zuletzt können Cloud-Anwendungen<br />
auch in größeren Unternehmen die IT entlasten,<br />
wenn eine Abteilung oder Gruppe kurzfristig Zugriff<br />
auf ein Analysesystem benötigt und das bestehende<br />
System mit der zusätzlichen Arbeitslast überfordert ist.<br />
Für die meisten großen Unternehmen sind die derzeit<br />
erhältlichen Analytics-Optionen in der Cloud jedoch<br />
keine empfehlenswerte strategische Lösung.<br />
Appliances: kleine Lösungen <strong>für</strong> überschaubare Ansprüche<br />
Allerdings sind einige Appliances nach Angabe ihrer<br />
Anbieter in der Lage, auch größere Datenvolumen und<br />
mehrere Tausend Nutzer zu unterstützen.<br />
Zur Vereinfachung der Administration sollten<br />
Appliances über eine einheitliche Konsole verfügen und<br />
darüber hinaus schnell implementierbar sein. Appliances<br />
sind kostengünstige Lösungen, die unter bestimmten<br />
Umständen gerade <strong>für</strong> kleine bis mittelgroße<br />
Unternehmen sehr gut geeignet sein können.<br />
42 43
Internet-Nutzer (Mio.)<br />
ER RUF NACH ANALYSEFUNKTIONEN <strong>für</strong> die stetig<br />
wachsende Zahl der mobilen Nutzer wird<br />
weltweit immer lauter. Laut Morgan Stanley<br />
werden 2014 mehr Anwender mobil ins Internet<br />
gehen als über herkömmliche Desktop-Rechner. 24<br />
Gartner geht davon aus, dass bis 2013 bereits 80<br />
Prozent der Unternehmen ihre Belegschaft mit<br />
Tablets ausstatten werden. 25 D<br />
Dies gilt natürlich<br />
auch <strong>für</strong> mobile Nutzer, die unterwegs auf BI-<br />
Applikationen zugreifen und Ad-hoc-Abfragen<br />
2.000<br />
1.600<br />
1.200<br />
800<br />
400<br />
Analytics <strong>für</strong><br />
mobile Nutzer<br />
Abb. 3 Mobile Nutzer > Desktop-Internet-Nutzer in fünf Jahren<br />
starten müssen.<br />
Da die Anwender sehr wahrscheinlich die mobile<br />
Plattform ihrer Wahl verwenden werden – seien<br />
es iPads und iPhones oder Android- und Windows-<br />
Geräte –, wird die IT nicht kontrollieren können,<br />
wer was nutzt, um auf die neuen mobilen BI-Apps<br />
zuzugreifen. Dieser Trend wird der Nachfrage nach<br />
Analyseanwendungen zusätzlichen Schub verleihen<br />
– eine Herausforderung, der sich die IT weltweit<br />
stellen muss.<br />
Prognose der weltweiten Entwicklung Mobile vs. Desktop-Internet-Nutzer bis 2015<br />
Mobile Internet-Nutzer<br />
Desktop-Internet-Nutzer<br />
Mehr Nutzer,<br />
weniger Probleme<br />
KAPITEL 3: BUSINESS ANALYTICS IN DER PRAXIS<br />
44<br />
2007E 2008E 2009E 2010E 2011E 2012E 2013E 2014E 2015E<br />
2011<br />
Quelle: Morgan Stanley Research<br />
45
MIT DER BEWÄLTIGUNG DER BIG-DATA-HERAUSFORDERUNG<br />
haben die meisten Unternehmen jedoch<br />
nur die Hälfte der Analyseproblematik<br />
gelöst. Eine ebenso große Aufgabe ist die ständig<br />
wachsende Zahl von Anwendern. Zum Glück kann<br />
eine maßgeschneiderte Analyse-Architektur auch hier<br />
Abhilfe schaffen. Und zwar nicht nur am grünen Tisch,<br />
sondern im harten Praxisalltag.<br />
Ein Beispiel: Alvion Technologies, Inc. stellt einigen<br />
der weltgrößten Besitzern von Marketing-Datenlisten<br />
ausgelagerte Datenmanagement-Services bereit.<br />
Die Kunden mit so klangvollen Namen wie Axiom,<br />
Equifax, Experian und Dunn & Bradstreet verfügen<br />
über Datenmengen von bis zu 190 Millionen Records<br />
und 200 Attributen. Insgesamt verwaltet Alvion<br />
rund ein Terabyte an Daten <strong>für</strong> Outsourcing-Kunden.<br />
Kurzprofil BNP Paribas Securities Services<br />
2001 6,2 Billionen 1 Billionen<br />
Entstanden 2001 aus Zusammenschluss von<br />
BNP und Paribas; 100-prozentige Tochter von<br />
BNP Paribas Group SA<br />
„Assets under Custody”:6,2 Billionen US-Dollar<br />
Erste 10.000 200.000<br />
Erste europäische Großbank, die die Basel<br />
II-Anforderungen erfüllt<br />
Täglich stellen über 12.000 registrierte Nutzer bis zu<br />
2.000 Ad-hoc-Abfragen an das spaltenorientierte<br />
Analysesystem. Dazu kommen zahllose regulär<br />
generierte Berichte. Trotz dieser enormen Auslastung<br />
liegt die durchschnittliche Antwortzeit bei weniger als<br />
20 Sekunden.<br />
Der global agierende französische Finanzriese BNP<br />
Paribas Securities Services bietet mehr als 10.000<br />
Nutzern Analysefunktionen und Zugang zu circa<br />
200.000 Reports. Die positiven Erfahrungen mit<br />
dem maßgeschneiderten Analysesystem haben<br />
diese Nutzer dazu veranlasst, jeden Monat 10.000<br />
bis 20.000 zusätzliche Reports anzufordern. Nicht zu<br />
verachten sind auch die rund 10.000 Ad-hoc-Abfragen,<br />
die pro Monat verarbeitet werden. Und als besonderes<br />
Plus erhalten Kunden und interne Anwender nun<br />
10.000 Ad-hoc-Abfragen/Monat<br />
10.00-20.000 10.000+ Real Time<br />
10.00-20.000 neue Berichte/Monat 10.000+ Analytics-Nutzer<br />
Berichte und Abfragen beinahe in Echtzeit.<br />
Banco Macro begann als regionales argentinisches<br />
Bankhaus und entwickelte sich im Laufe der Jahre zu<br />
einer der führenden Banken des Landes. Die noch aus<br />
den Anfängen stammende SQL-Datenbank brach<br />
unter der Last einer Nutzerbasis, die von sechs auf<br />
mehr als 800 Personen angewachsen war, fast<br />
zusammen. Selbst Basis-Abfragen dauerten bis zu<br />
fünf quälend lange Minuten. Nach dem Umstieg<br />
auf eine eigens konzipierte Analyse-Architektur<br />
reduzierten sich die Antwortzeiten auf 20 bis 30<br />
Sekunden – obwohl sich die Nutzerpopulation auf<br />
1.700 nahezu verdoppelt hatte und Datenmengen, die<br />
um das Doppelte über denjenigen der ursprünglichen<br />
SQL-Datenbank lagen, einen enormen Anstieg der<br />
Workloads mit sich brachten.<br />
„Assets under Administration”: 1 Billion<br />
US-Dollar<br />
200.000 Berichte<br />
Nahezu-Echtzeit-Reaktion<br />
KAPITEL 3: BUSINESS ANALYTICS IN DER PRAXIS<br />
Aussagekräftige<br />
Datenstichproben<br />
ALLE HIER GENANNTEN BEISPIELE veranschaulichen<br />
das Prinzip, aus einem großen Datenpool<br />
eine mengenmäßig begrenzte Stichprobe<br />
zu entnehmen, um zu validen Schlussfolgerungen<br />
zu gelangen. Sie sind nur ein kleiner Auszug<br />
aus einer langen Liste von Unternehmen, die<br />
sich den Herausforderungen von Big Data und<br />
wachsenden Nutzerzahlen erfolgreich gestellt<br />
haben. All diese Unternehmen hatten Erfahrungen<br />
mit traditionellen, universell ausgelegten SQL-<br />
Datenbanken gesammelt und waren dabei an<br />
unüberwindbare Grenzen gestoßen.<br />
Durch maßgeschneiderte Analysetechnologien<br />
konnten sie nicht nur ihre aktuellen Aufgabenlösen,<br />
sondern sich eine hervorragende Ausgangsbasis<br />
<strong>für</strong> künftiges Wachstum schaffen. Anstelle die<br />
Flut an neuartigen Daten und den stetigen Zustrom<br />
an neuen Geschäftsanwendern als Problem zu<br />
betrachten, sehen sie die Chancen, die sich daraus<br />
<strong>für</strong> die Eroberung neuer Märkte, die Entwicklung<br />
neuer Produkte und Services, die Senkung der<br />
Kosten und die Optimierung der operativen<br />
Abläufe insgesamt ergeben.<br />
Unterm Strich erzielen sie so sehr viel schneller<br />
einen substanziellen ROI aus ihren Analytics-<br />
Investitionen. Mit dem Thema der Investitionsrentabilität<br />
von Analyselösungen werden<br />
wir uns im folgenden Kapitel jedoch noch<br />
ausführlicher beschäftigen.<br />
46 47
Best Practices und der<br />
ROI von Analyseprojekten<br />
48 49<br />
1515691///567<br />
1515691///567<br />
KAPITEL 4: BEST PRACTICES UND DER ROI VON ANALYSEPROJEKTEN
1515691///567<br />
1515691///567<br />
In den vorangegangenen Kapiteln haben wir anhand von Beispielen<br />
gesehen, wie zahlreiche Unternehmen mit Analyseanwendungen<br />
ihren Gewinn erhöhen konnten. Geschäftsanwender sehen in<br />
nahezu allen Bereichen des Unternehmens konsequente<br />
Verbesserungen – von der schnelleren Produktentwicklung und<br />
Markteinführung über den effektiveren Kundenservice bis zu<br />
zielgenauerem Marketing und schnelleren, präziseren Aktivitäten<br />
im Finanzsektor.<br />
Allerdings wäre es vermessen zu behaupten, dass alle BI-<br />
Projekte einen positiven ROI erzielen. Wie überall, gibt es auch hier<br />
Ausreißer. Die Gründe da<strong>für</strong> sind meist bekannt: mangelnde<br />
Planung, unzureichende Produkt-Performance und fehlende<br />
Skalierbarkeit. Dahinter steht häufig eine oberflächlich durchgeführte<br />
Machbarkeitsstudie (der sog. Proof of Concept). 26 Ein gründlicher<br />
PoC deckt die möglichen positiven Effekte eines Analytics-Projekts<br />
auf und enthüllt zudem auch viele der Schwächen, die ein fehlerhaft<br />
konzipiertes Vorhaben ins Straucheln bringen können.<br />
KAPITEL 4: BEST PRACTICES UND DER ROI VON ANALYSEPROJEKTEN<br />
Der Proof of Concept – ein<br />
leistungsstarkes Instrument<br />
50 51
DER PROOF OF CONCEPT ist der erste Schritt auf<br />
dem Weg zu einem positiven ROI. Um von<br />
vornherein die richtigen Voraussetzungen<br />
<strong>für</strong> den Projekterfolg zu schaffen, sollte der Proof of<br />
Concept auf Ihrem heimischen IT-Terrain stattfinden.<br />
Die Durchführung von PoCs im Testlabor des Herstellers<br />
ist zeitaufwändig, teuer (selbst wenn der Hersteller<br />
die Reisekosten übernimmt) und problemträchtig.<br />
So kann der Hersteller beispielsweise jede<br />
Menge Experten aufbieten, die die BI-Umgebung<br />
mit vorgefertigten Daten und Abfragen füttern.<br />
Logischerweise schneiden die angebotenen<br />
Produkte dann sehr viel besser ab, als dies in der<br />
ungeschminkten Praxis Ihres Unternehmens der<br />
Fall wäre.<br />
Wer<br />
Verlässlicher ROI<br />
American Airlines<br />
State of Sao Paulo, Brazil<br />
Cell ©<br />
AOK Hessen<br />
HMV Japan<br />
Zweitens sollten bei einem Proof of Concept – unter<br />
Einhaltung striktester Sicherheitsvorkehrungen<br />
– reale Daten verwendet werden. Wenn Sie von<br />
einem Machbarkeitsnachweis ein aussagekräftiges<br />
Ergebnis erwarten, sollten Sie keinesfalls spezielle<br />
Testdaten akzeptieren. Zudem sollten Ihre Daten<br />
vollständig sein; d. h. es sollte kein Teildatensatz<br />
verwendet werden, sondern die Datenmenge sollte<br />
so groß sein, dass sie die reale Situation abbildet, in<br />
der das Analysesystem später eingesetzt wird.<br />
Es versteht sich von selbst, dass ein PoC anhand<br />
bestehender Berichte durchgeführt werden sollte.<br />
Die dabei erzielten Antwortzeiten sollten<br />
deutlich über den bisherigen Werten liegen.<br />
Andernfalls können Sie den PoC genauso gut<br />
Was<br />
€ 727 Mio./Jahr durch Aufdeckung von Betrugs-delikten<br />
€ 72,7 Mio. aus bis dato unversteuerten Einkommen<br />
€ 14,5 Mio. eingespart durch ein einziges Projekt<br />
€ 2,3 Mio. durch Aufdeckung von Betrugsdelikten<br />
3-15x mehr Wachstum durch Online-Einkauf<br />
abbrechen und mit der Planung Ihres Analyseprojekts<br />
von vorn beginnen.<br />
Wichtiger noch als bessere Resultate bei<br />
bestehenden BI-Reports ist es, dass der PoC auch<br />
typische Ad-hoc-Abfragen beinhaltet. Diese<br />
Abfragen sollte der Hersteller im Vorfeld nicht zu<br />
Gesicht bekommen. Ad-hoc-Abfragen bei einem<br />
Proof of Concept sollten <strong>für</strong> den Hersteller genauso<br />
schwierig zu meistern sein wie <strong>für</strong> die IT in der<br />
realen Arbeitswelt.<br />
Grundsätzlich sollten die getesteten Systeme<br />
gegenüber Ihren bestehenden BI-Abläufen einen<br />
deutlichen Performance-Sprung erzielen. Auch<br />
sollten eindeutige Vorteile bei der Menge und<br />
Vielzahl der analysierbaren Daten zu verzeichnen<br />
sein. Selbst wenn Sie in der Analysepraxis (noch)<br />
nicht mit unstrukturierten Daten arbeiten,<br />
sollten Sie diese Daten in den PoC aufnehmen.<br />
Nur so können Sie erkennen, welches künftige<br />
Analysepotenzial Ihr Unternehmen hat und ob<br />
der Hersteller in der Lage ist, mit verschiedenen<br />
Datentypen umzugehen.<br />
Schließlich sollten Sie bedenken, dass Hersteller,<br />
die <strong>für</strong> einen PoC mehrere Wochen, ja einen Monat<br />
oder mehr veranschlagen, als Lieferanten von<br />
vornherein ausscheiden. Ein PoC in Ihrem eigenen<br />
Unternehmen mit Ihren eigenen Daten, Berichten<br />
und Ad-hoc-Abfragen sollte in Tagen, maximal in<br />
einer Woche abgeschlossen sein.<br />
KAPITEL 4: BEST PRACTICES UND DER ROI VON ANALYSEPROJEKTEN<br />
Die Voraussetzungen<br />
<strong>für</strong> ein erfolgreiches<br />
Analyseprojekt<br />
Die sieben Schritte des CIO-Magazins <strong>für</strong> das Rollout<br />
von Enterprise-Analytics-Systemen27 1. Stellen Sie sicher, dass die Daten gründlich bereinigt sind.<br />
2. Schulen Sie Ihre Anwender.<br />
3. Führen Sie das System schnell ein, und nehmen Sie<br />
dann die erforderlichen Anpassungen vor. Verwenden<br />
Sie im Vorfeld nicht zu viel Zeit auf die Entwicklung<br />
perfekter Reports; die tatsächlichen Erfordernisse<br />
ändern sich parallel zu Ihrer Geschäftsentwicklung.<br />
Stellen Sie Berichte bereit, die den Anwendern<br />
möglichst schnell einen möglichst großen Nutzwert<br />
bringen, und optimieren Sie diese Berichte daraufhin.<br />
4. Verfolgen Sie bei der Erstellung Ihres Data Warehouse<br />
von vornherein einen integrierten Ansatz. Achten Sie<br />
darauf, dass Ihre Datenstrategie nicht früher oder später<br />
in einer Sackgasse endet.<br />
5. Definieren Sie den ROI vor Projektbeginn. Formulieren<br />
Sie konkrete Vorteile, die Sie erwarten. Überprüfen Sie<br />
dann alle drei bis sechs Monate, ob das Projekt in der<br />
Praxis den erwarteten Nutzen bringt.<br />
6. Konzentrieren Sie sich auf Geschäftsziele.<br />
7. Erwerben Sie BI-Software nicht nur deswegen,<br />
weil Sie glauben, dass Sie sie benötigen. Die richtige<br />
Kaufvoraussetzung ist: Sie wissen, dass Sie bestimmte<br />
Zahlen und Fakten benötigen, und Sie wissen auch, wo<br />
sich diese Zahlen und Fakten in etwa befinden.<br />
52 53
Jenseits des Proof<br />
of Concept<br />
NACHDEM DAS POC-ERGEBNIS GRÜNES LICHT<br />
gegeben hat, können Sie eine Reihe von<br />
bewährten Taktiken anwenden, um den langfristigen<br />
Erfolg Ihres Analyseprojekts sicherzustellen<br />
(siehe Kasten: Die Voraussetzungen <strong>für</strong> eine<br />
erfolgreiche Analyse). Dabei sollten Sie unbedingt<br />
darauf achten, dass alle Projektbeteiligten während<br />
der gesamten Bereitstellungsphase stets auf dem<br />
Laufenden bleiben. Sorgen Sie <strong>für</strong> eine kontinuierliche<br />
Kommunikation. Wichtige Projektmitarbeiter dürfen nie<br />
Abb. 4 Ein traditionelles Data Warehouse-Einheitsmodell<br />
In einem typischen DBMS entsteht bei der Speicherung von<br />
1 Terabyte Nutzdaten ein Datenoverhead von 150 %.<br />
Input-DATEN:<br />
1 TB<br />
Quelle: Flat Files, ETL,<br />
Replikation, ODS<br />
LADEN<br />
durch Fehler im Prozessablauf vom Informationsfl uss<br />
abgeschnitten werden.<br />
Ironischerweise spielt auch die Hardware eine<br />
wichtige Rolle bei der Ermittlung des ROI einer<br />
Analytics-Softwareplattform. Jede Software<br />
benötigt Hardware zu ihrer Ausführung. Wenn sie<br />
jedoch <strong>für</strong> eine einzige Hardware-Architektur und<br />
-konfi guration entwickelt wird, entsteht eine fatale<br />
Abhängigkeit, die den ROI automatisch mindert.<br />
Spezielle Hardware ist bereits in der Anschaffung<br />
fast immer teurer, und auch ihre Wartung verursacht<br />
meist höhere Kosten. Notwendige Ersatzteile sind<br />
teurer, Systemverwaltung und -administration<br />
schlagen quasi per defi nitionem mit höheren<br />
Kosten zu Buche. Kurz – die Gesamtbetriebskosten<br />
dieser Systeme ziehen den ROI spürbar nach unten.<br />
Konventionelle DBMS<br />
zusammengefasste<br />
Aggregate<br />
1 - 2 TB<br />
Indexe<br />
0,5 - 3 TB<br />
Basistabelle<br />
“Rohdaten”<br />
ohne Indexe<br />
0,9 - 1,1 TB<br />
2,4 - 6<br />
TB<br />
Ein weiteres Problem des Hardware-Lock-in<br />
besteht darin, dass der Hersteller seine Produkte<br />
nach seinem eigenen Zeitplan aktualisiert, der<br />
mit Ihrem eigenen keinesfalls übereinstimmen<br />
muss. Schlimmer noch: Möglicherweise können<br />
Sie Fortschritte bei CPU, Bus, Speicher usw. nicht<br />
nutzen, weil Ihr Anbieter sie schlichtweg ignoriert.<br />
Wenn Sie sich dauerhaft Performance und<br />
Skalierbarkeit sichern möchten, sollten Sie sich<br />
daher Ihre Unabhängigkeit bewahren.<br />
Bei der Auswahl der Analyse-Software ist noch<br />
ein weiterer Hardware-Aspekt zu berücksichtigen.<br />
Angesichts der herannahenden Big-Data-Welle<br />
hat die Speicherkapazität offensichtliche und<br />
gewichtige Auswirkungen auf die TCO – ganz<br />
besonders, wenn Petabyte an Daten anfallen.<br />
Abb. 5 Ein Column-store Datenbank-Modell<br />
Column-Store-Datenbanken<br />
können den Speicherbedarf<br />
der Daten um 10 bis 75 %<br />
reduzieren.<br />
Input-DATEN:<br />
1 TB<br />
Quelle: Flat Files, ETL,<br />
Replikation, ODS<br />
KAPITEL 4: BEST PRACTICES UND DER ROI VON ANALYSEPROJEKTEN<br />
54 55<br />
LADEN<br />
LADEN<br />
Gleiche Eingabedaten:<br />
“Konventionelles DW”<br />
ist 3 – 6 mal größer als<br />
Sybase IQ DW<br />
0,25 - 0,9<br />
TB<br />
All diese Bits und Bytes müssen schließlich irgendwo<br />
gespeichert werden. Gartner meint hierzu: „ Das<br />
Datenwachstum ist die größte Herausforderung <strong>für</strong><br />
die Datacenter-Infrastruktur großer Unternehmen.“ 28<br />
Hier hat eine maßgeschneiderte Column-Store-<br />
Architektur eindeutige Vorteile.<br />
In einem herkömmlichen Universal-Data-Warehouse<br />
erhöht sich der Platzbedarf der gespeicherten<br />
Daten (siehe Abb. 4).<br />
Natürlich begegnen Universallösungen diesem Manko<br />
mit zusätzlichen Modulen <strong>für</strong> die Datenkomprimierung.<br />
Spaltenorientierte Datenbanken müssen hier<strong>für</strong> nicht<br />
in die Trickkiste greifen. Sie komprimieren die Daten<br />
ganz ohne zusätzliche Plug-ins oder Module automatisch<br />
um 10 bis 75 Prozent – eine Rate, die sich mit den<br />
herkömmlichen veralteten Verfahren nicht erreichen<br />
lässt (siehe Abb. 5).<br />
Sybase<br />
IQ<br />
Summe Aggr.: 0 - 0,1 TB<br />
Indexe: 0,05 - 0,3 TB<br />
Basistabelle:<br />
0,2 - 0,5 TB<br />
Konventionelle DBMS<br />
zusammengefasste<br />
Aggregate<br />
1 - 2 TB<br />
Indexe<br />
0,5 - 3 TB<br />
Basistabelle<br />
“Rohdaten”<br />
ohne Indexe<br />
0,9 - 1,1 TB<br />
2,4 - 6<br />
TB
ER FINANZIELLE NUTZEN, DEN UNTERNEHMEN aus<br />
einer Analyselösung ziehen können, lässt<br />
sich mit einer mathematischen Gleichung<br />
berechnen (siehe Abb. 6). Wissenschaftler von<br />
MIT und Wharton School untersuchten 179 große<br />
börsengehandelte Unternehmen, die sich durch<br />
„datengestützte Entscheidungen“ auszeichneten.<br />
Dabei kamen sie zu dem Schluss, dass die verwendeten<br />
Analyselösungen den Output- und Produktivitätswert der<br />
Unternehmen um 5 bis 6 Prozentpunkte anhoben. 29<br />
An der University of Texas nahmen Marktforscher<br />
150 Fortune 1000-Unternehmen unter die Lupe um<br />
festzustellen, welche Auswirkungen die Analyse<br />
auf Finanzen, Kundenaktivitäten und betriebliche<br />
Prozesse hatte. 30 D<br />
Ihr Fazit: In einem typischen<br />
Fortune 1000-Unternehmen rechtfertigt bereits ein<br />
einziger Bereich – in diesem Fall die Produktentwicklung<br />
– die Einführung einer Analyselösung.<br />
Laut der Studie steigt die „Fähigkeit eines Unternehmens,<br />
innovative neue Produkte und Dienstleistungen<br />
zu entwickeln, mit der Verfügbarkeit von Daten<br />
und Spezialprodukten bzw. -services, was<br />
wiederum Hand in Hand mit einer besseren Data<br />
Intelligence geht“.<br />
Abb. 6<br />
Gleichung zur Berechnung des<br />
finanziellen Nutzens einer Analyselösung<br />
n<br />
∑<br />
MV = A +DDD x A<br />
i=1<br />
i<br />
Die Berechnung des ROIs<br />
von Analyselösungen<br />
i<br />
Aber wie hoch ist der Nutzen konkret? Laut der<br />
texanischen Analyse könnte ein Unternehmen mit<br />
einem Umsatz von 12 Milliarden Euro über fünf<br />
Jahre hinweg zusätzlich 45 Millionen Euro<br />
erwirtschaften, wenn es entsprechend kompetenten<br />
und befugten Mitarbeitern Analyse-Instrumente zur<br />
Hand geben würde, mit denen diese „Trends und<br />
Nachfragemuster genauer erkennen, fundiertere<br />
Empfehlungen <strong>für</strong> Entscheidungen aussprechen<br />
und das Profile Matching optimieren“ könnten,<br />
um so den Umsatzerlös der Produkte zu steigern.<br />
Dasselbe typische Fortune 1000-Unternehmen<br />
könnte durch Verkäufe an Neukunden außerdem<br />
ein zusätzliches Umsatzplus von jährlich 10 Millionen<br />
Euro realisieren.<br />
Die Wissenschaftler der University of Texas legten<br />
dar, dass in den operativen Bereichen Anlagennutzung,<br />
Prognose und Planung sowie zeitgerechte Lieferung<br />
von Produkten und Dienstleistungen der umfassende<br />
Einsatz einer Analyselösung durchweg zu positiven<br />
Ergebnissen führt. So kann sich die verstärkte<br />
Analysenutzung in einer um 18,5 Prozent verbesserten<br />
Planungs- und Prognose-Performance niederschlagen. 30<br />
Die Gründe <strong>für</strong> diesen signifikanten ROI variieren<br />
je nach Unternehmen und Branche. Ein genauerer<br />
Blick auf die Analytics-Nutzung im Telekommunikationssektor<br />
macht jedoch deutlich, wie groß der<br />
Vorsprung einer modernen Analyse-Umgebung<br />
gegenüber herkömmlichen Entscheidungssystemen<br />
ist32 (siehe Abb. 8).<br />
Abb. 7 Der Nutzen der Analyse <strong>für</strong> die Kundengewinnung<br />
Kunde reagiert auf<br />
Marketingbotschaft<br />
1.Neue Kundendaten<br />
gehen an Analytics<br />
Engine und werden<br />
mit anderen Daten<br />
aggregiert, um eine<br />
Antwort des Unternehmens<br />
zu generieren<br />
2.Marketing erhält<br />
Daten zu dem Programm,<br />
auf das der<br />
Kunde reagiert hat.<br />
Abb. 8 Vergleich herkömmlicher Infrastrukturen mit moderner Echtzeit-Analyse<br />
Speicherkosten<br />
Analyse<br />
Daten-Ladegeschwindigkeit<br />
Daten-Ladezeit<br />
Administrationszeit<br />
Antwortzeit bei komplexen Abfragen<br />
Verfahren <strong>für</strong> die Datenkomprimierung<br />
Support-Kosten<br />
Herkömmliche<br />
Analyse-Infrastruktur<br />
Hoch<br />
Offline<br />
Gering<br />
Lang<br />
Lang<br />
Stunden/Tage<br />
Nicht ausgereift<br />
56 57<br />
Data<br />
Warehouse<br />
KAPITEL 4: BEST PRACTICES UND DER ROI VON ANALYSEPROJEKTEN<br />
Angemessene Reaktion der<br />
Vertriebs-mitarbeiter<br />
Analytics Engine: kann ein<br />
physisch separates Modul oder Teil<br />
des Data Warehouse sein<br />
Hoch<br />
Vertriebsaktivität wird erfasst und an<br />
das operative Geschäft/die Produktion<br />
übergeben, wo ihr Effekt bewertet und<br />
Prognosen über die gesamte Supply<br />
Chain dynamisch angepasst werden<br />
Operativer Data Mart<br />
Supply Chain<br />
Moderne<br />
Echtzeit-Analyse-Infrastruktur<br />
Gering<br />
Echtzeit<br />
Hoch<br />
Durchschn. 50 % kürzer<br />
Durchschn. 60 % kürzer<br />
Minuten<br />
Durchschn. 40–50 % bessere<br />
Datenkomprimierung<br />
Gering
UMFANGREICHE, faktenbasierte Studien von<br />
Wissenschaftlern und Branchenanalysten<br />
belegen, wie und warum Analyse-Anwendungen<br />
in den allermeisten Fällen zu einem äußerst<br />
erfreulichen ROI führen. Die Erkenntnisse aus diesen<br />
Studien können überzeugende Argumentationshilfen<br />
bei Ihrer Investition in BI-Projekte sein. Allerdings ist<br />
nichts so überzeugend wie der ROI realer Unternehmen.<br />
Natürlich wollen viele Unternehmen die Vorteile,<br />
die sie aus ihren Analyselösungen ziehen, vor der<br />
Konkurrenz lieber geheim halten. Einige wenige<br />
sind jedoch bereit, die erzielten Umsatzsteigerungen<br />
und Kostensenkungen offenzulegen. So kam der<br />
brasilianische Bundesstaat São Paulo mit einer<br />
maßgeschneiderten Analytics-Technologie hartnäckigen<br />
Steuersündern auf die Spur. Das Ergebnis: die<br />
Aufdeckung von unversteuertem Einkommen in<br />
Höhe von 71 Millionen Euro. Ebenso positiv waren<br />
niedrigere IT-Kosten durch geringeren Speicherplatzbedarf<br />
und geradezu phänomenaleVerbesserungen bei der<br />
Berichterstellungszeit, die von mehreren Tagen auf<br />
einige wenige Sekunden schrumpfte.<br />
American Airlines implementierte ein modernes<br />
Analyseprogramm, um Flugticket-Fälschern das<br />
Handwerk zu legen, die Kunden betrogen hatten<br />
und der Fluglinie hohe Kosten verursachten. Die<br />
Fluglinie konnte ihre direkten Verluste durch gefälschte<br />
Tickets um durchschnittlich 707.000 Euro pro Jahr<br />
senken. Zusätzlich konnte die IT-Abteilung ihren<br />
Speicherbedarf um erstaunliche 70 Prozent reduzieren.<br />
Von der Theorie<br />
zur Praxis<br />
Mit sieben Millionen südafrikanischen Mobilfunknutzern<br />
verzeichnete Cell © ein signifikantes und rapide<br />
wachsendes Datenaufkommen, ohne jedoch in<br />
angemessenem Maße an neuen Marktchancen<br />
partizipieren zu können. Durch eine auf seine<br />
Bedürfnisse zugeschnittene Analytics-Infrastruktur<br />
konnte das Unternehmen seine Reporting-Zeit von<br />
acht Stunden auf fünf Minuten zurückfahren und<br />
allein damit 10 Prozent Kosten einsparen. Darüber<br />
hinaus schreibt Cell © seiner Analyselösung<br />
Einsparungen in Höhe von über 14 Millionen Euro<br />
zu, die bei einem einzigen, die Installation von<br />
landesweit 80 Basisstationen umfassenden Projekt<br />
realisiert wurden.<br />
Enterprise Analytics ist<br />
allgegenwärtig<br />
Finanzmodellierung<br />
Produktplanung und -entwicklung<br />
Produktion und operative Analyse<br />
Kundengewinnung<br />
Bewertung von Marketingprogrammen<br />
Kundenbindung<br />
Nach der Einführung einer neuen Analyse-Anwendung<br />
gelang es der AOK Hessen, insgesamt 179 gefälschte<br />
Kostenabrechnungen aufzudecken und sich auf<br />
diese Weise 2,3 Millionen Euro zurückzuholen, die<br />
sie den Betrügern zuvor erstattet hatte. In einem<br />
nächsten Schritt will die Krankenkasse nun Anbieter<br />
ins Visier nehmen, die unverhältnismäßig hohe<br />
Gebühren in Rechnung stellen.<br />
HMV Japan ist im Musik- und Video-Geschäft<br />
aktiv. Indem es mittels modernster Analyse-Software<br />
sehr viel zielgenauere Marketingprogramme<br />
entwickelte, konnte das Unternehmen die Kundenreaktion<br />
auf seine E-Mail-Kampagnen um 50 bis 70<br />
Prozent verbessern. In der Folge stiegen auch die<br />
Verkaufszahlen je nach Kampagne um das 3- bis<br />
15-Fache, während der Umsatz pro Transaktion mit<br />
einem Plus von 150 bis 300 Prozent einen regelrechten<br />
Quantensprung erlebte.<br />
Auch die belgische Colruyt Group verbuchte<br />
innerhalb von nur drei Jahren einen äußerst positiven<br />
ROI. Die spaltenorientierte Architektur des neuen<br />
Analysesystems führte zu einer erheblich besseren<br />
Abfrageperformance <strong>für</strong> Tausende von Berichten.<br />
Gleichzeitig ließ sich der Speicherplatzbedarf durch<br />
Datenkomprimierung und Indexe um bis zu 70<br />
Prozent verringern.<br />
Im Fokus:<br />
Performance und<br />
Profit<br />
DIES IST NUR EINE KLEINE AUSWAHL DER UNTERNEHMEN,<br />
die mit maßgeschneiderten Analyselösungen<br />
ihre Gewinne nach oben treiben konnten.<br />
Sie stammen aus den verschiedensten Branchen<br />
und Weltgegenden. Allen gemein ist jedoch die<br />
KAPITEL 4: BEST PRACTICES UND DER ROI VON ANALYSEPROJEKTEN<br />
Fokussierung auf Präzision, Performance und –<br />
natürlich Profit, eine Fokussierung, die als<br />
Antriebsfeder <strong>für</strong> ihre Investition in eine ernsthafte<br />
Analyselösung diente.<br />
Es versteht sich von selbst, dass jedes Unternehmen<br />
seine eigenen Gründe <strong>für</strong> die Einführung einer<br />
individuellen Analyse-Architektur hat. Jenseits der<br />
offensichtlichen Vorteile eines besseren Dateneinblicks<br />
möchte ein Unternehmen womöglich die Nutzerzahl<br />
erhöhen, ein anderes seine Datenkapazität vergrößern<br />
und ein drittes einfach die Performance steigern.<br />
Sie alle erwarten von einer zeitgemäßen Analyse-<br />
Umgebung jedoch, dass sie sich positiv auf die<br />
Unternehmensbücher auswirkt.<br />
Wie hier dargelegt, ist diese Erwartung sowohl<br />
durch zahlreiche Praxisbeispiele als auch durch<br />
objektive Marktforschungen gerechtfertigt. Der<br />
Nachweis <strong>für</strong> den Nutzen der Analyse ist erbracht.<br />
Allerdings bleibt auch festzustellen, dass nicht alle<br />
Analyseplattformen über einen Kamm geschoren<br />
werden dürfen. Klassische Einheitslösungen drohen<br />
in der Big-Data-Welle unterzugehen und versagen,<br />
wenn zu viele Anwender gleichzeitig das System<br />
beanspruchen. Sie sind vergleichsweise langsam<br />
und scheitern an komplexen Workloads.<br />
Demgegenüber bietet eine maßgeschneiderte<br />
Analyse-Architektur mit einer spaltenorientierten<br />
Datenbank und den inhärenten Performance- und<br />
Skalierbarkeitsvorteilen so vielen Unternehmensbereichen<br />
messbare Produktivitätsvorteile, dass der<br />
höhere ROI fast schon in den Hintergrund rückt. Fast.<br />
Denn natürlich ist der ROI ein zentraler Faktor<br />
und unabdingbar <strong>für</strong> die Beurteilung eines jeden<br />
größeren IT-Projekts. Bei der Entscheidung über<br />
eine Analytics-Investition spricht der ROI eine<br />
eindeutige Sprache. Diese Chance zu nutzen, liegt<br />
nun an Ihnen.<br />
58 59
1 Structure Big Data Conference, März 2011, http://event.gigaom.com/bigdata/<br />
2 Gartner, Inc. “Gartner Survey Shows Data Growth as the Largest Data Center Infrastructure Challenge,”<br />
November 2010. http://www.gartner.com/it/page.jsp?id=1460213<br />
3 IDC, The Digital Universe Decade: Are You Ready? Mai 2010, S. 2.<br />
4 CED in the History of Media Technology, http://www.cedmagic.com/history/ibm-305-ramac.html<br />
5 Everett M. Rogers und Judith K. Larsen, Silicon Valley Fever, Basic Books, 1984, S. 252.<br />
6Paul Russell, 352 million computers sold worldwide in 2010,<br />
http://www.discountvouchers.co.uk/news/85483535.html<br />
7 Theodore Roszak, The Cult of Information, Pantheon, 1986, S. 88.<br />
8 McKinsey Global Institute, Big data: The next frontier for innovation, competition, and productivity,<br />
Mai 2011, S. 2.<br />
9 IDC, The Digital Universe Decade… S. 8.<br />
10 Wikipedia-Statistik , http://en.wikipedia.org/wiki/Hard_disk_drive#cite_note-Mee-2<br />
11 Barua, et. al., Measuring Business Impacts of Effective Data, Chapter One, September 2010, S. 2.<br />
12 Brochure, 1995 to the First International Conference on Knowledge Discovery and Data Mining,<br />
http:// www.sigkdd.org/kdd1995/<br />
13 Gartner, Inc. Reveals Five Business Intelligence Predictions for 2009 and Beyond,<br />
http://www.gartner.com/it/page.jsp?id=856714<br />
14 Frank Hayes, “The Story So Far,” Computerworld, 15 April 2002.<br />
15 Colin White, Is an Enterprise Data Warehouse Still Necessary for Business Intelligence? BI Research,<br />
23 Januar 2011, http://www.thevirtualcircle.com/2011/01/is-an-enterprise-data-warehousestill-required-for-business-intelligence/<br />
16 Eric Lai, “Relational database pioneer says technology is obsolete,” Computerworld, 6 September 2007.<br />
17 Hillested, et. al., “Can Electronic Medical Record Systems Transform Health Care?<br />
Potential Health Benefits, Savings, And Costs,” Health Affairs, 24, no. 5 (2005): 1103-1117<br />
18 Pande, et. al., “Recapturing your supply chain data,” McKinsey Quarterly, März 2006.<br />
19 David Bollier, The Promise and Peril of Big Data, The Aspen Institute, 2010, S. 3.<br />
20 Rama Ramakrishnan, “Impact of ‘Big Data’ on Retail,” CQuotient, 15 Mai 2011,<br />
http://blog.cquotient.com/?p=64<br />
21 Interview with Larry Tabb by Greg MacSweeney of Wall Street & Technology, 4 Mai 2011.<br />
22 Ari Banerjee, Addressing ‘Big Data’ Telecom requirements for Real-Time Analytics, Heavy Reading,<br />
März 2011.<br />
23 Bollier, The Promise and Peril of Big Data, The Aspen Institute, 2010, S. 15.<br />
24 Mary Meeker, Internet Trends, MorganStanley, 12 April 12 2010.<br />
25 Gartner, Inc., “Gartner Reveals Top Predictions for IT Organizations and Users for 2011 and Beyond,”<br />
30 November 2010.<br />
26 Ferenc Mantfeld, “Top 10 reasons why Business Intelligence Projects fail,”<br />
http://www.seemoredata.com/en/entry.php?12-Top-10-reasons-why-Business-Intelligence-Projects-fail<br />
27 Compiled by Ryan Mulcahy, “Business Intelligence Definition and Solutions,” CIO, November 2007.<br />
28 Gartner, Inc. “Gartner Survey Shows Data Growth as the Largest Data Center Infrastructure Challenge,”<br />
1 November 2010. http://www.gartner.com/it/page.jsp?id=1460213<br />
29 Brynjolfsson, et.al., Strength in Numbers: How Does Data-Drive Decisionmaking Affect Firm Performance?,<br />
Sloan Management School, 22 April 2011, S. 6.<br />
30 Barua, et. al., Measuring Business Impacts of Effective Data, September 2010.<br />
31 Ibid, Kapitel 3, S. 9.<br />
32 Ibid, Banerjee, Addressing “Big Data”…<br />
60 61<br />
SOURCES
Wir hoffen, dieser Guide zu den Vorteilen von Analytics <strong>für</strong> Ihr<br />
Unternehmen hat Ihnen gefallen und konnte Ihnen wertvolle<br />
Informationen zur Umwandlung massiver in verwertbare Daten liefern.<br />
Möchten Sie mehr erfahren? Sybase bietet eine breite Palette<br />
von Lösungen <strong>für</strong> Business-Intelligence-Berichte, Echtzeit-<br />
Analysen, Enterprise Performance Management und Enterprise<br />
Data Warehousing. Die innovativen Analytik-Technologien von<br />
Sybase liefern enorm schnell Antworten auf komplexe Fragen<br />
und erschließen so den Geschäftswert massiver Datenmengen<br />
- gleich ob auf finanzieller, betrieblicher, verhaltenstechnischer<br />
oder wissenschaftlicher Ebene. Entwickelt <strong>für</strong> flexibles und<br />
effizientes Arbeiten unterstützen die Analytics-Technologien<br />
von Sybase über 2.000 Unternehmen weltweit darin, Erkenntnisse<br />
zu gewinnen, die eigene Leistung zu verbessern, Trends zu<br />
verstehen, Betrugsdelikte zu erkennen, Risiken zu managen und<br />
Kunden besser zu betreuen.<br />
Für weitere Informationen, Referenzgeschichten, Whitepaper,<br />
zusätzliche Ressourcen sowie zur Kontaktaufnahme mit einem<br />
Sybase-Experten gehen Sie auf www.sybase.com/analyze.<br />
RESOURCES<br />
62 63
SYBASE, AN SAP COMPANY<br />
CORPORATE OFFICE<br />
ONE SYBASE DRIVE<br />
DUBLIN, CA 94568-7902 U.S.A.<br />
1 800 8SYBASE<br />
Marketingmaterial Nr. L03337<br />
sybase.com<br />
64<br />
Copyright © 2011 Sybase, ein SAP®-Unternehmen. Alle Rechte vorbehalten. Unverö entlichte Rechte nach den<br />
Urheberrechtsgesetzen der Vereinigten Staaten bleiben vorbehalten. Sybase und das Sybase-Logo sind Marken<br />
von Sybase, Inc oder dessen Tochtergesellschaften. ® verweist auf eine Registrierung in den Vereinigten Staaten von<br />
Amerika. SAP und das SAP-Logo sind Marken oder eingetragene Marken der SAP AG in Deutschland und anderen<br />
Ländern. Alle anderen Marken sind Eigentum der jeweiligen Inhaber. 11/11