Contact
QR code for the current URL

Story Box-ID: 900111

ITGAIN Consulting Gesellschaft für IT-Beratung mbH Essener Strasse 1 30173 Hannover, Germany http://www.itgain.de
Contact Mr Peter Lissok +49 511 51513700
Company logo of ITGAIN Consulting Gesellschaft für IT-Beratung mbH
ITGAIN Consulting Gesellschaft für IT-Beratung mbH

Ein See voller Informationen: der richtige Umgang mit Data Lakes

ITGAIN - Analytics - ein Interview mit Jens Lehmann - Consultant der ITGAIN

(PresseBox) (Hannover, )
Wer große Mengen unterschiedlicher Datenformen für Analytics nutzen will, kommt an Data Lakes kaum vorbei. Doch um die richtigen Daten zum Fließen zu bringen, ist beim Einrichten einiges zu beachten. Ansonsten kann aus dem See durchaus ein nutzloser Tümpel werden. IT Consultant Jens Lehmann erklärt, wie ein Data Lake strukturiert sein sollte.

Herr Lehmann, parallel zu Data Warehouses nutzen immer mehr Unternehmen Data Lakes. Was ist eigentlich der Unterschied?

In einem Data Lake werden große Mengen angelegt – also Big Data, die man so in einem Data Warehouse nicht speichern kann. Denn Data-Lake-Daten können im Rohzustand verbleiben. Und sie können aus unterschiedlichen Quellen stammen. Um im Bild zu bleiben: Ein Data Lake ist ein großes Gewässer, gespeist aus mehreren Zuflüssen. Ein Data Warehouse besteht eher aus vielen befüllten Behältern mit bereits gedruckten Etiketten.

In welchen Anwendungsfällen ist Analytics per Data Lake denn sinnvoll?


Vor allem wenn große Massen an Informationen mit herkömmlichen Mitteln nicht analysiert werden können. Viele Unternehmen haben Millionen von Sensordaten, Verkaufsinformationen oder Social-Media-Inhalten, die ein Data Lake gemeinsam speichern kann.

Ok. Und wie sorge ich dafür, dass diese Daten zusammen nutzbar sind? Wie strukturiere ich einen Data Lake richtig?


Man muss die Rohdaten mit zusätzlichen Merkmalen anreichern. Zum einen mit Metadaten, die verraten, von welchem Ort aus jemand auf eine Website zugegriffen hat. Zum anderen mit Metaprozessinformationen – sprich Infos darüber, wann und wo Daten generiert wurden. Bei einem Hersteller für Dichtungen heißt das: Welche Maschine hat die Dichtung um 14 Uhr hergestellt? Außerdem braucht es Kontextdaten, die Texteingaben von Kunden in Formularen oder E-Mails strukturieren. Denn ein Computer kennt zum Beispiel nicht den Unterschied, wann mit dem Wort „Bank“ das Geldinstitut oder die Sitzgelegenheit gemeint ist. Zu guter

Letzt beschreiben Zuordnungshinweise die Beziehung zwischen Daten, also ob Abhängigkeiten zwischen Merkmalen bestehen.

Reicht das, oder braucht es noch mehr Struktur?

Es reicht nicht ganz. Viele Unternehmen häufen aus verschiedenen Abteilungen verschiedene Daten an. Sie sollten daher den großen Data Lake in Data Ponds unterteilen – also in kleinere Datenteiche, wenn man so will. Die Daten in den Teichen können aber dennoch durch die Metadaten miteinander verbunden werden.

Was heißt das genau?

Ausgehend von den beschriebenen Zusatzmerkmalen legt man Data Ponds an. Das heißt, analoge Daten, Textdaten und Prozessdaten bilden eigene Bereiche, Cluster genannt. Sie werden auch mit verschiedenen technischen Methoden zusammengefasst. Das ist Expertenarbeit. Aber am Ende sind die Daten nicht nur für Experten nutzbar, sondern für viele Mitarbeiter.

Haben Sie ein Beispiel?

Endanwender wie Verkaufspersonal oder Marketingexperten können Data Lakes nutzen. Sie finden schnell Zusammenhänge – zum Beispiel zwischen allen produzierten Dichtungen in der eben angesprochenen Produktion. Ist eine Charge fehlerhaft, kann man anhand ihrer Zusatzdaten sehen, welche Maschine sie wann produziert hat – und den Fehler finden. Oder man findet schnell eine Auflistung der häufigsten Kundenkommentare der letzten Monate zu einem Produkt.
Klingt rechenintensiv. Was braucht es an Hardware, um mit Data Lakes zu arbeiten?
Praktischerweise lässt sich ein Data Lake ohne aufwändige Rechnerarchitektur betreiben. Über das Open Source Framework Hadoop können in den Clustern viele Computer miteinander verbunden werden, die ihre Rechenleistung für den Data Lake zur Verfügung stellen.

Haben Sie noch generelle Hinweise für den Nutzen eines Data Lakes?

Es reicht nicht, den Data Lake mit Inhalten aus allen zur Verfügung stehenden Quellen zu fluten. Vielmehr sollte es darum gehen, die Möglichkeiten dieses
Konzeptes richtig zu nutzen. Ohne Vernünftiges Information Lifecycle Management und entsprechende Governance wird dies nicht gelingen. Daher ist eine Vorab-Analyse der Ziele enorm wichtig.

"Richtig angelegt sind die Daten aus Data Lakes nicht nur für Experten nutzbar, sondern für viele Mitarbeiter."

Jens Lehmann, IT Consultant bei ITGAIN.

Website Promotion

Website Promotion
ITGAIN - einfach machen!

ITGAIN Consulting Gesellschaft für IT-Beratung mbH

Wir sind Konzeptdenker, Projektlenker und Umsetzer. Wir sind Kosten-Reduzierer und Zeit-Sparer. Wir sind Anwendungs-Modernisierer, IT-Architekten, Mainframe-Migrierer-Modernisierer. Service-Manager, Software-Ingenieure, Datenbank-Versteher, Daten-Modellierer und Analytics-Könner.
Kurz: Wir sind diejenigen, die Ihre Anforderungen verstehen – und Ihre Anwendungen und Infrastruktur zukunftsfähig und qualitätssicher machen. Mit modernsten Technologien. Mit Wissen und Methode. Mit Kompetenz, Konstanz und Kreativität – und immer mit Herz und Verstand.

The publisher indicated in each case (see company info by clicking on image/title or company info in the right-hand column) is solely responsible for the stories above, the event or job offer shown and for the image and audio material displayed. As a rule, the publisher is also the author of the texts and the attached image, audio and information material. The use of information published here is generally free of charge for personal information and editorial processing. Please clarify any copyright issues with the stated publisher before further use. In case of publication, please send a specimen copy to service@pressebox.de.
Important note:

Systematic data storage as well as the use of even parts of this database are only permitted with the written consent of unn | UNITED NEWS NETWORK GmbH.

unn | UNITED NEWS NETWORK GmbH 2002–2024, All rights reserved

The publisher indicated in each case (see company info by clicking on image/title or company info in the right-hand column) is solely responsible for the stories above, the event or job offer shown and for the image and audio material displayed. As a rule, the publisher is also the author of the texts and the attached image, audio and information material. The use of information published here is generally free of charge for personal information and editorial processing. Please clarify any copyright issues with the stated publisher before further use. In case of publication, please send a specimen copy to service@pressebox.de.