Referenz

Data Lake für die medizinische Forschung

Big Data Charite Referenz

Berlin Institute of Health (BIH) und Charité optimieren Daten-Speicherung und -Analyse


Aufgabe
Data-Lake-Plattform zur zentralen und sicheren Daten-Speicherung und -Auswertung

Lösung
Die SVA-Experten konnten bei der Ausarbeitung einer Lösung nicht nur auf langjährige praktische Erfahrung mit dem Aufbau von Data-Lake-Plattformen und deren Tools setzen, sondern vor allem auch auf den engen Austausch mit dem Kunden. Die Basis bilden zunächst flexible und leistungsstarke HPE ProLiant Server. Sowohl DL360 als auch DL380 Systeme kommen hier zum Einsatz – skalierbar und sicher.

Die erfolgreiche Partnerschaft der SVA mit Cloudera führte zum Einsatz des kosteneffizienten Open Source Frameworks Cloudera Hortonworks Data Platform. Für die Plattform sprachen Vorteile wie agile Implementierungszeiten bei geringeren Gesamtbetriebskosten und unternehmensweite Zugriffskontrolle und Metadaten für Sicherheit und Governance. Ein SVA-Team aus den Bereichen Data Engineering, Big Data Architecture und Data Science konnte die Konzeption und Installation von Hardware und Plattform sowie die Prozesse für die Etablierung des weiteren Workflows aus einer Hand liefern.

Wichtige Punkte in diesem Projekt waren neben der Absicherung des Clusters mittels Kerberos & In-Flight-Encryption, die Anbindung der einzelnen Clusterkomponenten an das zentrale AD (LDAP) sowie die Entwicklung von Rollen- und Rechtekonzepten und deren durchgängige Implementierung. Außerdem wurden ein Data-Governance-Konzept für die Plattform erstellt, Quellsysteme über verschiedene Schnittstellen (u. a. Apache Nifi) angebunden und Datapipelines zur Aufbereitung der Quelldaten (u. a. mit Apache Spark und Kafka) implementiert.

 Vollständige Referenz ansehen