Dell Storage-Lösungen für unstrukturierte Daten
Unstrukturierte Daten effizient speichern & managen mit Dell und SVA
Wer datenbasierte Anwendungen und Angebote entwickeln oder nutzen möchte, stellt schnell fest, dass dabei etliche Herausforderungen zu überwinden sind. Eine der größten: Es gibt keine universelle Datenkategorie. Vielmehr sind mehrere Formen anzutreffen. Das hat Auswirkungen darauf, wie Unternehmen Informationen speichern, managen und konsolidieren können – und wie sie den optimalen geschäftlichen Nutzen aus ihnen ziehen.
Was sind strukturierte und unstrukturierte Daten?
In Unternehmen und Organisationen fallen folgende Typen von Daten an:
- Strukturierte Daten: Sie haben eine feste Struktur, die durch Datenmodelle vorgegeben ist. Gespeichert werden sie in relationalen Datenbanken, etwa auf Basis von SQL. Beispiele sind Excel-Daten und Verzeichnisse mit Produkt- und Kundeninformationen.
- Halbstrukturierte Informationsbestände: Sie sind nicht strukturiert, verfügen jedoch über Meta-Daten oder Tags. Daher ist es möglich, bei solchen Daten, etwa XML- und JSON-Dateien, eine grundlegende Kategorisierung durchzuführen.
- Unstrukturierte Daten: Sie werden nicht in einem Format abgelegt, das auf einem bestimmten Datenmodell beruht. Zu dieser Kategorie zählen Fotos, Videos und Sprachdaten, zudem Social-Media-Posts, Sensordaten und E-Mails.
Verschiedene Marktforschungsunternehmen, IT-Hersteller und Datenspezialisten wie Dell Technologies und SVA gehen davon aus, dass 80 Prozent des Datenvolumens aus unstrukturierten Daten bestehen. Die restlichen 20 Prozent sind strukturierte und semi-strukturierte Informationsbestände. Diese Werte können je nach Unternehmen und dessen Geschäftsfeld schwanken. Doch an der dominierenden Rolle von unstrukturierten Daten ändert dies nichts.
Herausforderungen: Kompliziertere Auswertung und hoher Storage-Bedarf
Unstrukturierte Daten gewinnen vor allem in Verbindung mit Ansätzen wie künstlicher Intelligenz, maschinellem Lernen sowie Analytics-Anwendungen an Bedeutung. Allerdings ist die Analyse von unstrukturierten Daten zeitaufwendig und erfordert mehr Rechenleistung als die von strukturierten Informationen. Hinzu kommt, dass unstrukturierte Daten ein höheres Volumen haben und daher größere Storage-Kapazitäten benötigen. Das bedeutet, dass Unternehmen in besonderem Maß Faktoren wie die Performance und Skalierbarkeit von Speichersystemen berücksichtigen müssen, wenn sie unstrukturierte Informationsbestände nutzen möchten.
Die Vorteile der Dell Storage-Lösungen für unstrukturierte Daten
Enterprise-Fähigkeiten
Zuverlässige und sichere Bereitstellung mit branchenführenden Technologien und Services. Dell ECS (Elastic Cloud Storage) ist für die Speicherung von unstrukturierten Daten entwickelt und vereint das Datenvolumen einer Public Cloud mit der Ausfallsicherheit und Kontrolle einer Private Cloud.
Schnelle Einsichten
Das Data Lakehouse kombiniert Data Lake und Data Warehouse und verkürzt die Time-to-Insight um bis zu 90 Prozent.
Kosteneffiziente Skalierung
Bis in den Petabyte-Bereich passen Sie Ihre Kapazitäten an den tatsächlichen Bedarf an. So entsteht eine effiziente Objektspeicher-Cloud mit niedrigeren Gesamtbetriebskosten (TCO) gegenüber der Public Cloud.
Extreme Leistung für KI und moderne Workloads
Mit der idealen Speicherinfrastruktur und der Leistung der Appliances sind Unternehmen bestens aufgestellt für datenintensive KI- und ML-Analysen sowie für Workloads zur Verarbeitung unstrukturierter Daten.
Maximale Flexibilität
Legen Sie selbst fest, wo sie unstrukturierten Daten speichern. Mit der Datenmanagement-Plattform von Dell ist es egal, ob bei Hyperscalern in der Public Cloud, in Hybrid-Umgebungen oder in einer Private Cloud.
Objektspeicher: Gute Wahl für unstrukturierte Daten
Eine praktikable Methode, um unstrukturierte Datenbestände zu speichern, sind objektbasierte Storage-Lösungen. Sie legen Datensätze als Objekte ab, inklusive Metadaten und einer individuellen Kennung. Dadurch sind Objekte jederzeit zugänglich, auch dann, wenn sie auf Storage-Systemen an unterschiedlichen Standorten lagern. Allerdings belegen objektbasierte Informationen mehr Speicherplatz als block- und dateibasierte Daten. Die Objekte werden daher in großen Daten-Pools („Data Lakes“, „Data Warehouses“") abgelegt. Neuerdings kommen Data Lakehouses zum Einsatz, wie etwa die Dell Data Lakehouse Lösung von Dell Technologies und dessen Partner Starburst.
Data Lakehouses zum Speichern und Analysieren von Daten
Ein Data Lake kann Daten im Rohformat speichern. Ein Nachteil ist die geringe Verarbeitungs- geschwindigkeit, bedingt durch Batch-Prozesse. Ein Data Lakehouse kombiniert dagegen die Storage-Ressourcen eines Data Lake mit den Analysefunktionen eines Data Warehouse. Die Bearbeitung und Analyse von Daten erfolgen nahezu in Echtzeit. Dadurch lassen sich Informationen schnell in geschäftsrelevante Erkenntnisse (Insights) umsetzen. Das Dell Data Lakehouse ist eine schlüsselfertige Plattform. Sie wurde speziell für Anwendungen in Bereichen wie künstliche Intelligenz und Analytics konzipiert. Die Server- und Storage-Komponenten stammen von Dell Technologies. Die Query Engine (Dell Data Analytics Engine), über die Nutzer Anfragen an die Datenbank starten, hat Dells Partner Starburst entwickelt. Laut Enterprise Strategy Group (ESG) laufen Datenanalysen mit dem Dell Data Lakehouse um bis zu 90 Prozent schneller als bei anderen Storage-Architekturen. Außerdem behält der Nutzer die Kontrolle über die Informationen. Er muss sie nicht zwangsläufig in eine Public Cloud transferieren. Ein weiterer Pluspunkt: die hohe Skalierbarkeit. Die Storage-Knoten (Nodes) auf Basis des Object-Storage-System Dell ECS stellen pro Rack mehr als 6 Petabyte Speicherplatz zur Verfügung.
Scale-out-NAS mit Datenmanagement
Eine Alternative zu Data Lakehouses sind Scale-out-NAS-Systeme, etwa der Dell PowerScale-Reihe. Sie speichern datei- und blockbasierte Daten sowie unstrukturierte Informationen – lassen sich also variabel nutzen. Dazu trägt maßgeblich das „Betriebssystem“ Dell OneFS bei. Es unterstützt beispielsweise die Bereitstellung von Storage-Ressourcen an Edge- und Core-Standorten und in der Cloud. Das gilt auch für Public Clouds, wobei der User allerdings die Kontrolle über seine Daten behält. Mit Dell APEX Private Cloud steht zudem ein Modell zur Auswahl, bei dem Experten von Dell Technologies oder SVA den Betrieb einer privaten Storage-Cloud eines Anwenders übernehmen. Welcher Ansatz sich für einen Nutzer am besten eignet, können Experten von IT-Spezialisten wie SVA zusammen mit den IT-Teams von Unternehmen ermitteln. Denn neben technischen Aspekten sind auch Punkte wie Compliance- und Datenschutzvorgaben zu beachten.
Skalierung bis in den Petabyte-Bereich
Scale-out bedeutet, dass Unternehmen die Speicherkapazitäten an den tatsächlichen Bedarf anpassen können. In der minimalen Konfiguration stellt beispielsweise ein Cluster mit drei All-Flash-Systemen (Nodes) rund 11 Terabyte zur Verfügung. Steigt die Menge der unstrukturierten Daten, lässt sich die Zahl der Systeme in einem Storage-Cluster von drei bis auf 252 Nodes mit einer Rohkapazität von bis zu 186 Petabyte erhöhen. Genug für anspruchsvolle Projekte wie das Training von komplexen KI-Modellen und die Analyse großer Datenbestände. Mit Dell OneFS haben Unternehmen die Möglichkeit, Nodes unterschiedlicher Art nach Belieben zu kombinieren, etwa All-Flash- und Hybrid-Systeme. OneFS stellt außerdem ergänzende Funktionen bereit, etwa für das Replizieren von Daten zwischen Systemen und Standorten, die Performance-Analysen und für den Schutz der Storage-Infrastruktur.
Mehr Flexibilität durch softwarebasierte Plattformen
Besonders viele Freiheitsgrade beim Aufbau einer Storage-Umgebung für unstrukturierte Daten hat der Nutzer, wenn er nicht an eine bestimmte Hardware gebunden ist. Hier kommen softwarebasierte Plattformen wie Dell ECS in Spiel. Die ECS-Software agiert als „Overlay“-Schicht für die Steuerung der Object-Storage-Umgebung, ähnlich wie bei einem hyperkonvergenten Infrastruktursystem (HCI). Nutzer können dadurch vorhandene Storage-Systeme verwenden. Einfacher ist es allerdings, auf schlüsselfertige Lösungen zurückzugreifen, etwa Dell ECS EX5000. Diese Appliance stellt bis zu 11,2 Petabyte Speicherplatz pro Rack zur Verfügung. Die Vorteile von Object-Storage-Plattformen wie Dell ECS sind die hohe Skalierbarkeit, Performance und Ausfallsicherheit. Hinzu kommen Kostenvorteile gegenüber dem Speichern von unstrukturierten Daten in einer Public Cloud: Sie lassen sich mit Object-Storage-Lösungen wie ECS erheblich reduzieren.
Anbindung an die Cloud
Apropos Cloud: Steigt das Datenvolumen massiv an, sollten sich zumindest Teile davon in eine Cloud verlagern lassen. Dafür stehen Dell APEX File Storage for AWS und Dell File Storage for Microsoft Azure zur Wahl. Eine Schlüsselrolle spielt erneut die KI-fähige Datenmanagement-Plattform Dell PowerScale OneFS. Mit ihr legen Nutzer fest, wo welche unstrukturierten Daten gespeichert werden, etwa in einer Private, Hybrid oder Public Cloud – oder aber im eigenen Datacenter. SVA Experten unterstützen Unternehmen dabei, den optimalen Ansatz zu finden, beispielsweise eine schlüsselfertige ECS-Appliance mit Anbindung an eine Cloud-Umgebung, eine Dell APEX Private Cloud oder Object-Storage in einem Colocation-Rechenzentrum. Kunden profitieren in diesem Fall davon, dass SVA Titanium-Partner von Dell Technologies ist und über ein profundes Know-how bezüglich der Storage- und Cloud-Lösungen von Dell Technologies verfügt.
FAQ: Häufig gestellte Fragen
Warum steigt der Anteil von unstrukturierten Daten so rapide?
Weil sich die Zahl der Quellen solcher Daten rapide vergrößert hat. Dazu zählen Maschinen, Fahrzeuge und andere „Dinge“ wie smarte Stromzähler und Systeme für die Gebäudeautomatisierung. Hinzu kommt Content unterschiedlicher Art, den Social-Media-Plattformen und Collaboration-Plattformen bereitstellen.
Sind angesichts des hohen Volumens von unstrukturierten Daten Cloud-Storage-Ressourcen eine gute Wahl?
Dies hängt von den Datenmengen ab, die in einem Unternehmen anfallen. Objekt-Storage-Systeme wie Dell ECS speichern pro Rack bis zu 11,2 Petabyte unstrukturierter Daten und sind hochgradig skalierbar. Außerdem stehen Versionen mit schnellem NVMe-Flash-Speicher zur Verfügung, wenn besonders kurze Antwortzeiten gefragt sind. Allerdings bieten Cloud-Services wie etwa Dell APEX File Storage for AWS und Dell APEX File Storage for Microsoft Azure Nutzern die Möglichkeit, quasi unbegrenzte Datenmengen in einer Cloud abzulegen.
Sind Storage-Lösungen verfügbar, die parallel mehrere Datenformen unterstützen?
Lösungen wie Dell PowerScale sind nicht nur für unstrukturierte Daten ausgelegt. Mit ihnen können Nutzer auch block- und dateibasierte Informationen speichern. Dies ist wichtig, weil ein beträchtlicher Teil der Geschäftsinformationen nach wie vor als strukturierte Daten generiert und verarbeitet wird, etwa mithilfe von SQL-Datenbanken.
Was spricht für Object-Storage-Systeme im eigenen Rechenzentrum?
Für einige Branchen, etwa den Finanzsektor und die Gesundheitsbranche, gelten besonders strenge Datenschutz- und Compliance-Vorgaben. Für Unternehmen aus diesem Bereich kann es von Vorteil sein, sensible Daten nicht auf Public-Cloud-Plattformen zu speichern.
Sie haben Fragen?
Falls Sie mehr zu diesem Thema erfahren möchten, freue ich mich über Ihre Kontaktaufnahme.
Zum Kontaktformular