Die Durchführung von professionellen KI-Projekten stellt höchste Anforderungen an die zu Grunde liegende IT-Umgebung. Data Scientisten, die Deep Learning Systeme aufsetzen und trainieren nutzen oft GPUs, um die Rechenpower bekommen, die dafür notwendig ist. Diese GPUs werden meist statisch auf die Anzahl an Nutzern aufgeteilt. Dies führt dazu, dass einige GPUs zu manchen Zeiten ungenutzt auf ihren Einsatz warten, während andere Data Scientisten  auf weitere GPUs warten, um ihre Algorithmen zu trainieren. 

run:ai hat die weltweit erste Orchestrierungsplattform für KI-Computing entwickelt. Durch die Trennung der Workloads von der zugrundeliegenden Hardware schafft run:ai einen gemeinsam genutzten Pool von GPU-Ressourcen, der dynamisch bereitgestellt werden kann und so eine effiziente Orchestrierung von KI-Workloads und eine optimierte Nutzung von GPUs ermöglicht. Data Scientisten können nahtlos große Mengen an GPU-Leistung nutzen, um ihre Forschung zu verbessern und zu beschleunigen, während IT-Teams die zentrale, standortübergreifende Kontrolle und Echtzeittransparenz über die Bereitstellung von Ressourcen, Warteschlangen und die Nutzung behalten. Die run:ai-Plattform basiert auf Kubernetes und ermöglicht eine einfache Integration in bestehende IT- und Data-Science-Workflows.

Durch die Verwendung von run:ai‘s-Ressourcenpooling-, Warteschlangen- und Priorisierungsmechanismen werden Data Scientisten von den Herausforderungen der Infrastrukturverwaltung entlastet und können sich ausschließlich auf die Daten Wissenschaft konzentrieren. Sie können so viele Workloads wie nötig ausführen, ohne dass es zu Rechenengpässen kommt. Die Fairness-Algorithmen von run:ai garantieren, dass alle Nutzer und Teams ihren fairen Anteil an den Ressourcen erhalten. Richtlinien für vorrangige, bzw. priorisierte Projekte können im Voraus festgelegt werden, und die Plattform ermöglicht die dynamische Zuweisung von Ressourcen von einem Benutzer / Team zu einem anderen, wodurch sichergestellt wird, dass alle Benutzer rechtzeitig Zugang zu den begehrten GPU-Ressourcen erhalten. Der run:ai-Scheduler ermöglicht es Nutzern, Bruchteile einer GPU, ganze GPUs oder GPUs mit mehreren Knoten für verteiltes Training auf Kubernetes zu nutzen. Auf diese Weise werden KI-Workloads nach Bedarf und nicht nach Kapazität ausgeführt. Data-Science-Teams können mehr KI-Experimente auf der gleichen Infrastruktur durchführen.

run:ai hilft Unternehmen, ihre KI-Reise von Anfang bis Ende zu vereinfachen und zu beschleunigen. Mit einer Multi- und Hybrid-Cloud-Plattform (run:ai Atlas), die auf einem Cloud-nativen Betriebssystem basiert, unterstützt Atlas die KI-Initiativen der Nutzer an jedem beliebigen Ort (vor Ort on prem, am Netzwerkrand (edge), in der Cloud). Die Bündelung aller Rechenressourcen und die effiziente und automatisierte Verwaltung dieser Ressourcen ermöglichen es IT-Abteilungen, KI-as-a-Service anzubieten und von der Reaktion auf KI zur Beschleunigung von KI überzugehen.

Beschleunigung mit MLOps: Ermöglichen Sie MLOps und KI-Engineering-Teams die schnelle Operationalisierung von KI-Pipelines in großem Maßstab, die Ausführung von Produktionsmodellen für maschinelles Lernen an jedem beliebigen Ort unter Verwendung des integrierten ML-Toolsatzes oder durch einfache Integration ihres vorhandenen Toolsatzes von Drittanbietern (MLflow, KubeFlow usw.)

Offizieller Partner Status
Advanced Partner
Seit wann besteht die Partnerschaft?
2022
Link zur Partner Homepage

Sie haben Fragen?

Falls Sie mehr zu diesem Thema erfahren möchten, freue ich mich über Ihre Kontaktaufnahme.

Zum Kontaktformular
Photo
Stefanos Katsios
Stefanos Katsios
Fachbereichsleiter Big Data Analytics & IoT