Der Kunde, ein Hersteller von IoT-Geräten für den Consumer-Markt, möchte die Laufzeitdaten seiner Geräte in einem zentralen Data Lake konsolidieren, speichern und abrufbar machen. Anschließend sollen auf diesen Daten Auswertungen durchgeführt und Machine Learning Modelle trainiert werden.
Wir implementieren eine Data Pipeline auf Basis von AWS Glue und Athena. Dies erlaubt uns skalierbar und effizient Rohdaten aufzubereiten und in die für die nachgelagerten Machine Learning-Prozesse benötigte Struktur zu bringen. Die für diesen Zweck notwendige Infrastruktur ist vollständig in Cloudformation abgebildet. Dies erlaubt es uns einfach mehrere Stages bzw. System parallel zu betreiben und die zugehörige Konfiguration synchron zu halten.
Die von uns implementierte Data Pipeline löst die vorherige On-premises Lösung des Kunden ab. Die Data Pipeline verarbeitet ein Datenvolumen von mehreren Terrabytes pro Tag.