Das Apache Spark™ Basic Training für alle, die den Einstieg in die Verarbeitung und Analyse großer Datenmengen schaffen wollen.
Die Teilnehmer erhalten einen Überblick sowohl über die Funktionsweise von Apache Spark™ innerhalb des Hadoop Ökosystems als auch über die verteilte Berechnung von Big Data Anwendungen im Allgemeinen. Dabei wird zunächst auf zugrundeliegende Datenstrukturen wie DataFrames, Datasets und RDDs deren Konvertierung und Manipulation vertieft eingegangen. Im Anschluss erlangen die Teilnehmer einen detaillierten Überblick über spark-kompatible Datenquellen und Dateiformate, sowie deren Aufruf, Konvertierung und Ablage in einem Dateisystem. Des Weiteren thematisiert das Training ausführlich die Verarbeitung (Aggregation, Gruppierung, etc.) strukturierter Daten mittels Spark SQL. Zudem erlernen die Teilnehmer Methoden zur Optimierung der Performanz von Spark Anwendungen. Ihr neuerworbenes Wissen können die Teilnehmer zum Anschluss in ausführlichen Übungsaufgaben überprüfen. Das Apache Spark™ Basic Training kann sowohl in Scala als auch in Python sowohl auf Deutsch als auch auf Englisch angeboten werden.
Grundlegende Kenntnisse in Scala oder Python werden vorausgesetzt. Bei Bedarf können geeignete Lerninhalte kostenfrei im Vorfeld des Trainings zur Verfügung gestellt werden.