.
.
-
Training auf Anfrage

Apache Spark™ Basic Training

Diese Veranstaltung ist leider schon vorbei!

Die Teilnehmer erhalten einen Überblick sowohl über die Funktionsweise von Apache Spark™ innerhalb des Hadoop Ökosystems als auch über die verteilte Berechnung von Big Data Anwendungen im Allgemeinen. Dabei wird zunächst auf zugrundeliegende Datenstrukturen wie DataFrames, Datasets und RDDs deren Konvertierung und Manipulation vertieft eingegangen. Im Anschluss erlangen die Teilnehmer einen detaillierten Überblick über spark-kompatible Datenquellen und Dateiformate, sowie deren Aufruf, Konvertierung und Ablage in einem Dateisystem. Des Weiteren thematisiert das Training ausführlich die Verarbeitung (Aggregation, Gruppierung, etc.) strukturierter Daten mittels Spark SQL. Zudem erlernen die Teilnehmer Methoden zur Optimierung der Performanz von Spark Anwendungen. Ihr neuerworbenes Wissen können die Teilnehmer zum Anschluss in ausführlichen Übungsaufgaben überprüfen. Das Apache Spark™ Basic Training kann sowohl in Scala als auch in Python sowohl auf Deutsch als auch auf Englisch angeboten werden.

Trainingsinhalte

  1. DataFrames, Datasets & RDDs
    1.1 At a glance
    1.2 DataFrames
    1.3 Datasets
    1.4 RDDs
    1.5 Conversion between DataFrames, Datasets and RDDs
    1.6 Conclusion
  2. Operations: Transformations and Actions
    2.1 Transformations & Actions at a glance
    2.2 RDD: Transformations & Actions
    2.3 Spark API for DataFrames and Datasets
    ‍2.4 Monitoring: Spark web UI
    Exercises
  3. Ingestion & Saving
    3.1 Data Sources
    3.2 Ingestion
    3.3 Saving
    Exercises
  4. Spark SQL
    4.1 Spark SQL
    4.2 Joining, aggregating and grouping
    Exercises
  5. Performance Tuning
    5.1 Caching
    5.2 Order of Operations
    5.3 Broadcast Joins
    5.4 Prefer DataFrames/Datasets over RDDs (Catalyst Optimizer)
    5.5 Partitioning
    5.6 Avoid overloading of master/driver node
    Exercises

Voraussetzungen

Grundlegende Kenntnisse in Scala oder Python werden vorausgesetzt. Bei Bedarf können geeignete Lerninhalte kostenfrei im Vorfeld des Trainings zur Verfügung gestellt werden.

maps:Tumblingerstraße 23, 80337 München
Datum:
Auf Anfrage
Uhrzeit:
09:00 - 17:30 Uhr
Ort:
Tumblingerstr. 23, 80337 München
Speaker:
Trainer:
Tickets:

Trainer

No items found.

Anmeldung

Anmeldung