• Einführung in Big Data und zentrale Konzepte (Volume, Velocity, Variety, Veracity, Value)
• Datenarten & Quellen: strukturierte, semi-strukturierte und unstrukturierte Daten (Logs, Sensoren/IoT, Klickdaten, Text, Bilder)
• Grundlagen der Big-Data-Architektur: Data Lake vs. Data Warehouse, Lakehouse-Ansatz, Batch vs. Streaming
• Speicherung & verteilte Systeme: HDFS/Objektspeicher, Partitionierung, Replikation, Skalierung horizontal (Cluster)
• Datenverarbeitung: MapReduce-Prinzip, moderne Engines wie Spark; ETL vs. ELT
• Abfragen & Analytics: SQL-on-Big-Data (z. B. Trino/Presto, Hive/Spark SQL), Aggregationen, Joins im verteilten Kontext
• Datenqualität & Governance: Schema-on-read vs. Schema-on-write, Metadaten/Kataloge, Lineage, Zugriffsrechte
• Performance-Basics: Partition Pruning, Datei-Formate (Parquet/ORC), Kompression, Caching
• Datenschutz & Sicherheit: DSGVO-Grundlagen, Pseudonymisierung, Rollen-/Rechtekonzepte, Audit Logs
• Typische Use Cases: Predictive Maintenance, Fraud Detection, Demand Forecasting, Logistik-Optimierung, Personalisierung