Datenvorverarbeitung (Data Preparation and Data Wrangling) - Modul 1

Studienziele

Die Teilnehmer*innen lernen Daten als den wichtigsten Rohstoff der Digitalisierung in den verschiedensten Facetten kennen und können Daten gegenüber Information und Wissen abgrenzen. Sie kennen die wichtigsten Datenquellen, beherrschen verschiedene Methoden des Datenzugriffs und beurteilen die Datenqualität in kompetenter Weise.  Die Teilnehmer*innen kennen Lösungen zur Datenreinigung. Sie können sich einen Ãœberblick über das Profil der Daten verschaffen und auswertungsbereite Datensätze erzeugen.

Technologisch steht die statistische Programmiersprache R im Mittelpunkt. Die Teilnehmer*innen erhalten eine Einführung in das System und arbeiten auf der Grundlage aktueller Entwicklungen (Stichwort: tidyverse) dieses Systems.

Die Teilnehmer*innen werden in die die Nutzung relationaler Datenbanksysteme eingeführt. Sie können Business Intelligence Systeme zum Extrahieren, Transformieren und Laden (ETL) von Daten anwenden und Datenbankabfragen in der Structured Query Language (SQL) formulieren.    

Lehrinhalte

  • Daten, Datentypen, Transaktionsdaten, Open Data, Sensordaten
  • Datenzugriff, Verbindungen zu Daten-banken, APIs (Twitter, Google) Dateiformate, Encoding
  • Beurteilung der Datenqualität:
    - Audit / Profiling,
  • Datenreinigung und -validierung
    - Bearbeitung von Zeichenketten,
    - Funktionen für numerische Daten, Zeit-
      und Datumsangaben
    - Deduplizierung und Entity Resolution
    - Missing Values
  • Spreadsheets und damit verbundene spezifische Risiken
  • Auswertungsbereite Datensätze: Tidy Data und Data Wrangling
    Konversion, Selektion, Filterung, Aggregation, Neuanordnung und Erweiterung (Join, Union)
  • Technologie: ETL Systeme, Tableau Prep, Power BI
  • SQL
  • Big Data Plattformen

Lehr- und Lernmethoden

Problem based learning; Vorträge, problemorientierte Übungen und Aufgaben

Abschluss

Hochschulzertifikat der Berliner Hochschule für Technik
(bei Absolvierung der modulbegleitenden Aufgaben und der Modulprüfung; 5 Creditpoints nach ECTS);
ansonsten Teilnahmebescheinigung

Durchführung

Dauer: 8 Wochen 
Beginn: Oktober 2024
Anmeldung: jederzeit zum nächsten Beginn
Präsenztermine: Anfang Oktober und Anfang Dezember 2024 (jeweils Fr/Sa)

Nutzungsentgelt

1.500,- Euro 

Zugangsvoraussetzungen

  • Abschluss eines Hochschulstudiums oder eines vergleichbaren Studiums an einer Berufsakademie (BA)
  • mindestens ein Jahr für die Weiterbildung geeignete Berufserfahrung
  • Besondere Vorkenntnisse im Programmieren mit R und Python sind nicht erforderlich, jedoch die Bereitschaft, sich in diese Programme einzuarbeiten.
  • Interesse an der Teilnahme durch berufliche Erfahrungen in einem der Themenfelder (Vorverarbeitung, Datenanalyse, Ergebniskommunikation).

Detaillierte Informationen:

Aufbau und Ablauf des Fernstudienkurses

weiter zu Modul 2: Quantitative Methoden und Data Mining