Vertraue Deinen Zahlen. So baust Du eine skalierbare Datenplattform

Erfahre, wie du mit Databricks, dbt und der Medaillon-Architektur verlässliche KPIs und skalierbares Reporting sicherstellst.
July 28, 2025
3D-Illustration zeigt den Übergang von chaotischen Excel-Daten mit Kabeln und Fehlerwarnungen zu einer modernen Cloud-Datenpipeline, die saubere KPIs und Power BI Dashboards liefert.

Warum deine Zahlen heute misstrauisch machen

Vielleicht kennst du diese Situation: Du bereitest den Monatsabschluss vor, doch die Zahlen in Power BI stimmen nicht mit den Werten im ERP-System überein. Was eigentlich ein schneller Check sein sollte, entwickelt sich zu einer stundenlangen Fehlersuche. Solche Abweichungen untergraben das Vertrauen in das Reporting und sorgen dafür, dass Entscheidungen auf unsicherer Basis getroffen werden. Noch schlimmer wird es, wenn Audits anstehen und jede Abweichung mühsam dokumentiert werden muss, weil niemand die Datenflüsse nachvollziehen kann. In vielen Organisationen hängt die gesamte Berichtslogik an einzelnen Mitarbeitern. Excel-Tabellen, die irgendwo im Netzwerk kursieren, werden zur Schatten-IT, die zentrale Strategien aushebelt.

Eine moderne Datenarchitektur löst genau diese Probleme. Sie sorgt dafür, dass alle Beteiligten dieselben, verlässlichen Zahlen sehen, dass neue Anforderungen schnell integriert werden können und dass dein Team nicht mehr von hektischen Firefighting-Aufgaben getrieben wird. Die Basis dafür ist eine Kombination aus Databricks, dbt und einer Data Quality Scorecard.

In diesem Video erklärt Cornelius in 5 Minuten die wichtigsten Punkte: 

Die größten Pain Points, die du endlich lösen kannst

Fragmentierte Datenwelten erzeugen eine Vielzahl an Problemen. Für Entscheider bedeutet das vor allem Unsicherheit. Abweichungen zwischen Tools machen es unmöglich, sich auf KPIs zu verlassen. Audits ziehen sich endlos, weil es keine saubere Datenlinie gibt. Berichte hängen an Einzelpersonen, die ihr Wissen nicht teilen. Excel-Workarounds scheinen kurzfristig zu helfen, verursachen aber langfristig Chaos.

Data Engineers erleben diese Schwächen besonders intensiv. Sie arbeiten oft mit manuellen SQL-Jobs, die nicht versioniert sind und leicht fehlerhaft werden. Schon ein kleiner Fehler zwingt dazu, ganze Ladeprozesse neu zu starten, was wertvolle Zeit kostet. Ohne ein klares Deployment-Konzept lassen sich Änderungen nur schwer automatisieren. KPI-Logik ist in verschiedenen Tools verstreut, was die Wartung aufwendig macht.

Das Ergebnis ist eine teure, ineffiziente und nicht skalierbare Datenlandschaft. Eine Architektur, die diese Schwachstellen beseitigt, schafft sofort spürbare Vorteile.

Dein Zielbild: Vertrauen und Skalierbarkeit mit Databricks + dbt

Stell dir vor, du hast eine Plattform, auf die du dich verlassen kannst. Jede Kennzahl ist klar definiert, dokumentiert und getestet. Änderungen werden schnell umgesetzt, ohne bestehende Reports zu gefährden. Supportfälle nehmen ab, weil die Datenqualität kontinuierlich überwacht wird. Genau das erreichst du mit Databricks und dbt. Die Business-Logik ist dokumentiert, Modelle sind getestet, und die gesamte Architektur folgt einem klaren Aufbau. Inkrementelle Modelle beschleunigen Release-Zyklen, während Delta Lake durch Time Travel und strukturierte Layer Fehlerbehebung vereinfacht. Power BI greift direkt auf vertrauensvolle Gold-Tables zu, was Self-Service Reporting ohne Datenchaos ermöglicht. Diese Architektur ist nicht nur für heute gebaut, sondern für dein zukünftiges Wachstum.

Die Medallion-Architektur: Bronze – Silver – Gold

Herzstück dieses Ansatzes ist die Medallion-Architektur, die Daten in drei klar getrennten Schichten organisiert.

Im Bronze Layer landen alle Rohdaten exakt so, wie sie geliefert werden. Hier kommen Databricks Notebooks, Auto Loader oder Azure Data Factory zum Einsatz, die die Daten zuverlässig in Delta Tables speichern. Durch Partitionierung nach dem Ladezeitpunkt sind historische Datenstände leicht zugänglich. Der Zugriff ist ausschließlich Data Engineers vorbehalten, sodass Integrität und Sicherheit gewährleistet sind. Time Travel und Audit-Funktionen sind hier eingebaut.

Im Silver Layer findet die eigentliche Veredelung der Daten statt. Hier werden Fremdschlüssel verknüpft, Datentypen normalisiert und Anomalien bereinigt. dbt sorgt dafür, dass jedes Modell modular aufgebaut ist und klar einem Zweck dient. Tests, die automatisch laufen, prüfen die Qualität der Daten in jeder Transformation. Eine klare Ordnerstruktur wie models/silver/{domain}/ erleichtert die Übersicht.

Im Gold Layer werden schließlich die Kennzahlen erstellt, die das Business benötigt. Nach der Regel „One KPI – One Table“ wird jede Metrik in einer eigenen Tabelle gepflegt. dbt-Dokumentation macht jede Logik transparent. Power BI konsumiert diese Gold-Daten über den SQL Endpoint oder Direct Lake, sodass alle dieselben geprüften Zahlen sehen.

Wie es unter der Haube funktioniert

Alle Transformationen laufen über dbt, wodurch sie versionierbar, testbar und für CI/CD optimiert sind. Spark SQL auf der Databricks Runtime führt diese Transformationen performant aus. Das Deployment wird über GitHub Actions automatisiert. Jeder Code-Change löst Tests aus, bevor er in die Produktionsumgebung übernommen wird. Datenqualität wird nicht dem Zufall überlassen: dbt Tests prüfen technische Kriterien, während eine Business-DQ Scorecard den fachlichen Zustand überwacht. Sicherheit und Governance stellt der Unity Catalog sicher, der Rollen und Metadaten zentral verwaltet.

Häufige Fehler, die du damit vermeidest

In vielen Unternehmen wird KPI-Logik in Power BI gepflegt, was zu unterschiedlichen Interpretationen und schwer wartbaren Berichten führt. In der neuen Architektur liegt die gesamte Logik zentral in dbt. Dokumentation entsteht automatisch durch dbt Docs, und Data Lineage ist jederzeit nachvollziehbar. Manuelle Prüfungen von Testdaten gehören der Vergangenheit an, weil Tests und Alerts automatisiert laufen. Missmatches zwischen Quell- und Reportinglogik können nicht mehr entstehen, da der Silver Layer als einzige Quelle für Reporting-Tables dient.

❌ Klassischer Fehler ✅ Neue Lösung
KPI-Logik in Power BI Nur noch in dbt – Power BI ist reiner Visual Layer
Fehlende Dokumentation dbt Docs + Markdown + Data Lineage
Testdaten manuell prüfen Automatische dbt Tests + Alerts in Databricks
Mismatch zwischen Quell- und Reportinglogik Silver Layer = einzige Quelle für Reporting-Tables

Warum dieses Setup der Sweet Spot ist

Diese Architektur vereint Business- und Technikperspektive auf ideale Weise. Für die Geschäftsführung bedeutet sie verlässliche KPIs, nachvollziehbares Reporting und deutlich weniger operative Rückfragen. Für die technische Seite bietet sie wiederverwendbare Logik, automatisierte Tests, eine transparente Data Quality Scorecard und Zukunftssicherheit durch GitOps und CI/CD. Das Ergebnis ist eine Plattform, die robust, wartbar und skalierbar ist – egal, wie sich dein Unternehmen entwickelt.

Praxisbeispiel: So sieht die Umsetzung in der Realität aus

Ein mittelständisches Unternehmen aus der Energiebranche stand vor genau den beschriebenen Herausforderungen: unterschiedliche KPI-Definitionen, manuelle Reports und fehlende Dokumentation. Durch die Einführung der Medallion-Architektur mit Databricks und dbt konnte das Unternehmen innerhalb weniger Monate eine stabile Datenbasis schaffen. KPIs wurden zentral dokumentiert, Tests verhinderten fehlerhafte Daten, und die Fachbereiche erhielten Self-Service Reporting mit verlässlichen Zahlen. Der Audit-Aufwand reduzierte sich um mehr als die Hälfte, und die Time-to-Insight sank von Tagen auf Minuten.

FAQ: Häufig gestellte Fragen

Was ist die Data Quality Scorecard?
Sie bewertet die Qualität der Daten anhand definierter Kriterien und macht Schwachstellen sichtbar. Damit wird sie zum Frühwarnsystem für fehlerhafte KPIs.
Warum sollte KPI-Logik nicht in Power BI liegen?
Weil Business-Logik versioniert, getestet und dokumentiert in dbt gehört. Power BI dient ausschließlich der Visualisierung.
Ist dieses Setup auch für kleinere Unternehmen geeignet?
Ja, es ist modular aufgebaut und kann schrittweise eingeführt werden – ideal für Unternehmen, die wachsen wollen.
Wie lange dauert die Implementierung einer solchen Architektur?
Die Dauer hängt von der Ausgangslage ab, oft sind erste Ergebnisse in wenigen Wochen sichtbar. Ein vollständiger Rollout kann je nach Komplexität mehrere Monate dauern.
Mit welchen Kosten muss gerechnet werden?
Die Kosten variieren nach Unternehmensgröße und Anforderungen. Dank der modularen Einführung lassen sich Investitionen schrittweise planen und durch Einsparungen schnell amortisieren.
Wie integriert sich die Lösung in bestehende Systeme?
Databricks und dbt lassen sich flexibel mit vorhandenen Datenquellen und BI-Tools verbinden, sodass kein Systemwechsel erforderlich ist.
Welche Skills braucht das Team für den Betrieb?
Grundkenntnisse in SQL, Erfahrung mit dbt und ein Basisverständnis für Cloud-Technologien reichen aus. Schulungen können den Einstieg erleichtern.
Wie lässt sich der ROI der Plattform messen?
Der ROI zeigt sich durch geringere Supportkosten, kürzere Time-to-Insight und höhere Datenqualität. Viele Unternehmen sehen innerhalb eines Jahres deutliche Effizienzgewinne.

Dein nächster Schritt: Vertrauen in deine KPIs herstellen

Portrait Cornelius Heidrich

Der Weg zu Deiner Datenplattform

In 30 Minuten skizzieren wir gemeinsam, was du für eine solide Datenplattform brauchst.

Jetzt gratis Strategie-Session sichern

Entdecke weitere Artikel

Entdecken