-
-
-
-
URL copied!
In den letzten Jahrzehnten wurden riesige Datenmengen aus verschiedenen Quellen generiert. Unternehmen wollen zunehmend neue Datenparadigmen nutzen, um bessere Entscheidungen zu treffen und Maßnahmen zu ergreifen. So können sie ihre Effizienz steigern, neue Wege der Geschäftsabwicklung beschreiten und Ausgaben optimieren.
Viele Unternehmen haben jedoch mit Datenproblemen zu kämpfen, die auf die komplexen Technologiepakete und Datenpipelines zurückzuführen sind, die sich aufgrund neuer Geschäftsziele ständig ändern. Es ist unerlässlich geworden, Best Practices für die Implementierung von Datenqualitäts- und Validierungstechniken zu nutzen, um sicherzustellen, dass die Daten für weitere Analysen zur Gewinnung von Erkenntnissen nutzbar bleiben.
In diesem Blog befassen wir uns mit den Anforderungen an die Datenqualität und dem Kerndesign einer Lösung, mit der Unternehmen Datenqualität und -validierung auf flexible, modulare und skalierbare Weise durchführen können.
Anforderungen an die Datenqualität
Eine Datenplattform integriert Daten aus einer Vielzahl von Quellen, um verarbeitete und bereinigte Datensätze, die den Qualitäts- und Regulierungsanforderungen entsprechen, für Analysesysteme bereitzustellen, damit daraus Erkenntnisse gewonnen werden können. Die Daten, die von den Datenquellen in die Speicherebenen übertragen werden, müssen validiert werden, entweder als Teil der Datenintegrationspipeline selbst oder durch einen unabhängigen Vergleich zwischen der Quelle und der Senke.
Im Folgenden sind einige der Anforderungen aufgeführt, die eine Datenqualitäts- und Validierungslösung erfüllen muss:
- Datenvollständigkeit prüfen: Validierung der Ergebnisse zwischen den Quell- und Zieldatenquellen, z. B.:
- Vergleich der Zeilenzahl über Spalten hinweg
- Vergleich der Ausgabe von Spaltenwertaggregationen
- Vergleich einer Teilmenge von Daten ohne Hashing oder eines vollständigen Datensatzes mit SHA256-Hashing aller Spalten
- Vergleich von Profiling-Statistiken wie Minimum, Maximum, Mittelwert, Quantile
- Schema/Metadaten prüfen: Validierung der Ergebnisse zwischen Quelle und Ziel oder zwischen der Quelle und einem erwarteten Wert.
- Überprüfung von Spaltennamen, Datentyp, Reihenfolge oder Position der Spalten, Datenlänge
- Datenumwandlungen prüfen: Validieren Sie den Zwischenschritt der tatsächlichen Werte mit den erwarteten Werten.
- Benutzerdefinierte Datentransformationsregeln prüfen
- Überprüfung der Datenqualität, z. B. ob die Daten im Bereich liegen, in einer Referenzsuche, einem Domänenwertvergleich oder ob die Zeilenzahl mit einem bestimmten Wert übereinstimmt
- Prüfung von Datenintegritätsbeschränkungen wie nicht null, Eindeutigkeit, kein negativer Wert
- Validierung der Datensicherheit: Überprüfen Sie verschiedene Sicherheitsaspekte, wie z. B.:
- Überprüfen, ob die Daten mit den geltenden Vorschriften und Richtlinien konform sind
- Identifizierung von Sicherheitsschwachstellen in der zugrunde liegenden Infrastruktur, den verwendeten Tools oder dem Code, die sich auf die Daten auswirken können
- Identifizierung von Problemen auf der Ebene des Zugriffs, der Autorisierung und der Authentifizierung
Durchführen von Bedrohungsmodellen und Testen von Daten im Ruhezustand und bei der Übertragung
- Validierung der Datenpipeline: Überprüfen von Pipeline-bezogenen Aspekten, wie z. B. ob:
- die erwarteten Quelldaten ausgewählt werden
- die erforderlichen Operationen in der Pipeline den Anforderungen entsprechen (z. B. Aggregation, Transformationen, Bereinigung)
- Die Daten werden an das Ziel geliefert.
- Validierung der Code- und Pipeline-Bereitstellung: Validierung, ob die Pipelines mit dem Code korrekt in der erforderlichen Umgebung bereitgestellt wurden
- Nahtlose Skalierung für große Datenmengen
- Unterstützung der Orchestrierung und Planung von Validierungsaufträgen
- Bereitstellung eines Low-Code-Ansatzes zur Definition von Datenquellen und Konfiguration von Validierungsregeln
- Generierung eines Berichts, der Details zu den Validierungsergebnissen der konfigurierten Regeln für alle Datensätze enthält
Überblick über die Lösung
Nachfolgend finden Sie einen allgemeinen Entwurf für eine Datenqualitäts- und -validierungslösung, die die oben genannten Anforderungen erfüllt.
- Komponenten-Bibliothek (Component Library): Verallgemeinern Sie die üblicherweise verwendeten Validierungsregeln als eigenständige Komponente, die über eine vordefinierte Komponentenbibliothek out-of-box bereitgestellt werden kann.
- Komponenten (Components): Für fortgeschrittene Benutzer oder für bestimmte Szenarien können benutzerdefinierte Validierungsregeln erforderlich sein. Diese können durch ein erweiterbares Framework unterstützt werden, das die Hinzufügung neuer Komponenten zur bestehenden Bibliothek unterstützt.
- Auftragskonfiguration (Job Configuration): Ein typischer QA-Tester bevorzugt eine Low-Code-Methode zur Konfiguration der Validierungsaufträge, ohne selbst Code schreiben zu müssen. Eine JSON- oder YAML-basierte Konfiguration kann verwendet werden, um die Datenquellen zu definieren und die verschiedenen Validierungsregeln zu konfigurieren.
- Datenverarbeitungs-Engine (Data Processing Engine): Die Lösung muss in der Lage sein, große Datenmengen zu verarbeiten. Ein Big-Data-Verarbeitungsframework wie Apache Spark kann zum Aufbau des Grundgerüsts verwendet werden. Dadurch kann der Auftrag in jeder Datenverarbeitungsumgebung, die Spark unterstützt, bereitgestellt und ausgeführt werden.
- Auftragsvorlagen (Job Templates): Vordefinierte Auftragsvorlagen und anpassbare Auftragsvorlagen bieten eine standardisierte Möglichkeit zur Definition von Validierungsaufträgen.
- Validierungsausgabe (Validation Output): Die Ausgabe des Auftrags sollte ein konsistenter Validierungsbericht sein, der eine Zusammenfassung der ausgegebenen Validierungsregeln über die konfigurierten Datenquellen hinweg liefert.
Beschleunigen Sie Ihre eigene Reise in Sachen Datenqualität
Bei GlobalLogic arbeiten wir an einem ähnlichen Ansatz als Teil unserer GlobalLogic Data Platform. Die Plattform umfasst einen Data Quality and Validation Accelerator, der ein modulares und skalierbares Framework bietet, das in serverlosen Spark-Umgebungen in der Cloud eingesetzt werden kann, um eine Vielzahl von Quellen zu validieren.
Wir arbeiten regelmäßig mit unseren Kunden zusammen, um sie bei ihrer Data Journey zu unterstützen. Teilen Sie uns Ihre Anforderungen mit, und wir würden uns freuen, mit Ihnen über die nächsten Schritte zu sprechen.
Top Insights
Top Authors
Blog Categories
Auf gute Zusammenarbeit!
Ähnliche Themen
Welche Auswirkungen haben ChatGPT und andere kreative KI-Systeme auf unser Leben?
Früher oder später werden wir sicher alle erfahren, wie es ist, wenn eine kreative künstliche Intelligenz wie ChatGPT zu unserem Alltag gehört. Ich frage mich immer wieder, wie es sein wird. Wenn ich über die Zukunft spekuliere, neige ich dazu, in die Vergangenheit zu blicken, um dort Anhaltspunkte für das zu finden, was kommen wird. … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Smartphone auf Rädern
In den letzten zehn Jahren haben sich die Autos stark verändert, um den Fahrern eine bessere Vernetzung zu ermöglichen. Autos sind mehr denn je mit ihrer Umgebung vernetzt. Es gibt Möglichkeiten, direkt über das Infotainment-System zu tanken. Viele Sensoren im Auto können den Zustand des Fahrzeugs erkennen und Informationen mit vorausschauender Fehleranalyse liefern. Eine der … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Moderne Diagnostik – was ist Integriertes Fahrzeuggesundheitsmanagement
Integrated Vehicle Health Management (IVHM) bietet einen umfassenden Ansatz zur Echtzeit-Fahrzeugüberwachung, -bewertung und -verwaltung. Es ist eine natürliche Entwicklung der Diagnostik, die zu mehr Sicherheit, Zuverlässigkeit und Effizienz verschiedener Verkehrsträger führt und gleichzeitig die Kosten für deren Wartung senkt. Wie integriertes Fahrzeuggesundheitsmanagement funktioniert Die Komplikation der Fahrzeuge wächst ständig, was zu einer Reihe neuer Herausforderungen … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Interdisziplinarität – der Kompetenz-Bulldozer für den Aufbau von Innovation in der IT
Haben Sie sich jemals gefragt, wie es ist, das Gehirn hinter fortschrittlichen Ökosystemen zu sein, die den Alltag von Millionen von Menschen prägen? Dies ist nicht nur eine große Chance für Software-Ingenieure, sondern auch eine Reise voller Emotionen. Angesichts des ständigen technologischen Wandels und des schnellen Fortschritts, den wir in verschiedenen Bereichen beobachten, müssen erfahrene … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Was, Wie und Wann in der Softwareentwicklung
Zwar hat jede Softwareentwicklungsinitiative ihre eigenen Merkmale, aber einige Situationen kommen so häufig vor, dass ich das Gefühl habe, ich sollte eine Aufzeichnung haben, die ich beim nächsten Mal abspielen kann, wenn dieselbe Situation auftritt. Eine dieser Situationen ist das „Was“, „Wie“ und „Wann“ der Softwareentwicklung. Projekte geraten in Schwierigkeiten, wenn nicht klar ist, wer … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Zwölf wichtige NFR-Überlegungen für die Entwicklung mobiler Anwendungen
Bei der Entwicklung einer Software stehen in der Regel die Funktionalität und ihre Auswirkungen auf das Geschäft und den Umsatz im Vordergrund. Die Funktionalitäten werden weiter in Anforderungen, dann in Features, User Stories und Integrationen unterteilt. Wenn es jedoch um die tatsächliche Entwicklung der Software geht, tritt eine andere Denkweise in den Vordergrund. Das Hauptaugenmerk … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Arten der Migration und Tipps für eine erfolgreiche digitale Transformation
Unternehmen stellen sich ein hochmodernes neues System als ihren zukünftigen Zustand vor; wenn das veraltete System ausläuft, übernimmt das neue System, und die alten Daten werden verwaltet, während die neuen Daten nahtlos integriert werden. Bei einer erfolgreichen digitalen Transformation findet dieses neue System auch bei der umfangreichen Zielgruppe breite Zustimmung. Klingt toll, oder? Leider verläuft … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Ein Paradigmenwechsel: Der Aufstieg der unsichtbaren Bank
Die Banken werden Erfahrungen anbieten, aber jeder wird sie ignorieren. Die Inspiration für diesen Blogtitel stammt von Jerry Neumann, dem Autor des Blogs Reaction Wheel, der 2015 schrieb, dass „Software die Welt frisst und jeder sie ignoriert“. Neumann beobachtete auch, dass „Informations- und Kommunikationstechnologie allgegenwärtig, aber unsichtbar“ wird – mit anderen Worten, in jedes Produkt … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Share this page:
-
-
-
-
URL copied!