
-
-
-
-
URL copied!
In den letzten Jahrzehnten wurden riesige Datenmengen aus verschiedenen Quellen generiert. Unternehmen wollen zunehmend neue Datenparadigmen nutzen, um bessere Entscheidungen zu treffen und Maßnahmen zu ergreifen. So können sie ihre Effizienz steigern, neue Wege der Geschäftsabwicklung beschreiten und Ausgaben optimieren.
Viele Unternehmen haben jedoch mit Datenproblemen zu kämpfen, die auf die komplexen Technologiepakete und Datenpipelines zurückzuführen sind, die sich aufgrund neuer Geschäftsziele ständig ändern. Es ist unerlässlich geworden, Best Practices für die Implementierung von Datenqualitäts- und Validierungstechniken zu nutzen, um sicherzustellen, dass die Daten für weitere Analysen zur Gewinnung von Erkenntnissen nutzbar bleiben.
In diesem Blog befassen wir uns mit den Anforderungen an die Datenqualität und dem Kerndesign einer Lösung, mit der Unternehmen Datenqualität und -validierung auf flexible, modulare und skalierbare Weise durchführen können.
Anforderungen an die Datenqualität
Eine Datenplattform integriert Daten aus einer Vielzahl von Quellen, um verarbeitete und bereinigte Datensätze, die den Qualitäts- und Regulierungsanforderungen entsprechen, für Analysesysteme bereitzustellen, damit daraus Erkenntnisse gewonnen werden können. Die Daten, die von den Datenquellen in die Speicherebenen übertragen werden, müssen validiert werden, entweder als Teil der Datenintegrationspipeline selbst oder durch einen unabhängigen Vergleich zwischen der Quelle und der Senke.
Im Folgenden sind einige der Anforderungen aufgeführt, die eine Datenqualitäts- und Validierungslösung erfüllen muss:
- Datenvollständigkeit prüfen: Validierung der Ergebnisse zwischen den Quell- und Zieldatenquellen, z. B.:
- Vergleich der Zeilenzahl über Spalten hinweg
- Vergleich der Ausgabe von Spaltenwertaggregationen
- Vergleich einer Teilmenge von Daten ohne Hashing oder eines vollständigen Datensatzes mit SHA256-Hashing aller Spalten
- Vergleich von Profiling-Statistiken wie Minimum, Maximum, Mittelwert, Quantile
- Schema/Metadaten prüfen: Validierung der Ergebnisse zwischen Quelle und Ziel oder zwischen der Quelle und einem erwarteten Wert.
- Überprüfung von Spaltennamen, Datentyp, Reihenfolge oder Position der Spalten, Datenlänge
- Datenumwandlungen prüfen: Validieren Sie den Zwischenschritt der tatsächlichen Werte mit den erwarteten Werten.
- Benutzerdefinierte Datentransformationsregeln prüfen
- Überprüfung der Datenqualität, z. B. ob die Daten im Bereich liegen, in einer Referenzsuche, einem Domänenwertvergleich oder ob die Zeilenzahl mit einem bestimmten Wert übereinstimmt
- Prüfung von Datenintegritätsbeschränkungen wie nicht null, Eindeutigkeit, kein negativer Wert
- Validierung der Datensicherheit: Überprüfen Sie verschiedene Sicherheitsaspekte, wie z. B.:
- Überprüfen, ob die Daten mit den geltenden Vorschriften und Richtlinien konform sind
- Identifizierung von Sicherheitsschwachstellen in der zugrunde liegenden Infrastruktur, den verwendeten Tools oder dem Code, die sich auf die Daten auswirken können
- Identifizierung von Problemen auf der Ebene des Zugriffs, der Autorisierung und der Authentifizierung
Durchführen von Bedrohungsmodellen und Testen von Daten im Ruhezustand und bei der Übertragung
- Validierung der Datenpipeline: Überprüfen von Pipeline-bezogenen Aspekten, wie z. B. ob:
- die erwarteten Quelldaten ausgewählt werden
- die erforderlichen Operationen in der Pipeline den Anforderungen entsprechen (z. B. Aggregation, Transformationen, Bereinigung)
- Die Daten werden an das Ziel geliefert.
- Validierung der Code- und Pipeline-Bereitstellung: Validierung, ob die Pipelines mit dem Code korrekt in der erforderlichen Umgebung bereitgestellt wurden
- Nahtlose Skalierung für große Datenmengen
- Unterstützung der Orchestrierung und Planung von Validierungsaufträgen
- Bereitstellung eines Low-Code-Ansatzes zur Definition von Datenquellen und Konfiguration von Validierungsregeln
- Generierung eines Berichts, der Details zu den Validierungsergebnissen der konfigurierten Regeln für alle Datensätze enthält
Überblick über die Lösung
Nachfolgend finden Sie einen allgemeinen Entwurf für eine Datenqualitäts- und -validierungslösung, die die oben genannten Anforderungen erfüllt.
- Komponenten-Bibliothek (Component Library): Verallgemeinern Sie die üblicherweise verwendeten Validierungsregeln als eigenständige Komponente, die über eine vordefinierte Komponentenbibliothek out-of-box bereitgestellt werden kann.
- Komponenten (Components): Für fortgeschrittene Benutzer oder für bestimmte Szenarien können benutzerdefinierte Validierungsregeln erforderlich sein. Diese können durch ein erweiterbares Framework unterstützt werden, das die Hinzufügung neuer Komponenten zur bestehenden Bibliothek unterstützt.
- Auftragskonfiguration (Job Configuration): Ein typischer QA-Tester bevorzugt eine Low-Code-Methode zur Konfiguration der Validierungsaufträge, ohne selbst Code schreiben zu müssen. Eine JSON- oder YAML-basierte Konfiguration kann verwendet werden, um die Datenquellen zu definieren und die verschiedenen Validierungsregeln zu konfigurieren.
- Datenverarbeitungs-Engine (Data Processing Engine): Die Lösung muss in der Lage sein, große Datenmengen zu verarbeiten. Ein Big-Data-Verarbeitungsframework wie Apache Spark kann zum Aufbau des Grundgerüsts verwendet werden. Dadurch kann der Auftrag in jeder Datenverarbeitungsumgebung, die Spark unterstützt, bereitgestellt und ausgeführt werden.
- Auftragsvorlagen (Job Templates): Vordefinierte Auftragsvorlagen und anpassbare Auftragsvorlagen bieten eine standardisierte Möglichkeit zur Definition von Validierungsaufträgen.
- Validierungsausgabe (Validation Output): Die Ausgabe des Auftrags sollte ein konsistenter Validierungsbericht sein, der eine Zusammenfassung der ausgegebenen Validierungsregeln über die konfigurierten Datenquellen hinweg liefert.
Beschleunigen Sie Ihre eigene Reise in Sachen Datenqualität
Bei GlobalLogic arbeiten wir an einem ähnlichen Ansatz als Teil unserer GlobalLogic Data Platform. Die Plattform umfasst einen Data Quality and Validation Accelerator, der ein modulares und skalierbares Framework bietet, das in serverlosen Spark-Umgebungen in der Cloud eingesetzt werden kann, um eine Vielzahl von Quellen zu validieren.
Wir arbeiten regelmäßig mit unseren Kunden zusammen, um sie bei ihrer Data Journey zu unterstützen. Teilen Sie uns Ihre Anforderungen mit, und wir würden uns freuen, mit Ihnen über die nächsten Schritte zu sprechen.
Top Insights

Top Authors
Blog Categories

Auf gute Zusammenarbeit!
Ähnliche Themen
Kontinuierliches Testen: Wie man die Codequalität misst und verbessert
Software-Ingenieure sind natürlich bestrebt, Code zu schreiben, der nicht nur funktional, sondern auch qualitativ hochwertig ist. Die Sicherstellung der Codequalität kann jedoch eine Herausforderung sein, vor allem wenn sie an komplexen Projekten mit mehreren Entwicklern arbeiten. Hier kommt das kontinuierliche Testen ins Spiel, ein wichtiger Prozess zur Messung und Verbesserung der Codequalität. Kontinuierliches Testen ist … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Whitepaper Sneak-Peek: Cloud-gestützte SDV-Infrastruktur für OEMs und Tier 1s
Inmitten einer Ära der Innovation, Nachhaltigkeit und des gesellschaftlichen Fortschritts befindet sich die Mobilitätsbranche in einem tiefgreifenden Wandel. Über den konventionellen Transport hinaus entwickelt sie sich zu einem komplexen Ökosystem, das eng mit dem täglichen Leben, der Wirtschaft und der Gesundheit unseres Planeten verflochten ist. Das von GlobalLogic entwickelte Software Defined Vehicle (SDV)-Cloud-Framework ist eine … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Vorteile der Total Experience (TX) Strategie bei der Modernisierung von Anwendungen
Die Welt befindet sich in einem raschen und dynamischen Wandel, bei dem der technologische Fortschritt im Mittelpunkt steht. Die Modernisierung und Implementierung einer Total Experience (TX)-Strategie kann Unternehmen dabei helfen, der Zeit voraus zu sein und einen Wettbewerbsvorteil zu erlangen, während sie gleichzeitig flexibel bleiben und auf neue Möglichkeiten reagieren. Gartner prognostiziert, dass bis 2024 … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Der Mensch: Nur ein Evolutionsschritt der planetarischen Intelligenz
Geoffrey Hinton, einer der sogenannten “ Godfathers of AI „, machte Anfang Mai Schlagzeilen, nachdem er von seiner Position als KI-Forscher bei Google zurückgetreten war. Einige Tage später hielt er einen Vortrag auf der Veranstaltung „EmTech Digital“ der MIT Technology Review. Auf die Frage nach seiner Entscheidung zu kündigen, erwähnte Hinton, dass das Alter (er ist jetzt … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Die neusten Automobiltechnologien und Innovationen
Wie wichtig es ist, ein zuverlässiges Auto zu haben, weiß jeder. Aber was ist mit den neuesten Technologien und Innovationen in Autos? Welche sind die Technologien, die unser Fahrerlebnis noch besser machen können? Werfen wir einen Blick auf einige der besten Optionen, die heute auf dem Markt sind. Neue intelligente Technologien wie Spurhalteassistent, adaptiver Tempomat … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Das Jahr 2023 wird das Jahr des Elektro-SUV
Der SUV ist seit fast zwei Jahrzehnten eines der beliebtesten Fahrzeuge. Doch mit dem wachsenden Umweltbewusstsein und den Fortschritten in der Elektrofahrzeugtechnologie steht dem SUV ein großes Upgrade bevor. Wir sagen voraus, dass der Elektro-SUV im Jahr 2023 endlich eine echte Alternative zu benzinschluckenden Modellen sein wird. Hier ist der Grund dafür. 2023 wird das … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Best Practices für die QA-Automatisierung von Microservices
Microservices sind eine Entwicklungsmethodik, bei der Dienste unabhängig voneinander entwickelt und bereitgestellt werden. Diese Art von Architektur ist in den letzten Jahren aufgrund ihrer Fähigkeit, Systeme zu entkoppeln und die Geschwindigkeit der Bereitstellung zu verbessern, populär geworden. Um diese Anwendungen effektiv zu testen, sind spezielle Tools und Prozesse erforderlich. Angesichts der Vielzahl unabhängiger Dienste, die … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Wie Smart Cars das Stadtbild verändern werden
Wie tragen intelligente Autos dazu bei, die Lebensqualität der Menschen in der Stadt zu verbessern, und was müssen wir über ihr Design wissen? Intelligente Autos werden immer häufiger eingesetzt. Heute gibt es weltweit mehr als 31 Millionen Autos, die zumindest einen gewissen Grad an Automatisierung aufweisen und den Fahrern ein sichereres Fahrgefühl, eine höhere Kraftstoffeffizienz … Continue reading Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung →
Mehr erfahren
Share this page:
-
-
-
-
URL copied!