EDI Data Platform Architecture Overview

Das EDI Data Ökosystem

In der modernen digitalen Ökonomie sind Daten das neue Öl. Doch wie Rohöl sind auch Internet-Daten in ihrer ursprünglichen Form – roh, unstrukturiert und "schmutzig" – kaum nutzbar. Die EDI Data Plattform fungiert als Raffinerie. Wir nehmen den chaotischen Strom des Internets auf und verwandeln ihn in sauberen, hochoktanigen Treibstoff für Ihre Business-Prozesse.

Unsere Architektur wurde nach einem Prinzip gebaut: "Integration First". Wir wissen, dass unsere Daten nur dann wertvoll sind, wenn sie nahtlos in Ihre bestehenden Systeme (SIEM, CRM, ERP, TIP) fließen. Deshalb haben wir keine monolithische Applikation gebaut, sondern eine modulare API-Plattform, die Skalierbarkeit, Geschwindigkeit und Compliance vereint.

Die 4-Stufen Data Pipeline

Der Weg vom rohen Signal zum veredelten Datenpunkt durchläuft bei EDI Data vier kritische Phasen.

1. Ingestion (Aufnahme)

Unsere Crawler und Sensoren scannen das Internet rund um die Uhr. Wir verarbeiten täglich:

Zone Files: Tägliche Updates von über 1.500 TLD-Registries (.com, .de, .xyz, etc.).
Passive DNS: Analyse von Milliarden DNS-Abfragen weltweit durch unser Partner-Netzwerk.
Certificate Transparency Logs: Echtzeit-Monitoring aller neu ausgestellten SSL-Zertifikate.
Web Crawls: Aktives Scannen von IP-Adressen und Port-Erreichbarkeiten.

2. Normalization (Bereinigung)

Hier geschieht die Magie. Rohe Daten sind inkonsistent. Wir wenden Machine Learning und regelbasierte Engines an, um:

Entity Resolution: "Google LLC", "Google Inc." und "Google" werden als eine Entität erkannt.
Geocoding: Zuweisung von IPs zu physischen Standorten und ASNs.
Parsing: Umwandlung von hunderten verschiedenen WHOIS-Formaten in ein standardisiertes JSON-Schema (RDAP-konform).
Deduplication: Entfernung redundanter Einträge zur Reduzierung von Storage-Kosten.

3. Enrichment (Anreicherung)

Ein Datenpunkt allein erzählt keine Geschichte. Wir verknüpfen isolierte Fakten zu einem Kontext:

Reputation Scoring: Zuweisung von Risiko-Scores basierend auf historischen Mustern.
Technology Fingerprinting: Erkennung des Tech-Stacks (CMS, Server, Frameworks).
Cross-Mapping: Verbindung von Domains, IPs, E-Mails und SSL-Fingerprints zu Identitäts-Clustern.

4. Delivery (Bereitstellung)

Daten müssen dort sein, wo Sie sie brauchen. Unsere Delivery-Layer bietet:

REST API: Millisekunden-schnelle Antworten für Live-Abfragen.
Bulk Feed: Tägliche Dumps via S3/FTP für Data Warehousing.
Webhooks: Push-Notifikationen bei Änderungen (z.B. "Domain Transfer erkannt").

Technische Architektur & Skalierbarkeit

Um das Volumen des gesamten Internets abzubilden, setzen wir auf eine Cloud-native Microservices-Architektur. Unser Tech-Stack ist auf maximale Parallelisierung ausgelegt.

Database Layer

Wir nutzen einen polyglotten Ansatz. Cassandra und ScyllaDB dienen als Wide-Column Stores für die massive Speicherung historischer DNS- und Whois-Daten (Petabyte-Scale). Für Suchoperationen und komplexe Aggregationen setzen wir auf hochverfügbare Elasticsearch Cluster, die es ermöglichen, in Millisekunden nach Mustern wie "Alle Domains, die 'bank' enthalten und in Russland gehostet werden" zu suchen. Metadaten und Kundenkonfigurationen liegen in relationalen PostgreSQL Datenbanken für strikte Konsistenz.

Processing Layer

Unsere Ingestion-Pipeline basiert auf Apache Kafka für das High-Throughput Message Queuing. Stream-Processing-Frameworks wie Apache Flink erlauben uns die Echtzeit-Analyse von Datenströmen (z.B. für die Erkennung von Domain-Generation-Algorithmen in Botnetzen). Alles läuft containerisiert auf Kubernetes, was uns erlaubt, Rechenkapazitäten elastisch an Traffic-Spitzen anzupassen – etwa während globaler Cyber-Events.

Caching & Edge

Um Latenzen < 50ms weltweit zu garantieren, nutzen wir ein intelligentes Redis-basiertes Caching-Layer, verteilt über mehrere Geozonen. API-Endpunkte werden über ein globales CDN (Content Delivery Network) ausgeliefert, das auch DDoS-Schutz und SSL-Termination übernimmt.

API-First Integration

EDI Data ist "Developer-Centric". Wir glauben, dass die beste UI eine gut dokumentierte API ist. Unsere Schnittstellen folgen dem OpenAPI (Swagger) Standard 3.0.

REST API Endpunkte

GET /v1/domains/{domain}/whois - Liefert parsed Whois/RDAP Daten.
GET /v1/domains/{domain}/dns - Liefert aktuelle und historische DNS Records.
GET /v1/intelligence/enrich - Aggregierter Report (Risk Score, Tech Stack, Geo).
POST /v1/search/advanced - Komplexe Suchen mit Boolean Logic (z.B. "Registrant: Müller AND City: Berlin").

Integration Patterns

On-Demand (Synchron): Ideal für User-Interaktionen, z.B. wenn ein Kunde in Ihrem Webshop seine URL eingibt und Sie diese validieren wollen.

Batch (Asynchron): Für die Bereinigung alter CRM-Bestände. Laden Sie eine CSV mit 1 Mio. Domains hoch, wir benachrichtigen Sie per Webhook, wenn der Job fertig ist.

Streaming (Firehose): Für Security-Anbieter. Erhalten Sie einen konstanten Stream aller neu registrierten Domains (NRD) in Echtzeit via WebSocket oder Kafka-Connector.

Sicherheit und Compliance

Als Infrastruktur-Provider ist Sicherheit Teil unserer DNA. Wir verarbeiten Daten sensibel und sicher.

Datenschutz (GDPR/DSGVO)

Personenbezogene Daten (PII) aus Whois-Einträgen werden automatisch erkannt. Handelt es sich um eine Privatperson, werden die Daten maskiert oder entfernt (Redaction). Nur bei juristischen Personen (B2B) werden Kontaktdaten im Klartext geliefert, sofern rechtlich zulässig.

Infrastruktur-Sicherheit

Datenübertragung erfolgt ausschließlich via TLS 1.3. API-Keys können auf IP-Bereiche eingeschränkt werden (IP Whitelisting). Wir führen regelmäßige Penetrationstests durch und sind ISO 27001 zertifiziert.

Entdecken Sie die Plattform-Module

Tauchen Sie tiefer in die spezifischen Datenkategorien ein.

Plattform-Architektur &
Data Pipeline Overview

Das EDI Data Ökosystem

Die 4-Stufen Data Pipeline

1. Ingestion (Aufnahme)

2. Normalization (Bereinigung)

3. Enrichment (Anreicherung)

4. Delivery (Bereitstellung)

Technische Architektur & Skalierbarkeit

Database Layer

Processing Layer

Caching & Edge

API-First Integration

REST API Endpunkte

Integration Patterns

Sicherheit und Compliance

Datenschutz (GDPR/DSGVO)

Infrastruktur-Sicherheit

Wie Branchen unsere Plattform nutzen

Fintech & Banking

Cybersecurity

E-Commerce

Entdecken Sie die Plattform-Module

Data Types Hub

Data Quality

Global Coverage

Plattform-Architektur & Data Pipeline Overview

Das EDI Data Ökosystem

Die 4-Stufen Data Pipeline

1. Ingestion (Aufnahme)

2. Normalization (Bereinigung)

3. Enrichment (Anreicherung)

4. Delivery (Bereitstellung)

Technische Architektur & Skalierbarkeit

Database Layer

Processing Layer

Caching & Edge

API-First Integration

REST API Endpunkte

Integration Patterns

Sicherheit und Compliance

Datenschutz (GDPR/DSGVO)

Infrastruktur-Sicherheit

Wie Branchen unsere Plattform nutzen

Fintech & Banking

Cybersecurity

E-Commerce

Entdecken Sie die Plattform-Module

Data Types Hub

Data Quality

Global Coverage

Plattform-Architektur &
Data Pipeline Overview