Plattform-Architektur &
Data Pipeline Overview
Ein tiefer Einblick in die Technologie, die täglich Milliarden von Internet-Signalen verarbeitet, normalisiert und an Enterprise-Systeme ausliefert.
Das EDI Data Ökosystem
In der modernen digitalen Ökonomie sind Daten das neue Öl. Doch wie Rohöl sind auch Internet-Daten in ihrer ursprünglichen Form – roh, unstrukturiert und "schmutzig" – kaum nutzbar. Die EDI Data Plattform fungiert als Raffinerie. Wir nehmen den chaotischen Strom des Internets auf und verwandeln ihn in sauberen, hochoktanigen Treibstoff für Ihre Business-Prozesse.
Unsere Architektur wurde nach einem Prinzip gebaut: "Integration First". Wir wissen, dass unsere Daten nur dann wertvoll sind, wenn sie nahtlos in Ihre bestehenden Systeme (SIEM, CRM, ERP, TIP) fließen. Deshalb haben wir keine monolithische Applikation gebaut, sondern eine modulare API-Plattform, die Skalierbarkeit, Geschwindigkeit und Compliance vereint.
Die 4-Stufen Data Pipeline
Der Weg vom rohen Signal zum veredelten Datenpunkt durchläuft bei EDI Data vier kritische Phasen.
1. Ingestion (Aufnahme)
Unsere Crawler und Sensoren scannen das Internet rund um die Uhr. Wir verarbeiten täglich:
- Zone Files: Tägliche Updates von über 1.500 TLD-Registries (.com, .de, .xyz, etc.).
- Passive DNS: Analyse von Milliarden DNS-Abfragen weltweit durch unser Partner-Netzwerk.
- Certificate Transparency Logs: Echtzeit-Monitoring aller neu ausgestellten SSL-Zertifikate.
- Web Crawls: Aktives Scannen von IP-Adressen und Port-Erreichbarkeiten.
2. Normalization (Bereinigung)
Hier geschieht die Magie. Rohe Daten sind inkonsistent. Wir wenden Machine Learning und regelbasierte Engines an, um:
- Entity Resolution: "Google LLC", "Google Inc." und "Google" werden als eine Entität erkannt.
- Geocoding: Zuweisung von IPs zu physischen Standorten und ASNs.
- Parsing: Umwandlung von hunderten verschiedenen WHOIS-Formaten in ein standardisiertes JSON-Schema (RDAP-konform).
- Deduplication: Entfernung redundanter Einträge zur Reduzierung von Storage-Kosten.
3. Enrichment (Anreicherung)
Ein Datenpunkt allein erzählt keine Geschichte. Wir verknüpfen isolierte Fakten zu einem Kontext:
- Reputation Scoring: Zuweisung von Risiko-Scores basierend auf historischen Mustern.
- Technology Fingerprinting: Erkennung des Tech-Stacks (CMS, Server, Frameworks).
- Cross-Mapping: Verbindung von Domains, IPs, E-Mails und SSL-Fingerprints zu Identitäts-Clustern.
4. Delivery (Bereitstellung)
Daten müssen dort sein, wo Sie sie brauchen. Unsere Delivery-Layer bietet:
- REST API: Millisekunden-schnelle Antworten für Live-Abfragen.
- Bulk Feed: Tägliche Dumps via S3/FTP für Data Warehousing.
- Webhooks: Push-Notifikationen bei Änderungen (z.B. "Domain Transfer erkannt").
Technische Architektur & Skalierbarkeit
Um das Volumen des gesamten Internets abzubilden, setzen wir auf eine Cloud-native Microservices-Architektur. Unser Tech-Stack ist auf maximale Parallelisierung ausgelegt.
Database Layer
Wir nutzen einen polyglotten Ansatz. Cassandra und ScyllaDB dienen als Wide-Column Stores für die massive Speicherung historischer DNS- und Whois-Daten (Petabyte-Scale). Für Suchoperationen und komplexe Aggregationen setzen wir auf hochverfügbare Elasticsearch Cluster, die es ermöglichen, in Millisekunden nach Mustern wie "Alle Domains, die 'bank' enthalten und in Russland gehostet werden" zu suchen. Metadaten und Kundenkonfigurationen liegen in relationalen PostgreSQL Datenbanken für strikte Konsistenz.
Processing Layer
Unsere Ingestion-Pipeline basiert auf Apache Kafka für das High-Throughput Message Queuing. Stream-Processing-Frameworks wie Apache Flink erlauben uns die Echtzeit-Analyse von Datenströmen (z.B. für die Erkennung von Domain-Generation-Algorithmen in Botnetzen). Alles läuft containerisiert auf Kubernetes, was uns erlaubt, Rechenkapazitäten elastisch an Traffic-Spitzen anzupassen – etwa während globaler Cyber-Events.
Caching & Edge
Um Latenzen < 50ms weltweit zu garantieren, nutzen wir ein intelligentes Redis-basiertes Caching-Layer, verteilt über mehrere Geozonen. API-Endpunkte werden über ein globales CDN (Content Delivery Network) ausgeliefert, das auch DDoS-Schutz und SSL-Termination übernimmt.
API-First Integration
EDI Data ist "Developer-Centric". Wir glauben, dass die beste UI eine gut dokumentierte API ist. Unsere Schnittstellen folgen dem OpenAPI (Swagger) Standard 3.0.
REST API Endpunkte
GET /v1/domains/{domain}/whois- Liefert parsed Whois/RDAP Daten.GET /v1/domains/{domain}/dns- Liefert aktuelle und historische DNS Records.GET /v1/intelligence/enrich- Aggregierter Report (Risk Score, Tech Stack, Geo).POST /v1/search/advanced- Komplexe Suchen mit Boolean Logic (z.B. "Registrant: Müller AND City: Berlin").
Integration Patterns
On-Demand (Synchron): Ideal für User-Interaktionen, z.B. wenn ein Kunde in Ihrem Webshop seine URL eingibt und Sie diese validieren wollen.
Batch (Asynchron): Für die Bereinigung alter CRM-Bestände. Laden Sie eine CSV mit 1 Mio. Domains hoch, wir benachrichtigen Sie per Webhook, wenn der Job fertig ist.
Streaming (Firehose): Für Security-Anbieter. Erhalten Sie einen konstanten Stream aller neu registrierten Domains (NRD) in Echtzeit via WebSocket oder Kafka-Connector.
Sicherheit und Compliance
Als Infrastruktur-Provider ist Sicherheit Teil unserer DNA. Wir verarbeiten Daten sensibel und sicher.
Datenschutz (GDPR/DSGVO)
Personenbezogene Daten (PII) aus Whois-Einträgen werden automatisch erkannt. Handelt es sich um eine Privatperson, werden die Daten maskiert oder entfernt (Redaction). Nur bei juristischen Personen (B2B) werden Kontaktdaten im Klartext geliefert, sofern rechtlich zulässig.
Infrastruktur-Sicherheit
Datenübertragung erfolgt ausschließlich via TLS 1.3. API-Keys können auf IP-Bereiche eingeschränkt werden (IP Whitelisting). Wir führen regelmäßige Penetrationstests durch und sind ISO 27001 zertifiziert.
Wie Branchen unsere Plattform nutzen
Fintech & Banking
Compliance-Teams nutzen unsere Normalisierungs-Layer für automatisiertes Merchant Onboarding (KYC).
Cybersecurity
SOC-Analysten integrieren unsere Enrichment-Daten zur Erkennung von High-Risk Domains in Echtzeit.
E-Commerce
Marktplätze nutzen unsere Ingestion-Pipeline, um Fake Shops auf ihrer Plattform zu identifizieren.
Entdecken Sie die Plattform-Module
Tauchen Sie tiefer in die spezifischen Datenkategorien ein.