Data Sources & Acquisition
Qualität beginnt an der Quelle. Wir aggregieren Daten aus über 2.500 verifizierten Streams, um ein vollständiges Bild des digitalen Raums zu zeichnen.
Der Multi-Source Ansatz
Keine einzelne Datenquelle ist vollständig. Zone Files enthalten keine Subdomains. Passive DNS sieht nur Traffic, keine inaktiven Domains. Web Crawls sind langsam. Die Stärke von EDI Data liegt in der Fusion dieser disparaten Quellen.
1. Zone Files (Root Zone Database)
Wir unterhalten vertragliche Beziehungen zu allen großen gTLD- (Verisign, Registry Services) und ccTLD-Betreibern (DENIC, Nominet).
- Abdeckung: 1.500+ TLDs (.com, .net, .org, .de, .io, etc.)
- Frequenz: Tägliche Updates (Delta-Files)
- Inhalt: Eine Liste aller existierenden Domains und ihrer Nameserver.
2. Passive DNS (pDNS) Sensoren
Durch Partnerschaften mit ISPs und Sicherheitsunternehmen erhalten wir anonymisierte DNS-Lookup-Logs.
- Vorteil: Entdeckt Subdomains (`dev.example.com`), die in Zone Files nicht existieren.
- Real-Time: Wir sehen neue Domains oft Millisekunden nach der ersten Abfrage.
- Hostnames: Erfasst auch Hostnames, die gar keine registrierten Domains sind (z.B. Cloud-Endpunkte).
3. Certificate Transparency (CT) Logs
Jedes öffentlich vertrauenswürdige SSL-Zertifikat muss in CT-Logs veröffentlicht werden. Wir monitoren diese Logs in Echtzeit.
- Use Case: Phishing-Prävention. Betrüger erstellen oft SSL-Zertifikate für `paypal-secure-login.com`, bevor die Seite live geht. Wir sehen das Zertifikat sofort.
4. Active Web Crawling
Unser proprietärer Crawler "EDI-Bot" besucht täglich Millionen von IPs und Domains.
- Extraction: HTTP Status Codes, HTML Title/Meta Tags, JavaScript Libraries.
- Screenshotting: Visuelle Erfassung für Brand-Protection-Analyse.
Ethische Datenerhebung
Wir sind uns unserer Verantwortung als Daten-Aggregator bewusst.
1. Respect for Robots.txt: Unser Crawler respektiert strikt Disallow-Regeln.
2. Anonymisierung: Wir speichern keine Quell-IPs aus pDNS-Daten, um User-Tracking unmöglich zu machen.
3. Whitelisting: Sicherheitsforscher können ihre Infrastruktur von unseren Scans ausnehmen lassen.