Data Sources & Acquisition

Qualität beginnt an der Quelle. Wir aggregieren Daten aus über 2.500 verifizierten Streams, um ein vollständiges Bild des digitalen Raums zu zeichnen.

Overview Data Types Sources Quality Coverage

Der Multi-Source Ansatz

Keine einzelne Datenquelle ist vollständig. Zone Files enthalten keine Subdomains. Passive DNS sieht nur Traffic, keine inaktiven Domains. Web Crawls sind langsam. Die Stärke von EDI Data liegt in der Fusion dieser disparaten Quellen.

1. Zone Files (Root Zone Database)

Wir unterhalten vertragliche Beziehungen zu allen großen gTLD- (Verisign, Registry Services) und ccTLD-Betreibern (DENIC, Nominet).

  • Abdeckung: 1.500+ TLDs (.com, .net, .org, .de, .io, etc.)
  • Frequenz: Tägliche Updates (Delta-Files)
  • Inhalt: Eine Liste aller existierenden Domains und ihrer Nameserver.

2. Passive DNS (pDNS) Sensoren

Durch Partnerschaften mit ISPs und Sicherheitsunternehmen erhalten wir anonymisierte DNS-Lookup-Logs.

  • Vorteil: Entdeckt Subdomains (`dev.example.com`), die in Zone Files nicht existieren.
  • Real-Time: Wir sehen neue Domains oft Millisekunden nach der ersten Abfrage.
  • Hostnames: Erfasst auch Hostnames, die gar keine registrierten Domains sind (z.B. Cloud-Endpunkte).

3. Certificate Transparency (CT) Logs

Jedes öffentlich vertrauenswürdige SSL-Zertifikat muss in CT-Logs veröffentlicht werden. Wir monitoren diese Logs in Echtzeit.

  • Use Case: Phishing-Prävention. Betrüger erstellen oft SSL-Zertifikate für `paypal-secure-login.com`, bevor die Seite live geht. Wir sehen das Zertifikat sofort.

4. Active Web Crawling

Unser proprietärer Crawler "EDI-Bot" besucht täglich Millionen von IPs und Domains.

  • Extraction: HTTP Status Codes, HTML Title/Meta Tags, JavaScript Libraries.
  • Screenshotting: Visuelle Erfassung für Brand-Protection-Analyse.

Ethische Datenerhebung

Wir sind uns unserer Verantwortung als Daten-Aggregator bewusst.

1. Respect for Robots.txt: Unser Crawler respektiert strikt Disallow-Regeln.

2. Anonymisierung: Wir speichern keine Quell-IPs aus pDNS-Daten, um User-Tracking unmöglich zu machen.

3. Whitelisting: Sicherheitsforscher können ihre Infrastruktur von unseren Scans ausnehmen lassen.