postheadericon Version DE

Die erste Version erfasst ausschließlich deutsche Webserver der Toplevel-Domain “.de”. Es sind derzeit über 14 Mio. DE-Domains registriert und wenn man davon ausgeht, das sich nicht hinter jeder Domain eine eigene Website verbirgt, kann mal wohl mit ca. 4-5 Mio. Websites in Summe rechnen.
Von jeder Website werden wir zunächst die ersten 20 Seiten und alle Links auf diesen Seiten erfassen. D.h. im ersten Wurf max. 100 Mio. Webseiten.

 

Warum nur DE-Domains?
Mit irgendetwas muss man ja anfangen und der Umfang, der bisher beim Denic registrierten Domains schien da eine praktikable Größe, zumal die Projektheimat Deutschland ist.

 

Warum nur 20 Seiten pro Website?
Diese 20 Seiten stellen nur den ersten Schritt dar. Ausgehend von der Homepage denken wir, dass die wichtigsten Seiten die sind, die sich weit “oben” in der Baumstruktur einer Website befinden, d.h. hier finden sich evtl. auch die häufigsten Ansammlungen von Links auf andere Server. Ziel ist es ja eine Webmap zu erstellen und nicht alle Inhalte zu erfassen. Ob die Linkqualität besser oder schlechter wird, je tiefer man in eine Website eintaucht werden wir in einer der nächsten Projektversionen überprüfen, wenn wir die Crawltiefe deutlich erweitern.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>