Archive for the ‘Vision / Idea’ Category

postheadericon Version D-A-CH-FR-UK

Mit sofortiger Wirkung sind nun auch die Websites aus England (.uk) und Frankreich (.fr) bei NerdByNature.Net erfasst und in die Webmap integriert. Durch diese beiden Länder kommen ca. 1.7 Mio. Websites in den Webmap-Datenbestand hinzu.

postheadericon Version D-A-CH

Die Datenbasis wurde gegenüber der ersten Version DE jetzt um die Webserver aus Österreich und der Schweiz erweitert. Somit steht ab sofort die Version D-A-CH zur Verfügung die bereits jetzt über 95% aller aktiven DE/AT/CH Domains enthält.

postheadericon Version DE

Die erste Version erfasst ausschließlich deutsche Webserver der Toplevel-Domain “.de”. Es sind derzeit über 14 Mio. DE-Domains registriert und wenn man davon ausgeht, das sich nicht hinter jeder Domain eine eigene Website verbirgt, kann mal wohl mit ca. 4-5 Mio. Websites in Summe rechnen.
Von jeder Website werden wir zunächst die ersten 20 Seiten und alle Links auf diesen Seiten erfassen. D.h. im ersten Wurf max. 100 Mio. Webseiten.

 

Warum nur DE-Domains?
Mit irgendetwas muss man ja anfangen und der Umfang, der bisher beim Denic registrierten Domains schien da eine praktikable Größe, zumal die Projektheimat Deutschland ist.

 

Warum nur 20 Seiten pro Website?
Diese 20 Seiten stellen nur den ersten Schritt dar. Ausgehend von der Homepage denken wir, dass die wichtigsten Seiten die sind, die sich weit “oben” in der Baumstruktur einer Website befinden, d.h. hier finden sich evtl. auch die häufigsten Ansammlungen von Links auf andere Server. Ziel ist es ja eine Webmap zu erstellen und nicht alle Inhalte zu erfassen. Ob die Linkqualität besser oder schlechter wird, je tiefer man in eine Website eintaucht werden wir in einer der nächsten Projektversionen überprüfen, wenn wir die Crawltiefe deutlich erweitern.

postheadericon Ziele

Das erste Etappenziel dieses Projektes ist es, ein Karte (Map bzw. Graph) des Webs zu erstellen. Die Ausgabe der Map erfolgt in Form eines Graphen, bei dem die einzelnen Websites im Internet die Graphenknoten (Nodes) darstellen und Links von einer Website zu einer anderen die Verbindungen zwischen den Nodes repräsentieren.
Sowohl Nodes als auch Links sind gewichtet, d.h. je mehr eine Website verlinkt ist, desto “gewichtiger” ist sie und je mehr Links zwischen zwei Websites hin- und herzeigen, desto enger ist die Bindung zwischen diesen.

Ausgehend von einem funktionierenden Graphen sind die weiteren Ziele und Ideen:

  • Kategorisierung von Websites
  • Erkennung von Dummy-Sites (Stichwort Suchmaschinen-Spam)
  • SEO-Unterstützung in Bezug auf Backlinks, Site- und Pageranking
  • Aufbau eines Services zur Unterstützung von Affiliate-Netzen für kategoriegesteuerte Werbeeinblendungen
  • Einsatz der Graph-Engine zur Visualisierung sozialer Netzwerke

Weitere Ideen gibt es viele, wir werden sehen, welche Fragen und Anforderungen die Nutzer an NerdByNature.Net stellen und wohin die Reise dann gehen wird.

Da so ein Projekt nicht gleich am ersten Tag ausufern und die Ziele immer noch errichbar sein sollen, werden wir ersteinmal mit einer “kleinen” Karte (Version DE) beginnen.