Archive for the ‘Webmap’ Category

postheadericon Webmap Stable

Die Webmap hat das Beta-Stadium verlassen und steht jetzt in der ersten stabilen Version zur Verfügung. Weitere werden sicherlich folgen. Derzeit schweben mir auch andere Graphendarstellungen vor, wie z.B. eine geographische Darstellung oder zwei- und dreidimensionale Projektionen.

postheadericon 50 GByte Linkdaten

Für den Graphen der Webmap haben wir jetzt die Grenze von 50 GByte Linkdaten überschritten, bei ca. 3.3 Mio. erfassten Websites und 45 Mio. Webpages! Darin enthalten sind lediglich die Sites, max. 20 Pagenames pro Site (keine Inhalte), die Links zwischen den Sites und die eigentlichen Links zwischen den Pages.

postheadericon Erste Beta der Webmap ist online!

Die erste (beta) Version der Webmap ist online und kann sofort auf der N³ Homepage genutzt werden. Unterhalb des Webmap-Bereichs finden sich noch ein paar Hinweise zur Benutzung.

postheadericon Server / Datenbank

Server: Quadcore Intel Hardware, 8 GByte RAM, 1.5 TByte HD

Datenbank(en):
Als datenführendes System für die Speicherung der eigentlichen Map-Daten wird MySQL 5.5 eingesetzt, erste Tests mit ca. 3 Mio. Websites und einem Datenbestand von gut 40 GByte haben aber schon gewisse Performanceprobleme offenbart. Wenn auch der jeweilige Content der Websites gespeichert werden soll, wird sicherlich noch ein zusätzliches Datenbanksystem, wie z.B. MongoDB zum Einsatz kommen.

postheadericon Version DE

Die erste Version erfasst ausschließlich deutsche Webserver der Toplevel-Domain “.de”. Es sind derzeit über 14 Mio. DE-Domains registriert und wenn man davon ausgeht, das sich nicht hinter jeder Domain eine eigene Website verbirgt, kann mal wohl mit ca. 4-5 Mio. Websites in Summe rechnen.
Von jeder Website werden wir zunächst die ersten 20 Seiten und alle Links auf diesen Seiten erfassen. D.h. im ersten Wurf max. 100 Mio. Webseiten.

 

Warum nur DE-Domains?
Mit irgendetwas muss man ja anfangen und der Umfang, der bisher beim Denic registrierten Domains schien da eine praktikable Größe, zumal die Projektheimat Deutschland ist.

 

Warum nur 20 Seiten pro Website?
Diese 20 Seiten stellen nur den ersten Schritt dar. Ausgehend von der Homepage denken wir, dass die wichtigsten Seiten die sind, die sich weit “oben” in der Baumstruktur einer Website befinden, d.h. hier finden sich evtl. auch die häufigsten Ansammlungen von Links auf andere Server. Ziel ist es ja eine Webmap zu erstellen und nicht alle Inhalte zu erfassen. Ob die Linkqualität besser oder schlechter wird, je tiefer man in eine Website eintaucht werden wir in einer der nächsten Projektversionen überprüfen, wenn wir die Crawltiefe deutlich erweitern.

postheadericon Ziele

Das erste Etappenziel dieses Projektes ist es, ein Karte (Map bzw. Graph) des Webs zu erstellen. Die Ausgabe der Map erfolgt in Form eines Graphen, bei dem die einzelnen Websites im Internet die Graphenknoten (Nodes) darstellen und Links von einer Website zu einer anderen die Verbindungen zwischen den Nodes repräsentieren.
Sowohl Nodes als auch Links sind gewichtet, d.h. je mehr eine Website verlinkt ist, desto “gewichtiger” ist sie und je mehr Links zwischen zwei Websites hin- und herzeigen, desto enger ist die Bindung zwischen diesen.

Ausgehend von einem funktionierenden Graphen sind die weiteren Ziele und Ideen:

  • Kategorisierung von Websites
  • Erkennung von Dummy-Sites (Stichwort Suchmaschinen-Spam)
  • SEO-Unterstützung in Bezug auf Backlinks, Site- und Pageranking
  • Aufbau eines Services zur Unterstützung von Affiliate-Netzen für kategoriegesteuerte Werbeeinblendungen
  • Einsatz der Graph-Engine zur Visualisierung sozialer Netzwerke

Weitere Ideen gibt es viele, wir werden sehen, welche Fragen und Anforderungen die Nutzer an NerdByNature.Net stellen und wohin die Reise dann gehen wird.

Da so ein Projekt nicht gleich am ersten Tag ausufern und die Ziele immer noch errichbar sein sollen, werden wir ersteinmal mit einer “kleinen” Karte (Version DE) beginnen.