Archive for the ‘All’ Category

postheadericon Version D-A-CH-FR-UK

Mit sofortiger Wirkung sind nun auch die Websites aus England (.uk) und Frankreich (.uk) bei NerdByNature.Net erfasst und in die Webmap integriert. Durch diese beiden Länder kommen ca. 1.7 Mio. Websites in den Webmap-Datenbestand hinzu.

postheadericon Kategorien online!

Für die ersten 300.000 Websites haben wir jetzt die Kategorien ermittelt und überprüft. Aus dem Graphen ergibt sich mit diesem Anfangsbestand bereits die Möglichkeit für gut 2 Mio. Sites gute Voraussagen zu treffen in welchen Kategorien diese einzuordnen sind.
Neben Themenkategorien wie z.B. Politik, Wirtschaft und Kultur gibt es noch Kategorien der Art Spam, Seo-Cluster, … die in der Oberfläche nicht angezeigt werden, die aber für die Gewichtung des Graphen berücksichtigt werden können.
Das Kategoriesystem besteht derzeit aus ca. 25 Hauptkategorien und über 300 Unterkategorien. Um niemanden zu verwirren werden in den Details der Webmap aber nur die Hauptkategorien angezeigt. Unterkategorien und Spam- bzw. Cluster-Informationen lassen sich in Zukunft über die kommende API abfragen.

postheadericon Webmap-API – im April

Die Arbeiten an der neuen Webmap-API (application programming interface) laufen bereits auf Hochtouren und wenn nichts dazwischen kommt, sollte bereits im April 2011 die erste Version online gehen!

Wie wird’s funktionieren?

Anfragen an die API werden per HTTP Get-Request gestellt in der Form:

 

http://www.nerdbynature.net/<service>?id=…&action=…&offset=…&limit=…&ouput=csv

 

Sobald das Interface fertiggestellt ist werden wir alle möglichen API-Requests dokumentieren und veröffentlichen. Der Fokus bei diesem Service liegt auf “keep it stupid simple (kiss)”, daher die einfachen Get-Requests.

Die Ausgabe der Webmap-API kann wahlweise in JSON, XML oder CSV erfolgen. Einer Weiterverarbeitung der Daten in eigenen Systemen (ja, auch in Excel) sollte also nichts im Wege stehen.

Wer auf dem Laufenden bleiben und immer schon vorab informiert werden will sollte sich gleich in unseren Newsletter eintragen (rechte Seite).

 

postheadericon SEO Campixx Interview

Interview mit Stephan Sommer-Schulz

von Julian (http://www.seo.at) am 15. März 2011

In seinem Campixx Vortrag „Better Backlinking – Semantische Kategorisierung von Websites“ hat Stephan Sommer-Schulz das Tool NerdByNature.Net vorgestellt. Ich durfte Stephan zu seinem Tool interviewen:

Wie bist du auf die Idee für NerdByNature.Net gekommen?

Ich verdiene meine Brötchen als geschäftsführender Gesellschafter der W3 Solutions GmbH. Unser Business sind Suchmaschinen und zwar nicht die Optimierung, sondern die eigentliche Technik hinter der Suche. Wir haben z.B. die Online-Suchen des Hamburger Abendblatts, der Berliner Morgenpost, der Computerbild und Autobild mit unserem Produkt “W3 SiteSearch” realisiert.

Daneben führen wir derzeit ein Forschungsprojekt (von EU und Bund finanziert) durch, mit dem Ziel eine Meme-Suche zu erstellen, also eine Suchmaschine, die in der Lage ist den Inhalt von Webseiten zu erkennen und diese Information in die Suche mit einfließen zu lassen.

Mit diesem Background war der Schritt, eine weltweite Kategorisierung von Websites durchzuführen nicht mehr allzu groß.

Welches Ziel verfolgst du mit dem Projekt?

Das Primärziel ist der Aufbau einer neuen Suchmaschine, die nicht nur Suchtreffer in Form von Webseiten zurückliefert, sondern auch Kategorien und Themen, auf die der User seine Suche dann sinnvoll einschränken kann. Damit ein User über eine Suchmaschine relevante Artikel findet, muss er sich mehr und mehr überlegen, welche Begriffe er sucht und wie er irrelevante Treffer ausblenden kann. Diese “Logik” wollen wir weg vom User, hin zum Server verlagern. Die Kategorien und Themen geben den Suchenden die Möglichkeit schon bei der ersten Suchanfrage die Treffermenge auf das gesuchte Thema einzuschränken.

Es gibt aber auch weitere Ziele des Projektes. So denken wir derzeit laut darüber nach die Backlink-Datenbank und die Kategorisierung von Websites als kostenpflichtigen Service zur Verfügung zu stellen. Ob wir diesen Schritt alleine oder mit Partnern gehen ist allerdings noch ungewiss.

Woher  nimmst du die Daten für das Tool?

Nun, erst einmal crawlen wir das Netz. Derzeit konzentrieren wir uns noch auf .de, .at und .ch Domains, aber das wird sich bald ändern. Wir schauen dabei sehr genau auf die Verlinkung der erfassten Webseiten und eben auch auf deren Inhalte, sowie die Linktexte. Außerdem holen wir noch Daten aus Webverzeichnissen wie Yahoo und DMOZ.

Dein Tool kategorisiert Inhalte von Websites. Wozu ist das hilfreich? Wobei kann mir das Tool beim “Better Backlinking” helfen?

Wie oben schon erwähnt sind die Kategorien das Key-Feature unserer neuen Meme-Suche. Daneben gibt es natürlich noch andere Anwendungsfälle. So sind Kenntnisse über den Inhalt und die Kategorie von Webseiten z.B. für Affiliate-Netzwerke genauso interessant wie für SEO-Dienstleister oder soziale Netzwerke.

In aller Munde sind ja derzeit Aussagen von Google die Suchergebnisse zu verbessern, indem inhaltlich sinnvolle Seiten angezeigt und andere ausgeblendet werden sollen. Die Kernfrage die sich jetzt stellt ist: “Wie erkennt Google denn den Sinn und die Sinnhaftigkeit von Inhalten und Webseiten? Wer ist betroffen?” Ich habe versucht in meiner Präsentation ein paar Wege aufzuzeigen wie dies geschehen kann, also z.B. über manuelle Kategorisierung (Stichwort Praktikanten :-) ), mit Ontologien, über Verzeichnisdienste wie DMOZ, über den Webgraphen und natürlich mit semantischen Inhaltsanalysen. Gerade die letzten drei Punkte sind für eine vollautomatische Lösung der Königsweg und werden sicherlich auch von Google eingesetzt, es sei denn die kochen doch nicht mehr mit Wasser … Wenn SEO-Dienstleister also in Zukunft sinnvolles Backlinking betreiben wollen, dann kommen sie um semantische Betrachtungen der Websites über kurz oder lang nicht mehr herum.

Nach welchem Schema hast du die Kategorien festgelegt?

Frei Schnauze. Nein, im Ernst: Die Kategorien müssen immer auf den jeweiligen Anwendungsfall, sprich das betrachtete Umfeld passen. Das Tool kennt derzeit über 200 Kategorien für die thematische Einteilung allgemeiner Websites. Auch das wird noch nicht ausreichen, ist aber ein Anfang. Da man normalen Usern aber keine 200 Kategorien vorsetzen kann, haben wir eine übergeordnete Hierarchiestufe geschaffen, die aus ca. 20 Oberkategorien besteht und in die sich alle Websites einfügen lassen. Inspiriert bei der Zusammenstellung der Kategorien wurden wir von DMOZ, Yahoo, Amazon und ebay. Die Festlegung ist übrigens ein fließender Prozess. Wir werden das System sicher noch optimieren, erweitern oder verkleinern, je nachdem wie sinnvoll uns neue Einteilungen erscheinen.

NerdByNature.Net ist übrigens so angelegt, dass mit mehreren Kategoriesystemen gearbeitet werden kann, je nach Einsatzgebiet.

Man kann mit NerdByNature.Net seine Links auch geographisch sortieren. „Russenlinks“ kann man so schnell aufdecken. Wofür ist diese Funktion noch gedacht?

Viele der Backlinkfunktionen die NerdByNature.Net bietet werden nicht unmittelbar für die Kategorisierung benötigt, sondern für zusätzliche Aufgaben, wie z.B. die Erkennung von Suchmaschinen-Spam, SEO-Clustern und Doorway-Pages. Wir wollen nicht nur das Thema einer Site erfassen, sondern auch Aussagen über deren Qualität (Glaubwürdigkeit) treffen können.

Sind in Zukunft weitere Funktionen für das Tool geplant?

Als nächstes soll erst einmal der Datenbestand erweitert werden. D.h. Toplevel-Domains wie .com, .net und .org sind die nächsten, deren Sites zum Webgraph hinzugefügt werden sollen. Auf der funktionalen Seite werden die einzelnen Features weiter ausgebaut, wie z.B. “Wenn Site XY zu Kategorie Z gehört, welche der verlinkenden Sites verbergen sich hinter Z?”. Es wird funktional zunächst in die Tiefe gehen, bestehende Features werden verfeinert und weiter ausgebaut, Querverbindungen der einzelnen Ausgaben sollen nutzbar gemacht werden.

Vielen Dank für das Interview und weiterhin viel Erfolg! Wer Interesse an der Präsentation des Vortrags hat findet sie hier.

postheadericon NerdByNature.Bot

Der NerdByNature.Bot oder auch Webcrawler oder Spider genannt ist der Prozess, der täglich bis zu einer Millionen Webseiten erfasst und die Webmap-Datenbasis von NerdByNature.Net aktuell hält.

UserAgent

Der NerdByNature.Bot nutzt einen UserAgent wie “Mozilla/5.0 (compatible; NerdByNature.Bot; http://www.nerdbynature.net)”. D.h. in Logfiles und Statistiken ist der NerdByNature.Bot entsprechend sichtbar und kann darüber hinaus auch mittels einer robots.txt (siehe folgendes Kapitel) ausgesperrt oder in die Schranken verwiesen werden. Benutzen Sie innerhalb Ihrer robots.txt einfach den Eintrag “User-agent: NerdByNature.Bot” um einen Anweisungsblock für den NerdByNature Robot zu kennzeichnen (siehe Beispiel weiter unten).

Sperren von Inhalten

Es ist praktisch unmöglich Webinhalte grundsätzlich geheim zu halten, ausser durch den Einsatz von Zugangsbeschränkungen wie Passwörter. In dem Moment, in dem irgendjemand einen Link auf Ihre Seiten setzt werden sie auch von Suchmaschinen und über kurz oder lang auch vom NerdByNature.Bot gefunden.

Wenn Sie nicht wollen, dass der NerdByNature.Bot Ihre Webseiten oder Teile davon erfasst, so nutzen Sie bitte die robots.txt dafür. Eine gute Erklärung, Beispiele und weiterführende Links zur robots.txt finden Sie u.a. bei Goolge in der Webmaster Zentrale unter “Blockieren oder Entfernen“.

Beispiel:

Wenn Sie errreichen wollen, dass der NerdByNature.Bot Ihre Seite “/order.php” nicht erfasst, dann geben Sie in Ihrer robots.txt folgende Regel an:


    User-agent: NerdByNature.Bot
    Disallow: /order.php

Was wird erfasst?

NerdByNature.Net ist nicht vergleichbar mit großen Suchmaschinen, die möglichst alle Inhalte einer Website erfassen wollen. Wir beschränken uns in der Regel auf die ersten 50 Seiten, ausgehend von der Homepage (und ja, es wird Ausnahmen von dieser Regel geben). Diese werden auch nicht täglich gecrawled, sondern lediglich alle zwei bis vier Wochen, je nach Ranking Ihrer Website.

Probleme melden

Sollten einmal Probleme mit dem NerdByNature.Bot auf Ihren Webseiten auftreten, so können Sie uns gern darüber informieren. Wir sind stets bemüht Qualität des Crawlers zu verbessern und freuen uns über jedes Feedback.

Für Fragen oder Anmerkungen zum NerdByNature.Bot können sie einfach einen Kommentar zu diesem Post schreiben oder eine Mail an info@nerdbynature.net senden.

postheadericon LOMBB – Lokales Online Marketing Berlin Brandenburg

19.04.2011, Berlin (Gasometer)

Online Marketing – Was verbirgt sich hinter den vielen neuen Begriffen und den immer schneller werdenden Entwicklungen? Was gilt für Sie als lokal agierendes Unternehmen? Welche lokalen Medienunternehmen befinden sich in Berlin, mit denen Sie Ihr lokales Online Marketing umsetzen können?
Die LOMBB hat sich der Aufgabe angenommen auf lokaler Ebene für mehr Aufklärung und Transparanz zu sorgen.

Aussteller

Meine Firma W3 Solutions GmbH ist Aussteller auf der LOMBB – wir präsentieren unsere Suchmaschine W3 SiteSearch, geben einen Ausblick auf aktuelle und zukünftige Entwicklungen und stehen gern Rede und Antwort für alle Fragen rund um Suche, On-Site-Search und Site-Optimierung.

Vortrag

Ich werde auf der LOMBB am 19.04.2011 folgenden, ca. 30 minütigen Vortrag halten:

“Suchmaschinen-Spam vs. Better Backlinking”
(durch geografische und semantische Analyse)

SEO verspricht viel und nur allzu oft wird wenig gehalten. Schadet eine Maßnahme mehr als sie bringt? Gerade beim Thema Backlinking wird viel erzhält, versprochen und vor allem auch bezahlt. Was genau aber bringen Links von anderen Sites, was ist wichtig, welche Sitelinks sind begehrenswert und welche richten eher Schaden an (und warum)? Mit etwas Know-How und den richtigen Werkzeugen lassen sich Backlinks bewerten, Konkurrenten vergleichen und Ziele definieren bevor das Kind in den Brunnen fällt!

LOMBB 2011

postheadericon SEO-Campixx Berlin, 2011

12.-13.03.2011, Berlin

Wenn man davon ausgeht, dass die Fortbildung im Bereich SEO sehr stark auf dem Informations- und Erfahrungsaustausch der Suchmaschinenoptimierer untereinander basiert, dann ist die SEO CAMPIXX eine logische Folge. Sie versucht seit 2 Jahren die Konzepte von Barcamps, Konferenzen, Networking- und Fun-Events miteinander zu vereinen.

Workshop:

Ich werde auf der SEO-Campixx 2011 am 12. oder 13.03.2011 folgenden Workshop (45 Min.) abhalten:

Better Backlinking – Semantische Kategorisierung von Websites

Die Qualität von Backlinks anhand ihrer thematischen Herkunft bewerten und gezielt relevante Themen-Sites für Linkbuilding identifizieren, Themen-Synergien nutzen, SEO-Spam erkennen und Mitbewerber bewerten. Die Kategorisierung erfolgt über semantische Inhaltsanalyse und Graphen-Theorie (Linkgraph), zusätzlich ergänzt durch Geo- und IP-Daten.

Präsentation

Hier gibt es die Präsentation als PDF-Download.

 

SEO Campixx 2011

postheadericon GeoMap – Weltkarte – Serverstandorte

Das neue Feature GeoMap ist online! Jeder Graph in der Webmap läßt sich durch einen Klick auf den neuen Button “GeoMap” (oberhalb des Graphen) on-the-fly auf die Weltkarte abbilden!
Für jede Site wird der Serverstandort mit Land und (sofern vorhanden) Stadt in die Karte eingetragen. Die Verlinkung der Sites untereinander bleibt natürlich erhalten.
Mittels Mouse-Over läßt sich die URL anzeigen und mittels Doppelklick auf eine der Sites können weitere Sites nachgeladen werden.

postheadericon Suchmaschinen zwischen Informationsfreiheit und Wissensmacht

28.01.2011, Göttingen

Am 28.01.2011 veranstalteten die Professoren Torsten Körber und Andreas Wiebe an der Georg-August-Universität Göttingen eine durch den Universitätsbund geförderte Tagung zum Thema “Suchmaschinen zwischen Informationsfreiheit und Wissensmacht”. Nach einer grundlegenden Erörterung von Funktionsweise und Geschäftsmodell von Suchmaschinen durch Prof. Dr. Sander-Beuermann (SuMa-eV), wurden marken-, datenschutz- und medienrechtliche Aspekte erörtert und von Wissenschaftlern, Datenschutzbeauftragten und Vertretern des Unternehmens Google diskutiert. Die Veranstaltung fand von 9:00 bis 16:30 Uhr in der Paulinerkirche, Papendiek 14 in Göttingen statt.

Mein persönliches Fazit zu dieser Veranstaltung:

Der Beitrag von Prof. Dr. Sander-Beuermann (SuMa-eV) war sehr gut. Hat er doch glaubwürdig dargestellt welche Mittel ein Startup bräuchte um eine weltweite, konkurrenzfähige Suchmaschine zu erstellen. Anderen Beiträge wie z.B. sog. Forschungsarbeiten zur Finanzierung von Suchmaschinen hat deutlich die Tiefe gefehlt. Anstatt neue Ideen zu entwickeln und zu bewerten wurden hier nur die alten Pfade der Werbeeinnahmen breitgetreten, schade, denn das Thema hat gerade in meinen Augen viel mehr Innovation verdient.

Göttingen Suchmaschinen Tagung

postheadericon Version D-A-CH

Die Datenbasis wurde gegenüber der ersten Version DE jetzt um die Webserver aus Österreich und der Schweiz erweitert. Somit steht ab sofort die Version D-A-CH zur Verfügung die bereits jetzt über 95% aller aktiven DE/AT/CH Domains enthält.

postheadericon European Semantic Technology Conference 2010

Vom 02. bis 03.12.2010 fand in Wien die ESTC2010, die European Semantic Technnology Conference statt an der ich teilnehmen durfte.

Es wurden ein paar interessante Projekte aus dem semantischen Umfeld präsentiert, wie z.B. LOD2 (Linked Open Data) u.a. von der Universität Leipzig.

Leider hatte die Veranstaltung etliche Längen, immer dann wenn das X-te kleine Projekt, was auch nur im entferntesten mit Semantik zu tun haben könnte präsentiert wurde, nur um die Aufmerksamkeit von VC-Gebern zu erlangen.

Der mit Abstand interessanteste Beitrag kam von Victor Henning, Mendeley Ltd., der darüber referierte, wie seine Firma zu Venture Capital (VC) gekommen ist – nämlich nicht über derartige Veranstaltungen :-)

Einen ungewollt witzigen Beitrag leistete der zweite Keynote Speaker, von Yahoo Research, der Suchmaschinentechnologien als das wichtigste Kernthema des Internets anpries. Da fragt man sich als Zuhörer schon, warum gerade Yahoo sich weltweit von seinen Suchtechnologien verabschiedet, den Kuchen in Zukunft anderen überläßt und nur noch Bing einsetzen will???

European Semantic Technology Conference 2010

postheadericon The Search Conference, 2010

Am 23.11.2010 fand in Hamburg die Search Conference statt. Der Name könnte suggerieren, dass es dabei evtl. um tatsächliche Suchmaschinentechniken ging, aber weit gefehlt. Es standen Themen wie SEO, SEA, Long Tail, Backlinks und andere Orakelthemen auf dem Programm.

Ein Lichtblick waren die Beiträge von SEOlytics, Abakus und Searchmetrics, die zwar nicht wirklich in die Tiefe gingen (eher etwas weichspüler-mäßige Kost), aber sich dafür auch nicht wilden Spekulationen ergingen, warum nun ein bestimmter Beitrag von Google auf Position X gesetzt wird. Es ist immer wieder lustig mit anzusehen, wie die SEO-Herde den Google-Boys hinterherrennt und mit pseudowissenschaftlichen Methoden (knapp hinter der Glaskugel) versucht bestimmte Verhaltensweisen der Suchmaschine zu erklären, ohne dabei überhaupt die Fragestellung verstanden zu haben.

Fazit: Die Veranstaltung hat Spaß gemacht, es gab viele neue (und alte) Kontakte, eine Wiederholung in 2011 dürfte wahrscheinlich sein.

postheadericon Neues Feature: Details

Seit heute ist der erste Teil des neuen Features “Details” online! Ein Klick auf den Button und schon öffnet sich die Detailansicht zur aktuell ausgewählten Website. Klickt man bei geöffnetem Detail-Fenster eine andere Site in der Webmap an, so werden die Detailangaben automatisch aktualisiert.

Derzeit zeigt die Detailansicht die Websites, die auf die aktuell ausgewählte Site verlinken (Backlinks). Die “fremden” Websites sind dabei ihrerseits nach Ranking sortiert. Das Ranking ist eine imaginäre Größe, die sich daraus berechnet, wieviele andere Sites auf eine Website verlinken, d.h. viele Backlinks anderer Websites bedeuten eine starke Vernetzung der Ziel-Website und somit auch ein hohes Ranking.

Derzeit werden alle Backlinks gleich behandelt – in Zukunft sollen Backlinks aus derselben Domaine wie die Ziel-Website (anderer Hostname, gleiche Domaine) aber weniger Gewicht haben als Backlinks aus fremden Domainen. Diese Funktion wird derzeit zwar schon in der Datenbasis berücksichtig, findet aber erst in einem der kommenden Updates Einzug in das Frontend.

Weitere Features, wie z.B. detaillierte Pagelinks, weiterführende Linkanalysen und vor allem Kategorien werden folgen – es bleibt spannend.

postheadericon Webmap Stable

Die Webmap hat das Beta-Stadium verlassen und steht jetzt in der ersten stabilen Version zur Verfügung. Weitere werden sicherlich folgen. Derzeit schweben mir auch andere Graphendarstellungen vor, wie z.B. eine geographische Darstellung oder zwei- und dreidimensionale Projektionen.

postheadericon Suchmaschinen-SPAM durch Subsites

Es gibt Sites die sind unter Namen wie www.site.de zu erreichen oder shop.site.de oder gar unter noch weiteren Subdomains. Soweit so gut, eine derartige Aufgabenteilung bringt ja auch Ordnung ins System.

Nun gibt es aber auch Sites, die dynamisch Subsites generieren und zwar nicht eine oder zwei, sondern tatsächlich hunderttausende! Das Webmap Projekt hat bisher 41 Websites identifiziert, die jeweils über 10.000, in einigen Fällen sogar über 1 Mio. Subsites veröffentlicht haben. Jede dieser Subsites tritt als kleine vollwertige Website auf und verlinkt auf die Hauptadresse der Site (Ranking läßt grüßen).
So bekommt bei Musicload.de z.B. jeder Song seine eigene Subsite genauso wie beim Lieferservice Pizza-Taxi.de jede deutsche Stadt. Salsaschule.de geht da noch einen Schritt weiter und setzt ganze Wörterbücher als Hostnamen um – bringen tut es wenig.

Stichproben haben ergeben, dass zumindest Google, Yahoo und Bing sich davon nicht groß beirren lassen. Sucht man z.B. die Worte “pizza service” tauchte pizza-taxi.de in den Google-Suchtreffern gerade erst bei Position 20 auf, also letzter Eintrag auf der 2. Seite. Weder die Suche nach “salsaschule” noch die Suche nach “salsaschule” plus einem der in den Hostnames vorkommenden Worte brachten Ergebnisse von salsaschule.de in den ersten 20 Treffern bei Google, Yahoo und Bing.

Anscheinend durften sich hier sog. “SEO-Spezialisten” austoben, denen wir nun Millionen nutzloser Subsites verdanken, nur um es den Suchmaschinen möglichst schwer zu machen wirklich relevante Inhalte zu finden.

Damit wir in der Webmap nicht allzu viel Spam enthalten haben, gibt es jetzt eine Grenze von 10.000 Subsites. Mehr Subsites werden pro Domain nicht erfasst.

postheadericon 50 GByte Linkdaten

Für den Graphen der Webmap haben wir jetzt die Grenze von 50 GByte Linkdaten überschritten, bei ca. 3.3 Mio. erfassten Websites und 45 Mio. Webpages! Darin enthalten sind lediglich die Sites, max. 20 Pagenames pro Site (keine Inhalte), die Links zwischen den Sites und die eigentlichen Links zwischen den Pages.

postheadericon Erste Beta der Webmap ist online!

Die erste (beta) Version der Webmap ist online und kann sofort auf der N³ Homepage genutzt werden. Unterhalb des Webmap-Bereichs finden sich noch ein paar Hinweise zur Benutzung.

postheadericon Server / Datenbank

Server: Quadcore Intel Hardware, 8 GByte RAM, 1.5 TByte HD

Datenbank(en):
Als datenführendes System für die Speicherung der eigentlichen Map-Daten wird MySQL 5.5 eingesetzt, erste Tests mit ca. 3 Mio. Websites und einem Datenbestand von gut 40 GByte haben aber schon gewisse Performanceprobleme offenbart. Wenn auch der jeweilige Content der Websites gespeichert werden soll, wird sicherlich noch ein zusätzliches Datenbanksystem, wie z.B. MongoDB zum Einsatz kommen.

postheadericon Version DE

Die erste Version erfasst ausschließlich deutsche Webserver der Toplevel-Domain “.de”. Es sind derzeit über 14 Mio. DE-Domains registriert und wenn man davon ausgeht, das sich nicht hinter jeder Domain eine eigene Website verbirgt, kann mal wohl mit ca. 4-5 Mio. Websites in Summe rechnen.
Von jeder Website werden wir zunächst die ersten 20 Seiten und alle Links auf diesen Seiten erfassen. D.h. im ersten Wurf max. 100 Mio. Webseiten.

 

Warum nur DE-Domains?
Mit irgendetwas muss man ja anfangen und der Umfang, der bisher beim Denic registrierten Domains schien da eine praktikable Größe, zumal die Projektheimat Deutschland ist.

 

Warum nur 20 Seiten pro Website?
Diese 20 Seiten stellen nur den ersten Schritt dar. Ausgehend von der Homepage denken wir, dass die wichtigsten Seiten die sind, die sich weit “oben” in der Baumstruktur einer Website befinden, d.h. hier finden sich evtl. auch die häufigsten Ansammlungen von Links auf andere Server. Ziel ist es ja eine Webmap zu erstellen und nicht alle Inhalte zu erfassen. Ob die Linkqualität besser oder schlechter wird, je tiefer man in eine Website eintaucht werden wir in einer der nächsten Projektversionen überprüfen, wenn wir die Crawltiefe deutlich erweitern.

postheadericon Ziele

Das erste Etappenziel dieses Projektes ist es, ein Karte (Map bzw. Graph) des Webs zu erstellen. Die Ausgabe der Map erfolgt in Form eines Graphen, bei dem die einzelnen Websites im Internet die Graphenknoten (Nodes) darstellen und Links von einer Website zu einer anderen die Verbindungen zwischen den Nodes repräsentieren.
Sowohl Nodes als auch Links sind gewichtet, d.h. je mehr eine Website verlinkt ist, desto “gewichtiger” ist sie und je mehr Links zwischen zwei Websites hin- und herzeigen, desto enger ist die Bindung zwischen diesen.

Ausgehend von einem funktionierenden Graphen sind die weiteren Ziele und Ideen:

  • Kategorisierung von Websites
  • Erkennung von Dummy-Sites (Stichwort Suchmaschinen-Spam)
  • SEO-Unterstützung in Bezug auf Backlinks, Site- und Pageranking
  • Aufbau eines Services zur Unterstützung von Affiliate-Netzen für kategoriegesteuerte Werbeeinblendungen
  • Einsatz der Graph-Engine zur Visualisierung sozialer Netzwerke

Weitere Ideen gibt es viele, wir werden sehen, welche Fragen und Anforderungen die Nutzer an NerdByNature.Net stellen und wohin die Reise dann gehen wird.

Da so ein Projekt nicht gleich am ersten Tag ausufern und die Ziele immer noch errichbar sein sollen, werden wir ersteinmal mit einer “kleinen” Karte (Version DE) beginnen.

Categories
Werbung