Archive for the ‘Tech-Talk’ Category

postheadericon NerdByNature.Bot

Der NerdByNature.Bot oder auch Webcrawler oder Spider genannt ist der Prozess, der täglich bis zu einer Millionen Webseiten erfasst und die Webmap-Datenbasis von NerdByNature.Net aktuell hält.

UserAgent

Der NerdByNature.Bot nutzt einen UserAgent wie “Mozilla/5.0 (compatible; NerdByNature.Bot; http://www.nerdbynature.net)”. D.h. in Logfiles und Statistiken ist der NerdByNature.Bot entsprechend sichtbar und kann darüber hinaus auch mittels einer robots.txt (siehe folgendes Kapitel) ausgesperrt oder in die Schranken verwiesen werden. Benutzen Sie innerhalb Ihrer robots.txt einfach den Eintrag “User-agent: NerdByNature.Bot” um einen Anweisungsblock für den NerdByNature Robot zu kennzeichnen (siehe Beispiel weiter unten).

Sperren von Inhalten

Es ist praktisch unmöglich Webinhalte grundsätzlich geheim zu halten, ausser durch den Einsatz von Zugangsbeschränkungen wie Passwörter. In dem Moment, in dem irgendjemand einen Link auf Ihre Seiten setzt werden sie auch von Suchmaschinen und über kurz oder lang auch vom NerdByNature.Bot gefunden.

Wenn Sie nicht wollen, dass der NerdByNature.Bot Ihre Webseiten oder Teile davon erfasst, so nutzen Sie bitte die robots.txt dafür. Eine gute Erklärung, Beispiele und weiterführende Links zur robots.txt finden Sie u.a. bei Goolge in der Webmaster Zentrale unter “Blockieren oder Entfernen“.

Beispiel:

Wenn Sie errreichen wollen, dass der NerdByNature.Bot Ihre Seite “/order.php” nicht erfasst, dann geben Sie in Ihrer robots.txt folgende Regel an:


User-agent: NerdByNature.Bot
Disallow: /order.php

Was wird erfasst?

NerdByNature.Net ist nicht vergleichbar mit großen Suchmaschinen, die möglichst alle Inhalte einer Website erfassen wollen. Wir beschränken uns in der Regel auf die ersten 50 Seiten, ausgehend von der Homepage (und ja, es wird Ausnahmen von dieser Regel geben). Diese werden auch nicht täglich gecrawled, sondern lediglich alle zwei bis vier Wochen, je nach Ranking Ihrer Website.

Probleme melden

Sollten einmal Probleme mit dem NerdByNature.Bot auf Ihren Webseiten auftreten, so können Sie uns gern darüber informieren. Wir sind stets bemüht Qualität des Crawlers zu verbessern und freuen uns über jedes Feedback.

Für Fragen oder Anmerkungen zum NerdByNature.Bot können sie einfach einen Kommentar zu diesem Post schreiben oder eine Mail an info@nerdbynature.net senden.

 

postheadericon 50 GByte Linkdaten

Für den Graphen der Webmap haben wir jetzt die Grenze von 50 GByte Linkdaten überschritten, bei ca. 3.3 Mio. erfassten Websites und 45 Mio. Webpages! Darin enthalten sind lediglich die Sites, max. 20 Pagenames pro Site (keine Inhalte), die Links zwischen den Sites und die eigentlichen Links zwischen den Pages.

postheadericon Server / Datenbank

Server: Quadcore Intel Hardware, 8 GByte RAM, 1.5 TByte HD

Datenbank(en):
Als datenführendes System für die Speicherung der eigentlichen Map-Daten wird MySQL 5.5 eingesetzt, erste Tests mit ca. 3 Mio. Websites und einem Datenbestand von gut 40 GByte haben aber schon gewisse Performanceprobleme offenbart. Wenn auch der jeweilige Content der Websites gespeichert werden soll, wird sicherlich noch ein zusätzliches Datenbanksystem, wie z.B. MongoDB zum Einsatz kommen.