Content Klau mittels robots.txt einschränken

Jan Stöver · #2 19.02.2005, 15:20

Bekannte User-Agents, die z.B. zum Content-Klau oder E-Mail spidern dienen.

User-agent: HTTrack
User-agent: grub-client
User-agent: grub
User-agent: looksmart
User-agent: WebZip
User-agent: larbin
User-agent: b2w/0.1
User-agent: psbot
User-agent: Python-urllib
User-agent: NetMechanic
User-agent: URL_Spider_Pro
User-agent: CherryPicker
User-agent: EmailCollector
User-agent: EmailSiphon
User-agent: WebBandit
User-agent: EmailWolf
User-agent: ExtractorPro
User-agent: CopyRightCheck
User-agent: Crescent
User-agent: SiteSnagger
User-agent: ProWebWalker
User-agent: CheeseBot
User-agent: LNSpiderguy
User-agent: ia_archiver
User-agent: ia_archiver/1.6
User-agent: Teleport
User-agent: TeleportPro
User-agent: MIIxpc
User-agent: Telesoft
User-agent: Website Quester
User-agent: moget/2.1
User-agent: WebZip/4.0
User-agent: WebStripper
User-agent: WebSauger
User-agent: WebCopier
User-agent: NetAnts
User-agent: Mister PiX
User-agent: WebAuto
User-agent: TheNomad
User-agent: WWW-Collector-E
User-agent: RMA
User-agent: libWeb/clsHTTP
User-agent: asterias
User-agent: httplib
User-agent: turingos
User-agent: spanner
User-agent: InfoNaviRobot
User-agent: Harvest/1.5
User-agent: Bullseye/1.0
User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
User-agent: CherryPickerSE/1.0
User-agent: CherryPickerElite/1.0
User-agent: WebBandit/3.50
User-agent: NICErsPRO
User-agent: Microsoft URL Control - 5.01.4511
User-agent: DittoSpyder
User-agent: Foobot
User-agent: WebmasterWorldForumBot
User-agent: SpankBot
User-agent: BotALot
User-agent: lwp-trivial/1.34
User-agent: lwp-trivial
User-agent: BunnySlippers
User-agent: Microsoft URL Control - 6.00.8169
User-agent: URLy Warning
User-agent: Wget/1.6
User-agent: Wget/1.5.3
User-agent: Wget
User-agent: LinkWalker
User-agent: cosmos
User-agent: moget
User-agent: hloader
User-agent: humanlinks
User-agent: LinkextractorPro
User-agent: Offline Explorer
User-agent: Mata Hari
User-agent: LexiBot
User-agent: Web Image Collector
User-agent: The Intraformant
User-agent: True_Robot/1.0
User-agent: True_Robot
User-agent: BlowFish/1.0
User-agent: JennyBot
User-agent: MIIxpc/4.2
User-agent: BuiltBotTough
User-agent: ProPowerBot/2.14
User-agent: BackDoorBot/1.0
User-agent: toCrawl/UrlDispatcher
User-agent: WebEnhancer
User-agent: suzuran
User-agent: VCI WebViewer VCI WebViewer Win32
User-agent: VCI
User-agent: Szukacz/1.4
User-agent: QueryN Metasearch
User-agent: Openfind data gathere
User-agent: Openfind
User-agent: Xenu's Link Sleuth 1.1c
User-agent: Xenu's
User-agent: Zeus
User-agent: RepoMonkey Bait & Tackle/v1.01
User-agent: RepoMonkey
User-agent: Microsoft URL Control
User-agent: Openbot
User-agent: URL Control
User-agent: Zeus Link Scout
User-agent: Zeus 32297 Webster Pro V2.9 Win32
User-agent: Webster Pro
User-agent: EroCrawler
User-agent: LinkScan/8.1a Unix
User-agent: Keyword Density/0.9
User-agent: Kenjin Spider
User-agent: Iron33/1.0.2
User-agent: Bookmark search tool
User-agent: GetRight/4.2
User-agent: FairAd Client
User-agent: Gaisbot
User-agent: Aqua_Products
User-agent: Radiation Retriever 1.1
User-agent: Flaming AttackBot
User-agent: Oracle Ulra Search
User-agent: MSIECrawler
User-agent: PerMan
User-agent: searchpreview

Vier sehr gute Listen die neben Kategorien (E-Mail Spider etc.) auch teilweise Erklärungen zu den Bot´s beinhalten.

TRS · #3 19.02.2005, 16:40

Entweder bin ich jetzt falsch informiert, aber seit wann halten sich Programme wie wget an eine robots.txt?

Jan Stöver · #4 19.02.2005, 16:44

Ich schrieb ja, dass es natürlich keine einhundertprozentige Sicherheit ist. Klar ist auch, dass sich einige Programme nicht an diesen Standard halten ...

LonelyPixel · #5 19.02.2005, 22:55

Warum auf robots.txt verlassen, wenn man die Zugriffsrechte per .htaccess auch erzwingen kann?

Jan Stöver · #6 19.02.2005, 23:40

Klasse ...

Ne mal im Ernst - kann man hier noch normale Diskussionen führen oder sind wir zu einer Art "Schlaumeierkommentar" Gemeinschaft verkommen?

Dann zeige doch bitte einfach die deiner Meinung nach glänzenden Vorteile von htaccess auf, teile uns mit, wie du es machen würdest und wir alle können schauen, in wie weit man beides verbinden kann oder aus welcher Möglichkeit wir bessere Resultate schöpfen können.

Off-Topic:

Sorry wenn ich leicht angesäuert reagiere ... aber immer öfter ist es hier der Fall, dass Leute sich Arbeit machen und die mit einem nichtssagenden Einzeiler abgetan wird.
So hat es etwas von einem "wayne" Kommentar ... und den kann man sich echt sparen.
Hier sind viele Leute unterwegs, die sich glänzend ergänzen können ... aber viel zu oft posen Leute hier mit Wissen ohne dieses teilen zu wollen.

Nur meine 2 Pfennige.

Patrick Gotthardt · #7 19.02.2005, 23:50

Irgendwie kannst du mit htaccess User-Agents sperren.
Habe jetzt nirgends nachgeschauen, aber das würde eher dem entsprechen, was du vorhast.

(Hmm... immerhin ein zwei-zeiler. *g*)

Jan Stöver · #8 20.02.2005, 00:03

Zitat:

Zitat von TheDragonMaster

Irgendwie kannst du mit htaccess User-Agents sperren.
Habe jetzt nirgends nachgeschauen, aber das würde eher dem entsprechen, was du vorhast.

(Hmm... immerhin ein zwei-zeiler. *g*)

Ich weiss schon wie man das macht und wo man sich dazu schlau lesen kann ... z.B. http://www.abakus-internet-marketing...ic/t-8573.html

Es geht mir schlichtweg um das Prinzip ... es kann einfach nicht sein, dass man einen Kommentar im Stil von "Ich weiss was besseres - sags aber nicht" bekommt. Man soll ja keinen Roman schreiben (Einzeiler) aber mal ein wenig schauen, wo man sich selbst schlau gemacht hat ... womit man die beste Erfahrung hat etc. ... und das dann einfach mit anfügen. Schon ist jeder zufrieden. Ansonsten kann man auf jede Frage ein "Google hilft" schreiben und der Sinn eines Diskussionsforums ist dahin.

LonelyPixel · #9 20.02.2005, 00:24

Sorry, dachte sowas wäre gemeinhin bekannt, wenn schon so fortgeschrittene Methoden besprochen werden. Hab es nicht ausprobiert, aber ich verwende eine ähnliche Konstruktion auf meinen Webseiten und sowas müsste in etwa funktionieren:

SetEnvIfNoCase User-Agent ".*Indy Library.*" spambot=1

<Limit GET POST PUT>
Order Allow,Deny
Deny from env=spambot
Allow from all
</Limit>

MaMo · #10 20.02.2005, 09:17

Hallo.

Also ich würde, wie TDM schon vorgeschlagen hat, das ganze mal per USER_AGENT probieren:

PHP-Code:

  <?php

 
// Function zum erkennen der Bots

function BotDetection () {

    // Array mit Suchmaschinen-Daten, kann mit der obigen Liste natürlich beliebig erweitert werden

    $bots = array (

'CherryPicker',

'EmailCollector',

'EmailSiphon',

'WebBandit',

'EmailWolf',

'ExtractorPro'

    );

 
    // prüfe jede SuMa

    foreach ($bots as $spider) {

        // Prüfe ob der HTTP_USER_AGENT vorhanden ist

        if (stristr($_SERVER['HTTP_USER_AGENT'], $spider) !== FALSE) {

            // Wenn ein Spider identifiziert wurde, gib TRUE zurück

            return TRUE;

        }

    }

    // wenn kein Spider identifiziert werden konnte melden FALSE zurück

    return FALSE;

}

 
if (BotDetection() == FALSE) {

    die('Nicht erlaubt!');

}

else {

    // Normal weiter mit der Seite...

}

 
?>

Quelle: http://www.mamo-net.de/showtopic.php?id=47&board=2

Lässt sich jetzt darüber streiten, ob der Code so gut ist, aber das Prinzip funktioniert...

MfG MaMo

LonelyPixel · #11 20.02.2005, 11:55

Ja, funzt prinzipiell auch. Aber pass auf, stristr liefert 0 zurueck, wenn die Zeichenkette ganz am Anfang vorkommt, und FALSE, wenn sie nicht vorkommt. Du musst also explizit mit stristr(...) === FALSE pruefen, sonst kann es oft falsche Ergebnisse liefern.

MaMo · #12 20.02.2005, 14:27

Hi.

Steht doch da... nur halt nicht === sondern !==, oder hab ich da jetzt was total falsch verstanden?

MfG MaMo

MrNase · #13 20.02.2005, 14:50

Dein Scriptstück funzt aber nicht.. Warum hast du nicht das von deiner Seite 1zu1 genommen? Bei dem von dir da oben ist das array() falsch

MaMo · #14 20.02.2005, 15:14

So besser?

Wer es von der Seite will, der darf das auch gerne nehmen...

LonelyPixel · #15 20.02.2005, 20:12

Zitat:

Zitat von MaMo

Steht doch da...

Falls das heute morgen auch schon da stand, hab ich's bloß übersehen. Sorry.

Kobold · #16 12.05.2005, 18:00

nabend!

warum geht ihr alle nach einer blacklist? sprich alles das aufgelistet ist, wird blockiert. da ist es doch klüger nur das zuzulassen das auf der liste steht.

meine htaccess sieht foldendermassen aus:

Code:

SetEnvIf User-Agent ^Mozilla/4.0 let_me_in
SetEnvIf User-Agent ^Mozilla/5.0 let_me_in
SetEnvIf User-Agent ^Opera/ let_me_in
Deny from all
Allow from env=let_me_in

und wer bei einer ablehnung des useragents auf eine andere seite lenken möchte, kann das mit dieser zeile tun:

Code:

ErrorDocument 403 http://www.google.at/

somit werden die mozilla basierenden browser der version 4 (zB MSIE), 5 (zB FireFox) und allen opera versionen der zugang erlaubt, alle anderen browser werden jedoch auf eine andere seite umgelenkt.

mls Kobold

MrNase · #17 12.05.2005, 18:04

Tolle Idee, dazu möchte ich dir gerne gratulieren. Das es aber mehr Browser gibt als MSIE, Opera und FF hast du noch nicht erkannt? Die Idee würd' ich schnellstens nochmal überdenken ansonsten kann man deiner Seiten den 'Ignoranz-Award der Behindertenvereinigung' (Name erfunden) geben

Kobold · #18 12.05.2005, 18:44

und das selbe für php:

PHP-Code:

  <?php

  $moz4 = strpos($_SERVER['HTTP_USER_AGENT'], 'Mozilla/4.0');

  $moz5 = strpos($_SERVER['HTTP_USER_AGENT'], 'Mozilla/5.0');

  $opera = strpos($_SERVER['HTTP_USER_AGENT'], 'Opera/');

 
  if(4 <= substr(phpversion(), 0, 1)) {

    if($moz4 === false && $moz5 === false && $opera === false) {

      header('Location:http://www.google.at/'); exit;

    }

  } else {

    if(is_string($moz4) && !$moz4 && is_string($moz5) && !$moz5 && is_string($opera) && !$opera) {

      header('Location:http://www.google.at/'); exit;

    }

  }

?>

exe · #19 12.05.2005, 18:52

Dabei sperrst du gleichzeitig auch alle Suchmaschinenen aus, das nur so nebenbei. Eigentlich spielt es keine Rolle ob man alle User-Agents aussperrt die man nicht haben will oder nur die erlaubt, die man haben will. Im ersteren Fall erwischst du nicht alle User-Agents da du nicht alle kennst, im zweiten Fall lässt du nicht genügend zu, da du nicht alle Suchmaschinen und Browser neben Mozilla und IE kennst.

Allerdings ist es besser eventuelle Spider nicht zu erwischen als potentielle Besucher oder Suchmaschinen auszuschliessen.

Kobold · #20 12.05.2005, 19:03

Zitat:

Zitat von MrNase

Tolle Idee, dazu möchte ich dir gerne gratulieren. Das es aber mehr Browser gibt als MSIE, Opera und FF hast du noch nicht erkannt? Die Idee würd' ich schnellstens nochmal überdenken ansonsten kann man deiner Seiten den 'Ignoranz-Award der Behindertenvereinigung' (Name erfunden) geben

ein toller sarkasmus, dazu möchte ich dir gratulieren. das es weit mehr als nur ie, moz und opera gibt ist selbst mir bewusst. allerdings logge ich jeden zugriff und werte die useragents aus meiner log datei aus und auch derer grosser seiten und da stosse ich bisher nur auf die 3 oben genannten browser. ich habe bishher noch nie den useragent eines browsers für körperlich behinderte menschen gelesen. sollte ich einen finden, füge ich ihn aber gerne zur liste hinzu.

aber mal davon ganz abgesehen, stellt meine seite eine fanpage einer community (ähnlich uboot.com, allerdings nur viel kleiner und verrückter) dar, wobei ich praktisch fast jeden user der die seite besucht persönlich kenne. und da von diesen keiner eine körperliche behinderung hat, die ihm in irgendeiner form einschrenken würde, sehe ich auch keinen grund jede nur erdenkliche anzeigesoftware zugang zu gewähren. die seite ist nun mal nur für einen geringen teil von usern gedacht auf die sie auch abgestimmt ist.

also, erst informieren und dann erst mit awards um sich werfen.

mls Kobold

MrNase · #21 12.05.2005, 19:12

Kein Grund gleich pampig zu werden

Mein Beitrag sollte nur dazu dienen dir die Augen zu öffnen. Ich habe sicherlich schon einiges an Dummheit erlebt und du wärst nicht der erste der eine vermeintlich gute Idee nicht allzu gut durchdacht hat und somit unwissentlich Benutzer ausgesperrt hat.

Bzgl. des netten Hinweises, dass ich mich vorher doch einmal informieren könnte kann ich dir nur folgendes sagen: In der Boardunity kenne ich die meisten aktiven Mitglieder äusserst genau und weiss welche Seiten sie besitzen. Wenn du nun in deinem ersten Beitrag direkt ein so kontroverses Thema anschneidest könntest du ein paar mehr Informationen über den Hintergrund liefern (und uns die Community eventuell mal hier vorstellen). Sicherlich könnte ich das Internet auch nach 'Kobold' absuchen aber.. Ich denke mal nicht, dass du das hier bist:
http://images.google.de/images?q=tbn...obold-game.gif

Also schieb mir nicht den Joker in die Schuhe. Mein Beitrag war, trotz der Ironie, nur als Hilfe gedacht.

TRS · #22 12.05.2005, 20:22

Zitat:

Zitat von Kobold

ich habe bishher noch nie den useragent eines browsers für körperlich behinderte menschen gelesen. sollte ich einen finden, füge ich ihn aber gerne zur liste hinzu.

Es hilft aber nicht dem Nutzer, der von dir ausgesperrt wird - Dieser kommt nämlich nicht wieder, weil er auf deiner Seite nichts gefunden habe. Dazu kommen dann auch die Nutzer, die unter Umständen durch Firewall oder sonstigen Werkzeuge ihre Spuren verwischen.

Gruß

Luki · #23 12.05.2005, 22:52

habe das Thema jetzt nicht studiert allerdings in meinen Statistiken festgestellt, das diese ganzen neuen Pseudo Suchmaschinen sich als Googlebot vom Useragent her ausgeben, allerdings keine Google IP tragen...

ich hatte das mal im Abakus Forum näher ausgeführt!
oder habt ihr bei Euch schonmal den Subot gesehen?

also kann man das Thema eigentlich schliessen, da checken nach Useragent nichts bringt!

Ähnliche Themen
Thema	Autor	Forum	Antworten	Letzter Beitrag
Content Leserechte teilweise einschränken ja oder nein	Metro Man	Community Management, Administration und Moderation	4	28.11.2004 13:49