Zur Boardunity Forenstartseite
  #1  
Alt 19.02.2005, 15:20
Benutzerbild von Jan Stöver
Boardunity Team
 
Registriert seit: 12.2003
Ort: Lübeck
Beiträge: 2.326

Content Klau mittels robots.txt einschränken


Ob E-Mail Spider, Imagethief oder gar ein kompletter Webseitengrabber ... automatisch und mit wenigen Klicks des Benutzers durchstöbern sie unsere Seiten nach verwertbarem Inhalt und erlauben es sogar unsere ganze Arbeit auf die heimische Platte eines Dritten zu verfrachten.

Hier können wir ja mal Inhalt für eine robots.txt sammeln, die diesen Bots den Zugriff auf unsere Inhalte verbietet. Ein sicherer Schutz ist das natürlich nicht. Aber garnicht vorzubeugen bringt schliesslich auch nichts.

Ich habe aus verschiedenen Quellen und Beiträgen zu diesem Thema mal eine beachtliche Liste an Bot´s heraus gesucht. Es würde mich freuen, wenn wir diese Liste ein wenig aktuell halten würden. Wenn ihr also einen euch bekannten Robot vermisst, eure vorhandene robots.txt Datei weitere Bot´s enthält oder ihr von neuen Exemplaren erfahrt, dann schreibt sie hier bitte rein.

Die bereits eingetragenen User-Agents sind im zweiten Beitrag gelistet.

Die Nutzung in der Robots.txt:

# Allen Robots den Weg in ein bestimmtes Verzeichnis verweigern
User-agent: *
Disallow: /verzeichnis/

# Allen Robots den Weg in mehrere bestimmte Verzeichnisse verweigern
User-agent: *
Disallow: /verzeichnis 1/
Disallow: /verzeichnis 2/
Disallow: /verzeichnis 3/

# Einzeln definierte Robots den Weg in ein bestimmtes Verzeichnis verweigern
User-agent: wget
User-agent: webzip
User-agent: webmirror
User-agent: webcopy
Disallow: /verzeichnis/

# Einzeln definierte Robots den Weg in mehrere bestimmte Verzeichnisse verweigern
User-agent: wget
User-agent: webzip
User-agent: webmirror
User-agent: webcopy
Disallow: /verzeichnis 1/
Disallow: /verzeichnis 2/
Disallow: /verzeichnis 3/

# Allen Robots den Weg auf die ganze Seite verweigern (nicht gut für SuMa!)
User-agent: *
Disallow: /

# Definierten Robots den Weg auf die ganze Seite verweigern (kein Einfluss auf SuMa!)
User-agent: wget
User-agent: webzip
User-agent: webmirror
User-agent: webcopy
Disallow: /

# Wir können auch bestimmte Dateien schützen

User-agent: *
Disallow: /impressum.html


Wenn wir Verzeichnisse schützen ist der Endslash (/verzeichnis/) äusserst wichtig. Würden wir den vergessen und z.B. das Verzeichnis /index ohne Endslash schützen, würden die Robots auch nichts mehr indexieren, was mit index anfängt ... so z.B. eine index.html ... das wäre für SuMa Robots natürlich fatal.


Weiterführende Links: selfhtml.org | Suchfiebel | Abakus | Robots.txt Validator | Wikipedia


__________________
Jan Stöver
  #2  
Alt 19.02.2005, 15:20
Benutzerbild von Jan Stöver
Boardunity Team
 
Registriert seit: 12.2003
Ort: Lübeck
Beiträge: 2.326
Bekannte User-Agents, die z.B. zum Content-Klau oder E-Mail spidern dienen.

User-agent: HTTrack
User-agent: grub-client
User-agent: grub
User-agent: looksmart
User-agent: WebZip
User-agent: larbin
User-agent: b2w/0.1
User-agent: psbot
User-agent: Python-urllib
User-agent: NetMechanic
User-agent: URL_Spider_Pro
User-agent: CherryPicker
User-agent: EmailCollector
User-agent: EmailSiphon
User-agent: WebBandit
User-agent: EmailWolf
User-agent: ExtractorPro
User-agent: CopyRightCheck
User-agent: Crescent
User-agent: SiteSnagger
User-agent: ProWebWalker
User-agent: CheeseBot
User-agent: LNSpiderguy
User-agent: ia_archiver
User-agent: ia_archiver/1.6
User-agent: Teleport
User-agent: TeleportPro
User-agent: MIIxpc
User-agent: Telesoft
User-agent: Website Quester
User-agent: moget/2.1
User-agent: WebZip/4.0
User-agent: WebStripper
User-agent: WebSauger
User-agent: WebCopier
User-agent: NetAnts
User-agent: Mister PiX
User-agent: WebAuto
User-agent: TheNomad
User-agent: WWW-Collector-E
User-agent: RMA
User-agent: libWeb/clsHTTP
User-agent: asterias
User-agent: httplib
User-agent: turingos
User-agent: spanner
User-agent: InfoNaviRobot
User-agent: Harvest/1.5
User-agent: Bullseye/1.0
User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
User-agent: CherryPickerSE/1.0
User-agent: CherryPickerElite/1.0
User-agent: WebBandit/3.50
User-agent: NICErsPRO
User-agent: Microsoft URL Control - 5.01.4511
User-agent: DittoSpyder
User-agent: Foobot
User-agent: WebmasterWorldForumBot
User-agent: SpankBot
User-agent: BotALot
User-agent: lwp-trivial/1.34
User-agent: lwp-trivial
User-agent: BunnySlippers
User-agent: Microsoft URL Control - 6.00.8169
User-agent: URLy Warning
User-agent: Wget/1.6
User-agent: Wget/1.5.3
User-agent: Wget
User-agent: LinkWalker
User-agent: cosmos
User-agent: moget
User-agent: hloader
User-agent: humanlinks
User-agent: LinkextractorPro
User-agent: Offline Explorer
User-agent: Mata Hari
User-agent: LexiBot
User-agent: Web Image Collector
User-agent: The Intraformant
User-agent: True_Robot/1.0
User-agent: True_Robot
User-agent: BlowFish/1.0
User-agent: JennyBot
User-agent: MIIxpc/4.2
User-agent: BuiltBotTough
User-agent: ProPowerBot/2.14
User-agent: BackDoorBot/1.0
User-agent: toCrawl/UrlDispatcher
User-agent: WebEnhancer
User-agent: suzuran
User-agent: VCI WebViewer VCI WebViewer Win32
User-agent: VCI
User-agent: Szukacz/1.4
User-agent: QueryN Metasearch
User-agent: Openfind data gathere
User-agent: Openfind
User-agent: Xenu's Link Sleuth 1.1c
User-agent: Xenu's
User-agent: Zeus
User-agent: RepoMonkey Bait & Tackle/v1.01
User-agent: RepoMonkey
User-agent: Microsoft URL Control
User-agent: Openbot
User-agent: URL Control
User-agent: Zeus Link Scout
User-agent: Zeus 32297 Webster Pro V2.9 Win32
User-agent: Webster Pro
User-agent: EroCrawler
User-agent: LinkScan/8.1a Unix
User-agent: Keyword Density/0.9
User-agent: Kenjin Spider
User-agent: Iron33/1.0.2
User-agent: Bookmark search tool
User-agent: GetRight/4.2
User-agent: FairAd Client
User-agent: Gaisbot
User-agent: Aqua_Products
User-agent: Radiation Retriever 1.1
User-agent: Flaming AttackBot
User-agent: Oracle Ulra Search
User-agent: MSIECrawler
User-agent: PerMan
User-agent: searchpreview

Vier sehr gute Listen die neben Kategorien (E-Mail Spider etc.) auch teilweise Erklärungen zu den Bot´s beinhalten.


__________________
Jan Stöver

Geändert von Jan Stöver (20.02.2005 um 00:11 Uhr).
  #3  
Alt 19.02.2005, 16:40
Benutzerbild von TRS
TRS TRS ist offline
Mitglied
 
Registriert seit: 02.2003
Ort: Berlin
Beiträge: 995
Entweder bin ich jetzt falsch informiert, aber seit wann halten sich Programme wie wget an eine robots.txt?

  #4  
Alt 19.02.2005, 16:44
Benutzerbild von Jan Stöver
Boardunity Team
 
Registriert seit: 12.2003
Ort: Lübeck
Beiträge: 2.326
Ich schrieb ja, dass es natürlich keine einhundertprozentige Sicherheit ist. Klar ist auch, dass sich einige Programme nicht an diesen Standard halten ...

__________________
Jan Stöver
  #5  
Alt 19.02.2005, 22:55
Benutzerbild von LonelyPixel
UNB-Entwickler
 
Registriert seit: 01.2004
Ort: Erlangen
Beiträge: 974
Warum auf robots.txt verlassen, wenn man die Zugriffsrechte per .htaccess auch erzwingen kann?

__________________
Yves Goergen
Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit)
  #6  
Alt 19.02.2005, 23:40
Benutzerbild von Jan Stöver
Boardunity Team
 
Registriert seit: 12.2003
Ort: Lübeck
Beiträge: 2.326
Klasse ...

Ne mal im Ernst - kann man hier noch normale Diskussionen führen oder sind wir zu einer Art "Schlaumeierkommentar" Gemeinschaft verkommen?

Dann zeige doch bitte einfach die deiner Meinung nach glänzenden Vorteile von htaccess auf, teile uns mit, wie du es machen würdest und wir alle können schauen, in wie weit man beides verbinden kann oder aus welcher Möglichkeit wir bessere Resultate schöpfen können.

Off-Topic:

Sorry wenn ich leicht angesäuert reagiere ... aber immer öfter ist es hier der Fall, dass Leute sich Arbeit machen und die mit einem nichtssagenden Einzeiler abgetan wird.
So hat es etwas von einem "wayne" Kommentar ... und den kann man sich echt sparen.
Hier sind viele Leute unterwegs, die sich glänzend ergänzen können ... aber viel zu oft posen Leute hier mit Wissen ohne dieses teilen zu wollen.

Nur meine 2 Pfennige.

__________________
Jan Stöver
  #7  
Alt 19.02.2005, 23:50
Mitglied
 
Registriert seit: 10.2003
Ort: Bottrop
Beiträge: 779
Irgendwie kannst du mit htaccess User-Agents sperren.
Habe jetzt nirgends nachgeschauen, aber das würde eher dem entsprechen, was du vorhast.

(Hmm... immerhin ein zwei-zeiler. *g*)

__________________
Patrick Gotthardt
Patrick Gotthardt on Software
  #8  
Alt 20.02.2005, 00:03
Benutzerbild von Jan Stöver
Boardunity Team
 
Registriert seit: 12.2003
Ort: Lübeck
Beiträge: 2.326
Zitat:
Zitat von TheDragonMaster
Irgendwie kannst du mit htaccess User-Agents sperren.
Habe jetzt nirgends nachgeschauen, aber das würde eher dem entsprechen, was du vorhast.

(Hmm... immerhin ein zwei-zeiler. *g*)
Ich weiss schon wie man das macht und wo man sich dazu schlau lesen kann ... z.B. http://www.abakus-internet-marketing...ic/t-8573.html

Es geht mir schlichtweg um das Prinzip ... es kann einfach nicht sein, dass man einen Kommentar im Stil von "Ich weiss was besseres - sags aber nicht" bekommt. Man soll ja keinen Roman schreiben (Einzeiler) aber mal ein wenig schauen, wo man sich selbst schlau gemacht hat ... womit man die beste Erfahrung hat etc. ... und das dann einfach mit anfügen. Schon ist jeder zufrieden. Ansonsten kann man auf jede Frage ein "Google hilft" schreiben und der Sinn eines Diskussionsforums ist dahin.

__________________
Jan Stöver
  #9  
Alt 20.02.2005, 00:24
Benutzerbild von LonelyPixel
UNB-Entwickler
 
Registriert seit: 01.2004
Ort: Erlangen
Beiträge: 974
Sorry, dachte sowas wäre gemeinhin bekannt, wenn schon so fortgeschrittene Methoden besprochen werden. Hab es nicht ausprobiert, aber ich verwende eine ähnliche Konstruktion auf meinen Webseiten und sowas müsste in etwa funktionieren:

SetEnvIfNoCase User-Agent ".*Indy Library.*" spambot=1

<Limit GET POST PUT>
Order Allow,Deny
Deny from env=spambot
Allow from all
</Limit>

__________________
Yves Goergen
Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit)
  #10  
Alt 20.02.2005, 09:17
Benutzerbild von MaMo
Viscacha Coder
 
Registriert seit: 09.2003
Beiträge: 812
Hallo.

Also ich würde, wie TDM schon vorgeschlagen hat, das ganze mal per USER_AGENT probieren:

PHP-Code:
<?php

// Function zum erkennen der Bots
function BotDetection () {
    
// Array mit Suchmaschinen-Daten, kann mit der obigen Liste natürlich beliebig erweitert werden
    
$bots = array (
'CherryPicker',
'EmailCollector',
'EmailSiphon',
'WebBandit',
'EmailWolf',
'ExtractorPro'
    
);

    
// prüfe jede SuMa
    
foreach ($bots as $spider) {
        
// Prüfe ob der HTTP_USER_AGENT vorhanden ist
        
if (stristr($_SERVER['HTTP_USER_AGENT'], $spider) !== FALSE) {
            
// Wenn ein Spider identifiziert wurde, gib TRUE zurück
            
return TRUE;
        }
    }
    
// wenn kein Spider identifiziert werden konnte melden FALSE zurück
    
return FALSE;
}

if (
BotDetection() == FALSE) {
    die(
'Nicht erlaubt!');
}
else {
    
// Normal weiter mit der Seite...
}

?>
Quelle: http://www.mamo-net.de/showtopic.php?id=47&board=2

Lässt sich jetzt darüber streiten, ob der Code so gut ist, aber das Prinzip funktioniert...

MfG MaMo

__________________
Forensoftware mit integriertem CMS: Viscacha 0.8!

Geändert von MaMo (20.02.2005 um 15:14 Uhr).
  #11  
Alt 20.02.2005, 11:55
Benutzerbild von LonelyPixel
UNB-Entwickler
 
Registriert seit: 01.2004
Ort: Erlangen
Beiträge: 974
Ja, funzt prinzipiell auch. Aber pass auf, stristr liefert 0 zurueck, wenn die Zeichenkette ganz am Anfang vorkommt, und FALSE, wenn sie nicht vorkommt. Du musst also explizit mit stristr(...) === FALSE pruefen, sonst kann es oft falsche Ergebnisse liefern.

__________________
Yves Goergen
Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit)
  #12  
Alt 20.02.2005, 14:27
Benutzerbild von MaMo
Viscacha Coder
 
Registriert seit: 09.2003
Beiträge: 812
Hi.

Steht doch da... nur halt nicht === sondern !==, oder hab ich da jetzt was total falsch verstanden?

MfG MaMo

__________________
Forensoftware mit integriertem CMS: Viscacha 0.8!
  #13  
Alt 20.02.2005, 14:50
Benutzerbild von MrNase
Mitglied
 
Registriert seit: 06.2003
Ort: /
Beiträge: 2.639
Dein Scriptstück funzt aber nicht.. Warum hast du nicht das von deiner Seite 1zu1 genommen? Bei dem von dir da oben ist das array() falsch

  #14  
Alt 20.02.2005, 15:14
Benutzerbild von MaMo
Viscacha Coder
 
Registriert seit: 09.2003
Beiträge: 812
So besser?
Wer es von der Seite will, der darf das auch gerne nehmen...

__________________
Forensoftware mit integriertem CMS: Viscacha 0.8!
  #15  
Alt 20.02.2005, 20:12
Benutzerbild von LonelyPixel
UNB-Entwickler
 
Registriert seit: 01.2004
Ort: Erlangen
Beiträge: 974
Zitat:
Zitat von MaMo
Steht doch da...
Falls das heute morgen auch schon da stand, hab ich's bloß übersehen. Sorry.

__________________
Yves Goergen
Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit)
  #16  
Alt 12.05.2005, 18:00
neues Mitglied
 
Registriert seit: 05.2005
Beiträge: 3
nabend!

warum geht ihr alle nach einer blacklist? sprich alles das aufgelistet ist, wird blockiert. da ist es doch klüger nur das zuzulassen das auf der liste steht.

meine htaccess sieht foldendermassen aus:

Code:
SetEnvIf User-Agent ^Mozilla/4.0 let_me_in
SetEnvIf User-Agent ^Mozilla/5.0 let_me_in
SetEnvIf User-Agent ^Opera/ let_me_in
Deny from all
Allow from env=let_me_in
und wer bei einer ablehnung des useragents auf eine andere seite lenken möchte, kann das mit dieser zeile tun:

Code:
ErrorDocument 403 http://www.google.at/
somit werden die mozilla basierenden browser der version 4 (zB MSIE), 5 (zB FireFox) und allen opera versionen der zugang erlaubt, alle anderen browser werden jedoch auf eine andere seite umgelenkt.

mls Kobold

  #17  
Alt 12.05.2005, 18:04
Benutzerbild von MrNase
Mitglied
 
Registriert seit: 06.2003
Ort: /
Beiträge: 2.639
Tolle Idee, dazu möchte ich dir gerne gratulieren. Das es aber mehr Browser gibt als MSIE, Opera und FF hast du noch nicht erkannt? Die Idee würd' ich schnellstens nochmal überdenken ansonsten kann man deiner Seiten den 'Ignoranz-Award der Behindertenvereinigung' (Name erfunden) geben

  #18  
Alt 12.05.2005, 18:44
neues Mitglied
 
Registriert seit: 05.2005
Beiträge: 3
und das selbe für php:

PHP-Code:
<?php
  $moz4 
strpos($_SERVER['HTTP_USER_AGENT'], 'Mozilla/4.0');
  
$moz5 strpos($_SERVER['HTTP_USER_AGENT'], 'Mozilla/5.0');
  
$opera strpos($_SERVER['HTTP_USER_AGENT'], 'Opera/');

  if(
<= substr(phpversion(), 01)) {
    if(
$moz4 === false && $moz5 === false && $opera === false) {
      
header('Location:http://www.google.at/'); exit;
    }
  } else {
    if(
is_string($moz4) && !$moz4 && is_string($moz5) && !$moz5 && is_string($opera) && !$opera) {
      
header('Location:http://www.google.at/'); exit;
    }
  }
?>

  #19  
Alt 12.05.2005, 18:52
Benutzerbild von exe
exe exe ist offline
titellos
 
Registriert seit: 07.2003
Ort: München
Beiträge: 888
Dabei sperrst du gleichzeitig auch alle Suchmaschinenen aus, das nur so nebenbei. Eigentlich spielt es keine Rolle ob man alle User-Agents aussperrt die man nicht haben will oder nur die erlaubt, die man haben will. Im ersteren Fall erwischst du nicht alle User-Agents da du nicht alle kennst, im zweiten Fall lässt du nicht genügend zu, da du nicht alle Suchmaschinen und Browser neben Mozilla und IE kennst.

Allerdings ist es besser eventuelle Spider nicht zu erwischen als potentielle Besucher oder Suchmaschinen auszuschliessen.

__________________
Johannes Klose
Calitrix Wiki - Wiki auf Basis von PHP und MySQL
  #20  
Alt 12.05.2005, 19:03
neues Mitglied
 
Registriert seit: 05.2005
Beiträge: 3
Zitat:
Zitat von MrNase
Tolle Idee, dazu möchte ich dir gerne gratulieren. Das es aber mehr Browser gibt als MSIE, Opera und FF hast du noch nicht erkannt? Die Idee würd' ich schnellstens nochmal überdenken ansonsten kann man deiner Seiten den 'Ignoranz-Award der Behindertenvereinigung' (Name erfunden) geben
ein toller sarkasmus, dazu möchte ich dir gratulieren. das es weit mehr als nur ie, moz und opera gibt ist selbst mir bewusst. allerdings logge ich jeden zugriff und werte die useragents aus meiner log datei aus und auch derer grosser seiten und da stosse ich bisher nur auf die 3 oben genannten browser. ich habe bishher noch nie den useragent eines browsers für körperlich behinderte menschen gelesen. sollte ich einen finden, füge ich ihn aber gerne zur liste hinzu.

aber mal davon ganz abgesehen, stellt meine seite eine fanpage einer community (ähnlich uboot.com, allerdings nur viel kleiner und verrückter) dar, wobei ich praktisch fast jeden user der die seite besucht persönlich kenne. und da von diesen keiner eine körperliche behinderung hat, die ihm in irgendeiner form einschrenken würde, sehe ich auch keinen grund jede nur erdenkliche anzeigesoftware zugang zu gewähren. die seite ist nun mal nur für einen geringen teil von usern gedacht auf die sie auch abgestimmt ist.

also, erst informieren und dann erst mit awards um sich werfen.

mls Kobold

  #21  
Alt 12.05.2005, 19:12
Benutzerbild von MrNase
Mitglied
 
Registriert seit: 06.2003
Ort: /
Beiträge: 2.639
Kein Grund gleich pampig zu werden

Mein Beitrag sollte nur dazu dienen dir die Augen zu öffnen. Ich habe sicherlich schon einiges an Dummheit erlebt und du wärst nicht der erste der eine vermeintlich gute Idee nicht allzu gut durchdacht hat und somit unwissentlich Benutzer ausgesperrt hat.

Bzgl. des netten Hinweises, dass ich mich vorher doch einmal informieren könnte kann ich dir nur folgendes sagen: In der Boardunity kenne ich die meisten aktiven Mitglieder äusserst genau und weiss welche Seiten sie besitzen. Wenn du nun in deinem ersten Beitrag direkt ein so kontroverses Thema anschneidest könntest du ein paar mehr Informationen über den Hintergrund liefern (und uns die Community eventuell mal hier vorstellen). Sicherlich könnte ich das Internet auch nach 'Kobold' absuchen aber.. Ich denke mal nicht, dass du das hier bist:
http://images.google.de/images?q=tbn...obold-game.gif


Also schieb mir nicht den Joker in die Schuhe. Mein Beitrag war, trotz der Ironie, nur als Hilfe gedacht.

  #22  
Alt 12.05.2005, 20:22
Benutzerbild von TRS
TRS TRS ist offline
Mitglied
 
Registriert seit: 02.2003
Ort: Berlin
Beiträge: 995
Zitat:
Zitat von Kobold
ich habe bishher noch nie den useragent eines browsers für körperlich behinderte menschen gelesen. sollte ich einen finden, füge ich ihn aber gerne zur liste hinzu.
Es hilft aber nicht dem Nutzer, der von dir ausgesperrt wird - Dieser kommt nämlich nicht wieder, weil er auf deiner Seite nichts gefunden habe. Dazu kommen dann auch die Nutzer, die unter Umständen durch Firewall oder sonstigen Werkzeuge ihre Spuren verwischen.

Gruß

  #23  
Alt 12.05.2005, 22:52
Benutzerbild von Luki
Administrator
 
Registriert seit: 02.2004
Ort: Hamburg
Beiträge: 486
habe das Thema jetzt nicht studiert allerdings in meinen Statistiken festgestellt, das diese ganzen neuen Pseudo Suchmaschinen sich als Googlebot vom Useragent her ausgeben, allerdings keine Google IP tragen...

ich hatte das mal im Abakus Forum näher ausgeführt!
oder habt ihr bei Euch schonmal den Subot gesehen?

also kann man das Thema eigentlich schliessen, da checken nach Useragent nichts bringt!

Antwort


Stichworte
contentklau, robots.txt

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Content Leserechte teilweise einschränken ja oder nein Metro Man Community Management, Administration und Moderation 4 28.11.2004 13:49






1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25