#1
| ||||
| ||||
Content Klau mittels robots.txt einschränkenOb E-Mail Spider, Imagethief oder gar ein kompletter Webseitengrabber ... automatisch und mit wenigen Klicks des Benutzers durchstöbern sie unsere Seiten nach verwertbarem Inhalt und erlauben es sogar unsere ganze Arbeit auf die heimische Platte eines Dritten zu verfrachten. Hier können wir ja mal Inhalt für eine robots.txt sammeln, die diesen Bots den Zugriff auf unsere Inhalte verbietet. Ein sicherer Schutz ist das natürlich nicht. Aber garnicht vorzubeugen bringt schliesslich auch nichts. Ich habe aus verschiedenen Quellen und Beiträgen zu diesem Thema mal eine beachtliche Liste an Bot´s heraus gesucht. Es würde mich freuen, wenn wir diese Liste ein wenig aktuell halten würden. Wenn ihr also einen euch bekannten Robot vermisst, eure vorhandene robots.txt Datei weitere Bot´s enthält oder ihr von neuen Exemplaren erfahrt, dann schreibt sie hier bitte rein. Die bereits eingetragenen User-Agents sind im zweiten Beitrag gelistet. Die Nutzung in der Robots.txt: # Allen Robots den Weg in ein bestimmtes Verzeichnis verweigern User-agent: * Disallow: /verzeichnis/ # Allen Robots den Weg in mehrere bestimmte Verzeichnisse verweigern User-agent: * Disallow: /verzeichnis 1/ Disallow: /verzeichnis 2/ Disallow: /verzeichnis 3/ # Einzeln definierte Robots den Weg in ein bestimmtes Verzeichnis verweigern User-agent: wget User-agent: webzip User-agent: webmirror User-agent: webcopy Disallow: /verzeichnis/ # Einzeln definierte Robots den Weg in mehrere bestimmte Verzeichnisse verweigern User-agent: wget User-agent: webzip User-agent: webmirror User-agent: webcopy Disallow: /verzeichnis 1/ Disallow: /verzeichnis 2/ Disallow: /verzeichnis 3/ # Allen Robots den Weg auf die ganze Seite verweigern (nicht gut für SuMa!) User-agent: * Disallow: / # Definierten Robots den Weg auf die ganze Seite verweigern (kein Einfluss auf SuMa!) User-agent: wget User-agent: webzip User-agent: webmirror User-agent: webcopy Disallow: / # Wir können auch bestimmte Dateien schützen User-agent: * Disallow: /impressum.html Wenn wir Verzeichnisse schützen ist der Endslash (/verzeichnis/) äusserst wichtig. Würden wir den vergessen und z.B. das Verzeichnis /index ohne Endslash schützen, würden die Robots auch nichts mehr indexieren, was mit index anfängt ... so z.B. eine index.html ... das wäre für SuMa Robots natürlich fatal. Weiterführende Links: selfhtml.org | Suchfiebel | Abakus | Robots.txt Validator | Wikipedia __________________ Jan Stöver |
#2
| ||||
| ||||
Bekannte User-Agents, die z.B. zum Content-Klau oder E-Mail spidern dienen. User-agent: HTTrack User-agent: grub-client User-agent: grub User-agent: looksmart User-agent: WebZip User-agent: larbin User-agent: b2w/0.1 User-agent: psbot User-agent: Python-urllib User-agent: NetMechanic User-agent: URL_Spider_Pro User-agent: CherryPicker User-agent: EmailCollector User-agent: EmailSiphon User-agent: WebBandit User-agent: EmailWolf User-agent: ExtractorPro User-agent: CopyRightCheck User-agent: Crescent User-agent: SiteSnagger User-agent: ProWebWalker User-agent: CheeseBot User-agent: LNSpiderguy User-agent: ia_archiver User-agent: ia_archiver/1.6 User-agent: Teleport User-agent: TeleportPro User-agent: MIIxpc User-agent: Telesoft User-agent: Website Quester User-agent: moget/2.1 User-agent: WebZip/4.0 User-agent: WebStripper User-agent: WebSauger User-agent: WebCopier User-agent: NetAnts User-agent: Mister PiX User-agent: WebAuto User-agent: TheNomad User-agent: WWW-Collector-E User-agent: RMA User-agent: libWeb/clsHTTP User-agent: asterias User-agent: httplib User-agent: turingos User-agent: spanner User-agent: InfoNaviRobot User-agent: Harvest/1.5 User-agent: Bullseye/1.0 User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95) User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0 User-agent: CherryPickerSE/1.0 User-agent: CherryPickerElite/1.0 User-agent: WebBandit/3.50 User-agent: NICErsPRO User-agent: Microsoft URL Control - 5.01.4511 User-agent: DittoSpyder User-agent: Foobot User-agent: WebmasterWorldForumBot User-agent: SpankBot User-agent: BotALot User-agent: lwp-trivial/1.34 User-agent: lwp-trivial User-agent: BunnySlippers User-agent: Microsoft URL Control - 6.00.8169 User-agent: URLy Warning User-agent: Wget/1.6 User-agent: Wget/1.5.3 User-agent: Wget User-agent: LinkWalker User-agent: cosmos User-agent: moget User-agent: hloader User-agent: humanlinks User-agent: LinkextractorPro User-agent: Offline Explorer User-agent: Mata Hari User-agent: LexiBot User-agent: Web Image Collector User-agent: The Intraformant User-agent: True_Robot/1.0 User-agent: True_Robot User-agent: BlowFish/1.0 User-agent: JennyBot User-agent: MIIxpc/4.2 User-agent: BuiltBotTough User-agent: ProPowerBot/2.14 User-agent: BackDoorBot/1.0 User-agent: toCrawl/UrlDispatcher User-agent: WebEnhancer User-agent: suzuran User-agent: VCI WebViewer VCI WebViewer Win32 User-agent: VCI User-agent: Szukacz/1.4 User-agent: QueryN Metasearch User-agent: Openfind data gathere User-agent: Openfind User-agent: Xenu's Link Sleuth 1.1c User-agent: Xenu's User-agent: Zeus User-agent: RepoMonkey Bait & Tackle/v1.01 User-agent: RepoMonkey User-agent: Microsoft URL Control User-agent: Openbot User-agent: URL Control User-agent: Zeus Link Scout User-agent: Zeus 32297 Webster Pro V2.9 Win32 User-agent: Webster Pro User-agent: EroCrawler User-agent: LinkScan/8.1a Unix User-agent: Keyword Density/0.9 User-agent: Kenjin Spider User-agent: Iron33/1.0.2 User-agent: Bookmark search tool User-agent: GetRight/4.2 User-agent: FairAd Client User-agent: Gaisbot User-agent: Aqua_Products User-agent: Radiation Retriever 1.1 User-agent: Flaming AttackBot User-agent: Oracle Ulra Search User-agent: MSIECrawler User-agent: PerMan User-agent: searchpreview Vier sehr gute Listen die neben Kategorien (E-Mail Spider etc.) auch teilweise Erklärungen zu den Bot´s beinhalten. __________________ Jan Stöver Geändert von Jan Stöver (20.02.2005 um 00:11 Uhr). |
#3
| ||||
| ||||
Entweder bin ich jetzt falsch informiert, aber seit wann halten sich Programme wie wget an eine robots.txt? |
#4
| ||||
| ||||
Ich schrieb ja, dass es natürlich keine einhundertprozentige Sicherheit ist. Klar ist auch, dass sich einige Programme nicht an diesen Standard halten ... __________________ Jan Stöver |
#5
| ||||
| ||||
Warum auf robots.txt verlassen, wenn man die Zugriffsrechte per .htaccess auch erzwingen kann? __________________ Yves Goergen Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit) |
#6
| ||||
| ||||
Klasse ... Ne mal im Ernst - kann man hier noch normale Diskussionen führen oder sind wir zu einer Art "Schlaumeierkommentar" Gemeinschaft verkommen? Dann zeige doch bitte einfach die deiner Meinung nach glänzenden Vorteile von htaccess auf, teile uns mit, wie du es machen würdest und wir alle können schauen, in wie weit man beides verbinden kann oder aus welcher Möglichkeit wir bessere Resultate schöpfen können. Off-Topic: Sorry wenn ich leicht angesäuert reagiere ... aber immer öfter ist es hier der Fall, dass Leute sich Arbeit machen und die mit einem nichtssagenden Einzeiler abgetan wird. So hat es etwas von einem "wayne" Kommentar ... und den kann man sich echt sparen. Hier sind viele Leute unterwegs, die sich glänzend ergänzen können ... aber viel zu oft posen Leute hier mit Wissen ohne dieses teilen zu wollen. Nur meine 2 Pfennige. __________________ Jan Stöver |
#7
| |||
| |||
Irgendwie kannst du mit htaccess User-Agents sperren. Habe jetzt nirgends nachgeschauen, aber das würde eher dem entsprechen, was du vorhast. (Hmm... immerhin ein zwei-zeiler. *g*) __________________ Patrick Gotthardt Patrick Gotthardt on Software |
#8
| ||||
| ||||
Zitat:
Es geht mir schlichtweg um das Prinzip ... es kann einfach nicht sein, dass man einen Kommentar im Stil von "Ich weiss was besseres - sags aber nicht" bekommt. Man soll ja keinen Roman schreiben (Einzeiler) aber mal ein wenig schauen, wo man sich selbst schlau gemacht hat ... womit man die beste Erfahrung hat etc. ... und das dann einfach mit anfügen. Schon ist jeder zufrieden. Ansonsten kann man auf jede Frage ein "Google hilft" schreiben und der Sinn eines Diskussionsforums ist dahin. __________________ Jan Stöver |
#9
| ||||
| ||||
Sorry, dachte sowas wäre gemeinhin bekannt, wenn schon so fortgeschrittene Methoden besprochen werden. Hab es nicht ausprobiert, aber ich verwende eine ähnliche Konstruktion auf meinen Webseiten und sowas müsste in etwa funktionieren: SetEnvIfNoCase User-Agent ".*Indy Library.*" spambot=1 <Limit GET POST PUT> Order Allow,Deny Deny from env=spambot Allow from all </Limit> __________________ Yves Goergen Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit) |
#10
| ||||
| ||||
Hallo. Also ich würde, wie TDM schon vorgeschlagen hat, das ganze mal per USER_AGENT probieren: PHP-Code: Lässt sich jetzt darüber streiten, ob der Code so gut ist, aber das Prinzip funktioniert... MfG MaMo __________________ Forensoftware mit integriertem CMS: Viscacha 0.8! Geändert von MaMo (20.02.2005 um 15:14 Uhr). |
#11
| ||||
| ||||
Ja, funzt prinzipiell auch. Aber pass auf, stristr liefert 0 zurueck, wenn die Zeichenkette ganz am Anfang vorkommt, und FALSE, wenn sie nicht vorkommt. Du musst also explizit mit stristr(...) === FALSE pruefen, sonst kann es oft falsche Ergebnisse liefern. __________________ Yves Goergen Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit) |
#12
| ||||
| ||||
Hi. Steht doch da... nur halt nicht === sondern !==, oder hab ich da jetzt was total falsch verstanden? MfG MaMo __________________ Forensoftware mit integriertem CMS: Viscacha 0.8! |
#13
| ||||
| ||||
Dein Scriptstück funzt aber nicht.. Warum hast du nicht das von deiner Seite 1zu1 genommen? Bei dem von dir da oben ist das array() falsch |
#14
| ||||
| ||||
So besser? Wer es von der Seite will, der darf das auch gerne nehmen... __________________ Forensoftware mit integriertem CMS: Viscacha 0.8! |
#15
| ||||
| ||||
Zitat:
__________________ Yves Goergen Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit) |
#16
| |||
| |||
nabend! warum geht ihr alle nach einer blacklist? sprich alles das aufgelistet ist, wird blockiert. da ist es doch klüger nur das zuzulassen das auf der liste steht. meine htaccess sieht foldendermassen aus: Code: SetEnvIf User-Agent ^Mozilla/4.0 let_me_in SetEnvIf User-Agent ^Mozilla/5.0 let_me_in SetEnvIf User-Agent ^Opera/ let_me_in Deny from all Allow from env=let_me_in Code: ErrorDocument 403 http://www.google.at/ mls Kobold |
#17
| ||||
| ||||
Tolle Idee, dazu möchte ich dir gerne gratulieren. Das es aber mehr Browser gibt als MSIE, Opera und FF hast du noch nicht erkannt? Die Idee würd' ich schnellstens nochmal überdenken ansonsten kann man deiner Seiten den 'Ignoranz-Award der Behindertenvereinigung' (Name erfunden) geben |
#18
| |||
| |||
und das selbe für php: PHP-Code: |
#19
| ||||
| ||||
Dabei sperrst du gleichzeitig auch alle Suchmaschinenen aus, das nur so nebenbei. Eigentlich spielt es keine Rolle ob man alle User-Agents aussperrt die man nicht haben will oder nur die erlaubt, die man haben will. Im ersteren Fall erwischst du nicht alle User-Agents da du nicht alle kennst, im zweiten Fall lässt du nicht genügend zu, da du nicht alle Suchmaschinen und Browser neben Mozilla und IE kennst. Allerdings ist es besser eventuelle Spider nicht zu erwischen als potentielle Besucher oder Suchmaschinen auszuschliessen. __________________ Johannes Klose Calitrix Wiki - Wiki auf Basis von PHP und MySQL |
#20
| |||
| |||
Zitat:
aber mal davon ganz abgesehen, stellt meine seite eine fanpage einer community (ähnlich uboot.com, allerdings nur viel kleiner und verrückter) dar, wobei ich praktisch fast jeden user der die seite besucht persönlich kenne. und da von diesen keiner eine körperliche behinderung hat, die ihm in irgendeiner form einschrenken würde, sehe ich auch keinen grund jede nur erdenkliche anzeigesoftware zugang zu gewähren. die seite ist nun mal nur für einen geringen teil von usern gedacht auf die sie auch abgestimmt ist. also, erst informieren und dann erst mit awards um sich werfen. mls Kobold |
#21
| ||||
| ||||
Kein Grund gleich pampig zu werden Mein Beitrag sollte nur dazu dienen dir die Augen zu öffnen. Ich habe sicherlich schon einiges an Dummheit erlebt und du wärst nicht der erste der eine vermeintlich gute Idee nicht allzu gut durchdacht hat und somit unwissentlich Benutzer ausgesperrt hat. Bzgl. des netten Hinweises, dass ich mich vorher doch einmal informieren könnte kann ich dir nur folgendes sagen: In der Boardunity kenne ich die meisten aktiven Mitglieder äusserst genau und weiss welche Seiten sie besitzen. Wenn du nun in deinem ersten Beitrag direkt ein so kontroverses Thema anschneidest könntest du ein paar mehr Informationen über den Hintergrund liefern (und uns die Community eventuell mal hier vorstellen). Sicherlich könnte ich das Internet auch nach 'Kobold' absuchen aber.. Ich denke mal nicht, dass du das hier bist: http://images.google.de/images?q=tbn...obold-game.gif Also schieb mir nicht den Joker in die Schuhe. Mein Beitrag war, trotz der Ironie, nur als Hilfe gedacht. |
#22
| ||||
| ||||
Zitat:
Gruß |
#23
| ||||
| ||||
habe das Thema jetzt nicht studiert allerdings in meinen Statistiken festgestellt, das diese ganzen neuen Pseudo Suchmaschinen sich als Googlebot vom Useragent her ausgeben, allerdings keine Google IP tragen... ich hatte das mal im Abakus Forum näher ausgeführt! oder habt ihr bei Euch schonmal den Subot gesehen? also kann man das Thema eigentlich schliessen, da checken nach Useragent nichts bringt! |
Stichworte |
contentklau, robots.txt |
Ähnliche Themen | ||||
Thema | Autor | Forum | Antworten | Letzter Beitrag |
Content Leserechte teilweise einschränken ja oder nein | Metro Man | Community Management, Administration und Moderation | 4 | 28.11.2004 13:49 |