Zur Boardunity Forenstartseite
  #1  
Alt 05.12.2006, 22:24
Mitglied
 
Registriert seit: 10.2003
Beiträge: 18

robots.txt für Ausnahmen von SMF anpassen?


Hallo,

leider bemerkte ich doch des öfteren das sich die Suchmaschienen Spider des öfteren unnötigerweise u.a. in meinem Forum-Login- und Register-Bereich herumtreiben.

Hab jetzt mal an eine robots.txt erstellt die dies eigentlich zukünftig verhindern sollte

robots.txt
Code:
User-agent: *
Disallow: /index.php?action=login
Disallow: /index.php?action=register
Disallow: /index.php?action=recent
Disallow: /index.php?action=search
Disallow: /index.php?action=profile
Disallow: /index.php?action=printpage
Disallow: /index.php?action=.xml
Disallow: /random.php
Disallow: /attachments
Disallow: /avatars
Aber leider werden die Disallow-Angaben nach dem ? ignoriert
Darauf gekommen bin ich mittels dieses kleinen Testtools:

Robot Rules Parser

mit dem Zugriff der Spider simuliert werden können

Weiß jemand Rat? Möchte das die Spider folgendes auch NICHT durchspidern:

/index.php?action=login
/index.php?action=register
/index.php?action=recent
/index.php?action=search
/index.php?action=profile*
/index.php?action=printpage*
/index.php?action=.xml*


.:.geber.:.
__________________
i read your e-mail
  #2  
Alt 06.12.2006, 14:40
Benutzerbild von Lima
TheRoot™
 
Registriert seit: 09.2005
Ort: Bremen
Beiträge: 121
Du hast mehrere Möglichkeiten:
  • Links zu den Seiten mit rel="nofollow" ausstatten
  • Mod Rewrite und dann die Verzeichnisse via robots.txt bzw. htaccess sperren
  • <meta name="robots" content="noindex,nofollow"> in dern head der Seiten

__________________
Tobias
hx3.de, Armed-Assault.de, Armed-Assault.net
  #3  
Alt 06.12.2006, 16:00
Mitglied
 
Registriert seit: 10.2003
Beiträge: 18
Zitat:
Zitat von Lima Beitrag anzeigen
...
  • Links zu den Seiten mit rel="nofollow" ausstatten
    ...
So tief möchte ich in die Forensoftware nicht eingreifen

Zitat:
Zitat von Lima Beitrag anzeigen
...
  • ...
  • Mod Rewrite und dann die Verzeichnisse via robots.txt bzw. htaccess sperren
    ...
Das sperren der folgenden Angaben:

/random.php
/attachments
/avatars

funktioniert ja. Es geht um das sperren der folgenden Dokumenten aufrufe:

/index.php?action=login
/index.php?action=register
/index.php?action=recent
/index.php?action=search
/index.php?action=profile*
/index.php?action=printpage*
/index.php?action=.xml*



Zitat:
Zitat von Lima Beitrag anzeigen
...
  • ...
  • <meta name="robots" content="noindex,nofollow"> in dern head der Seiten
Den Rest sollen die Spider ja spidern


.:.geber.:.

__________________
i read your e-mail
  #4  
Alt 06.12.2006, 16:31
Benutzerbild von MaMo
Viscacha Coder
 
Registriert seit: 09.2003
Beiträge: 758
Dann nimm halt <meta name="robots" content="noindex,follow">

__________________
Forensoftware mit integriertem CMS: Viscacha 0.8!
  #5  
Alt 06.12.2006, 20:17
Benutzerbild von MrNase
Mitglied
 
Registriert seit: 06.2003
Ort: /
Beiträge: 2.605
Die Frage ist eher ob man das '?' nicht escapen muss damit die Spider es lesen können?!

  #6  
Alt 08.12.2006, 01:23
Benutzerbild von Tobias Schäfer
Rinser
 
Registriert seit: 03.2005
Ort: Stuttgart
Beiträge: 61
Wildcards (also *) wird nur von Google unterstützt. Allerdings hällt sich kein Bot 100% an die robots.txt, die Seiten die dort gesperrt sind werden zwar nicht in den Index aufgenommen, aber gespidert werden sie trozdem.
Am besten blendest du so viel wie möglich an Links für Gäste aus, wobei selbst dann die Seiten vom Bot besucht werden wenn sie von einem User mit Google-Toolbar aufgerufen werden. Komplett verhindern das Google auch Seiten spidert die es eigentlich nichts angeht hab ich auch schon mehrmals versucht, aber noch nie geschafft. Hast du einen Sitemaps-Account? Wenn nicht wurde ich das einen anlegen, da bekommst du zumindest mal Informationen was Google spidert und wo es zu fehlern kommt. Die Infos bekommt man auch wenn man keine Sitemap eingereicht hat.

@MrNase:
Das ? muss in der robots.txt nicht escaped werden.

__________________
Tobias Schäfer
Gruß Tobi

Mein Blog
Antwort


Stichworte
robots.txt

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
vBGarage auf vB 3.5 anpassen MrNase Web Design und Grafik 0 27.07.2005 20:21
Content Klau mittels robots.txt einschränken Jan Stöver Suchmaschinenoptimierung (SEO) & -Marketing (SEM) 22 12.05.2005 21:52
Wie den News-Ticker an die Website anpassen? Silmarillion Programmierung und Datenbanken 24 25.01.2005 14:52
Design eines Forums einen Spiel anpassen... Christopher Onlinerecht, Datenschutz und Sicherheit 4 05.03.2004 23:47






1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24