![]() |
robots.txt für Ausnahmen von SMF anpassen? Hallo, leider bemerkte ich doch des öfteren das sich die Suchmaschienen Spider des öfteren unnötigerweise u.a. in meinem Forum-Login- und Register-Bereich herumtreiben. Hab jetzt mal an eine robots.txt erstellt die dies eigentlich zukünftig verhindern sollte ;) robots.txt Code: User-agent: * Darauf gekommen bin ich mittels dieses kleinen Testtools: Robot Rules Parser mit dem Zugriff der Spider simuliert werden können :) Weiß jemand Rat? Möchte das die Spider folgendes auch NICHT durchspidern: /index.php?action=login /index.php?action=register /index.php?action=recent /index.php?action=search /index.php?action=profile* /index.php?action=printpage* /index.php?action=.xml* .:.geber.:. |
Du hast mehrere Möglichkeiten:
|
Zitat:
Zitat:
/random.php /attachments /avatars funktioniert ja. Es geht um das sperren der folgenden Dokumenten aufrufe: /index.php?action=login /index.php?action=register /index.php?action=recent /index.php?action=search /index.php?action=profile* /index.php?action=printpage* /index.php?action=.xml* :( Zitat:
.:.geber.:. |
Dann nimm halt <meta name="robots" content="noindex,follow"> |
Die Frage ist eher ob man das '?' nicht escapen muss damit die Spider es lesen können?! |
Wildcards (also *) wird nur von Google unterstützt. Allerdings hällt sich kein Bot 100% an die robots.txt, die Seiten die dort gesperrt sind werden zwar nicht in den Index aufgenommen, aber gespidert werden sie trozdem. Am besten blendest du so viel wie möglich an Links für Gäste aus, wobei selbst dann die Seiten vom Bot besucht werden wenn sie von einem User mit Google-Toolbar aufgerufen werden. Komplett verhindern das Google auch Seiten spidert die es eigentlich nichts angeht hab ich auch schon mehrmals versucht, aber noch nie geschafft. Hast du einen Sitemaps-Account? Wenn nicht wurde ich das einen anlegen, da bekommst du zumindest mal Informationen was Google spidert und wo es zu fehlern kommt. Die Infos bekommt man auch wenn man keine Sitemap eingereicht hat. @MrNase: Das ? muss in der robots.txt nicht escaped werden. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 23:56 Uhr. |