#1
| |||
| |||
robots.txt für Ausnahmen von SMF anpassen?Hallo, leider bemerkte ich doch des öfteren das sich die Suchmaschienen Spider des öfteren unnötigerweise u.a. in meinem Forum-Login- und Register-Bereich herumtreiben. Hab jetzt mal an eine robots.txt erstellt die dies eigentlich zukünftig verhindern sollte robots.txt Code: User-agent: * Disallow: /index.php?action=login Disallow: /index.php?action=register Disallow: /index.php?action=recent Disallow: /index.php?action=search Disallow: /index.php?action=profile Disallow: /index.php?action=printpage Disallow: /index.php?action=.xml Disallow: /random.php Disallow: /attachments Disallow: /avatars Darauf gekommen bin ich mittels dieses kleinen Testtools: Robot Rules Parser mit dem Zugriff der Spider simuliert werden können Weiß jemand Rat? Möchte das die Spider folgendes auch NICHT durchspidern: /index.php?action=login /index.php?action=register /index.php?action=recent /index.php?action=search /index.php?action=profile* /index.php?action=printpage* /index.php?action=.xml* .:.geber.:. __________________ i read your e-mail |
#2
| ||||
| ||||
Du hast mehrere Möglichkeiten:
__________________ Tobias hx3.de, Armed-Assault.de, Armed-Assault.net |
#3
| |||
| |||
So tief möchte ich in die Forensoftware nicht eingreifen Zitat:
/random.php /attachments /avatars funktioniert ja. Es geht um das sperren der folgenden Dokumenten aufrufe: /index.php?action=login /index.php?action=register /index.php?action=recent /index.php?action=search /index.php?action=profile* /index.php?action=printpage* /index.php?action=.xml* Zitat:
.:.geber.:. __________________ i read your e-mail |
#4
| ||||
| ||||
Dann nimm halt <meta name="robots" content="noindex,follow"> __________________ Forensoftware mit integriertem CMS: Viscacha 0.8! |
#5
| ||||
| ||||
Die Frage ist eher ob man das '?' nicht escapen muss damit die Spider es lesen können?! |
#6
| ||||
| ||||
Wildcards (also *) wird nur von Google unterstützt. Allerdings hällt sich kein Bot 100% an die robots.txt, die Seiten die dort gesperrt sind werden zwar nicht in den Index aufgenommen, aber gespidert werden sie trozdem. Am besten blendest du so viel wie möglich an Links für Gäste aus, wobei selbst dann die Seiten vom Bot besucht werden wenn sie von einem User mit Google-Toolbar aufgerufen werden. Komplett verhindern das Google auch Seiten spidert die es eigentlich nichts angeht hab ich auch schon mehrmals versucht, aber noch nie geschafft. Hast du einen Sitemaps-Account? Wenn nicht wurde ich das einen anlegen, da bekommst du zumindest mal Informationen was Google spidert und wo es zu fehlern kommt. Die Infos bekommt man auch wenn man keine Sitemap eingereicht hat. @MrNase: Das ? muss in der robots.txt nicht escaped werden. __________________ Tobias Schäfer Gruß Tobi Mein Blog |
Stichworte |
robots.txt |
Ähnliche Themen | ||||
Thema | Autor | Forum | Antworten | Letzter Beitrag |
vBGarage auf vB 3.5 anpassen | MrNase | Web Design und Grafik | 0 | 27.07.2005 21:21 |
Content Klau mittels robots.txt einschränken | Jan Stöver | Suchmaschinenoptimierung (SEO) & -Marketing (SEM) | 22 | 12.05.2005 22:52 |
Wie den News-Ticker an die Website anpassen? | Silmarillion | Programmierung und Datenbanken | 24 | 25.01.2005 15:52 |
Design eines Forums einen Spiel anpassen... | Christopher | Onlinerecht, Datenschutz und Sicherheit | 4 | 06.03.2004 00:47 |