Boardunity & Video Forum

Boardunity & Video Forum (https://boardunity.de/)
-   Suchmaschinenoptimierung (SEO) & -Marketing (SEM) (https://boardunity.de/suchmaschinenoptimierung-seo-marketing-sem-f85.html)
-   -   robots.txt für Ausnahmen von SMF anpassen? (https://boardunity.de/robots-txt-f-r-ausnahmen-smf-anpassen-t4550.html)

geber 05.12.2006 23:24

robots.txt für Ausnahmen von SMF anpassen?
 
Hallo,

leider bemerkte ich doch des öfteren das sich die Suchmaschienen Spider des öfteren unnötigerweise u.a. in meinem Forum-Login- und Register-Bereich herumtreiben.

Hab jetzt mal an eine robots.txt erstellt die dies eigentlich zukünftig verhindern sollte ;)

robots.txt
Code:

User-agent: *
Disallow: /index.php?action=login
Disallow: /index.php?action=register
Disallow: /index.php?action=recent
Disallow: /index.php?action=search
Disallow: /index.php?action=profile
Disallow: /index.php?action=printpage
Disallow: /index.php?action=.xml
Disallow: /random.php
Disallow: /attachments
Disallow: /avatars

Aber leider werden die Disallow-Angaben nach dem ? ignoriert :confused:
Darauf gekommen bin ich mittels dieses kleinen Testtools:

Robot Rules Parser

mit dem Zugriff der Spider simuliert werden können :)

Weiß jemand Rat? Möchte das die Spider folgendes auch NICHT durchspidern:

/index.php?action=login
/index.php?action=register
/index.php?action=recent
/index.php?action=search
/index.php?action=profile*
/index.php?action=printpage*
/index.php?action=.xml*


.:.geber.:.

Lima 06.12.2006 15:40

Du hast mehrere Möglichkeiten:
  • Links zu den Seiten mit rel="nofollow" ausstatten
  • Mod Rewrite und dann die Verzeichnisse via robots.txt bzw. htaccess sperren
  • <meta name="robots" content="noindex,nofollow"> in dern head der Seiten

geber 06.12.2006 17:00

Zitat:

Zitat von Lima (Beitrag 38024)
...
  • Links zu den Seiten mit rel="nofollow" ausstatten
    ...

So tief möchte ich in die Forensoftware nicht eingreifen :rolleyes:

Zitat:

Zitat von Lima (Beitrag 38024)
...
  • ...
  • Mod Rewrite und dann die Verzeichnisse via robots.txt bzw. htaccess sperren
    ...

Das sperren der folgenden Angaben:

/random.php
/attachments
/avatars

funktioniert ja. Es geht um das sperren der folgenden Dokumenten aufrufe:

/index.php?action=login
/index.php?action=register
/index.php?action=recent
/index.php?action=search
/index.php?action=profile*
/index.php?action=printpage*
/index.php?action=.xml*

:(

Zitat:

Zitat von Lima (Beitrag 38024)
...
  • ...
  • <meta name="robots" content="noindex,nofollow"> in dern head der Seiten

Den Rest sollen die Spider ja spidern =)


.:.geber.:.

MaMo 06.12.2006 17:31

Dann nimm halt <meta name="robots" content="noindex,follow">

MrNase 06.12.2006 21:17

Die Frage ist eher ob man das '?' nicht escapen muss damit die Spider es lesen können?!

Tobias Schäfer 08.12.2006 02:23

Wildcards (also *) wird nur von Google unterstützt. Allerdings hällt sich kein Bot 100% an die robots.txt, die Seiten die dort gesperrt sind werden zwar nicht in den Index aufgenommen, aber gespidert werden sie trozdem.
Am besten blendest du so viel wie möglich an Links für Gäste aus, wobei selbst dann die Seiten vom Bot besucht werden wenn sie von einem User mit Google-Toolbar aufgerufen werden. Komplett verhindern das Google auch Seiten spidert die es eigentlich nichts angeht hab ich auch schon mehrmals versucht, aber noch nie geschafft. Hast du einen Sitemaps-Account? Wenn nicht wurde ich das einen anlegen, da bekommst du zumindest mal Informationen was Google spidert und wo es zu fehlern kommt. Die Infos bekommt man auch wenn man keine Sitemap eingereicht hat.

@MrNase:
Das ? muss in der robots.txt nicht escaped werden.


Alle Zeitangaben in WEZ +1. Es ist jetzt 15:15 Uhr.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25