Boardunity & Video Forum

Boardunity & Video Forum (https://boardunity.de/)
-   Webspace, Webserver, Domains (https://boardunity.de/webspace-webserver-domains-f28.html)
-   -   Diskussion: Mod_rewrite sinnvoll?? (https://boardunity.de/diskussion-mod_rewrite-sinnvoll-t964.html)

Nev 19.11.2003 14:34

Diskussion: Mod_rewrite sinnvoll??
 
Hi @ll

Ich wollte mal a bissal an Wind hier reinbringen.

Was haltet ihr von mod_rewirte

Macht es sinn, oder viel zu umständlich??

Hat es sinn es in einem Board zu verwenden, und wenn wie, damit alles Eindeutig ist.

Daniel Richter 19.11.2003 14:50

Mod_Rewrite macht - wie schon in vielen anderen Themen hier von mir erwähnt - auf jeden Fall sind. Vorallem in Foren kann es zu enormen Besucheranstürmen führen, da Suchmaschinen die Beiträge besser indizieren. Gleiches gilt auch für normale Websites.

Nev 19.11.2003 14:58

Ich habe gerade mit einem Kollegen von mir gesprochen.

Bei einem Forum muss man sehr aufpassen wenn man mod_rewrite verwendet.

Aus Erzählungen kann zB der Google-Bot bis zu 3 darin wüten, was den Server etwas lamm legt.

Durch das Gespräch, bin ich auf folgende Idee gekommen.
Es macht Sinn nur einzelne Sektionen über mod_rewrite zu führen.
Wobei man eine klare Grenze ziehen muss
Alles bis zum Beitrag per mod, und dann Funktionen wie "Beitrag-Melden", ... bzw auch die User-Infos nicht mehr, so endet der BOT beim Beitrag, bzw. verfolgt dann nur mehr externe Links weiter.

So ist die Belastung nicht so groß.
bzw. macht es keinen Off-Topic forum zu indizieren.

Gérome 19.11.2003 15:05

Ich persönlich finde ebenfalls, dass der Einsatz von mod_rewite aus Sicht des Admins eines Forums Sinn macht. Den wesentlichen Grund hat codemonkey hier eben geschildert.
Ein phpBB komplett auf mod_rewrite umzustellen ist meiner Ansicht nach schon ein Stückchen Arbeit ... je nachdem, wie tief man im Code drinsteckt. Es hat bei uns ca. 1 vollen Tag gekostet, diese Funktionalität einzubauen, ohne im Endeffekt einen Performce-Verlust zu haben.

Im Endeffekt hat es sich meiner Meinung nach für uns gelohnt. Wir wurden alleine in der ersten November-Hälfte weit über 30.000 mal in den Ergebnislisten von Suchmaschinen angeklickt.


Grüße,
Gérome

Nev 19.11.2003 15:23

Zitat:

Original geschrieben von ciruZ
modrewrite = böse. Mach lieber ein Archiv für die suchmaschienen.
Bei modrewrite kommen 30 Google Bots, alle bekommen ne andere Session und alles wird 30 mal indiziert, da jeder ne andere SID hat -> schlechteste, was dir überhaupt passieren kann. Dann lieber nur 50% indiziert.

Wenn du auf deiner Seite nur ein Board hast, hast nicht einmal die 50% sondern nur die Start-seite.

Wie ich schon oben beschrieben habe, sollte man nicht das gesamte Board damit versehn, sondern nur Teile.

Das macht auch Sinn, so wie es Gérome beschrieben hat.

Mit der Session gebe ich dir schon recht, in der Hinsicht muss man sich was Überlegen.
Da aber Bots keine Cookies zulassen wird es etwas schwer sein etwas zu finden.

[PS]
wobei ich mir ned sicher bin, ob Google-Bots ned so gescheit sind, und die Session beim Indizieren entfallen lassen

Gérome 19.11.2003 15:24

Das mit den SIDs ist ja alles richtig. Aber jetzt kommen wir zu der Frage, welche Folge-Arbeiten dann noch nötig werden, um mit den Bots fertig zu werden.
Mein Tip sind von der Foren-Softare dynamisch generierte Meta-Tags, die in Abhängigkeit des angezeigten Inhaltes ein entsprechendes Verhalten der Bots hervorrufen.

"mod_rewrite" alleine wegen der Bots zu verteufeln halte ich für falsch.



Grüße,
Gérome

Nev 19.11.2003 15:29

@Gérome

Was meinst du mit:
Zitat:

Foren-Softare dynamisch generierte Meta-Tags, die in Abhängigkeit des angezeigten Inhaltes ein entsprechendes Verhalten der Bots hervorrufen
Kannst du dazu ein Beispiel bringen?

[ps]
Habe gerade bei dir auf der Seite gelesen:

Code:

        <meta name="revisit-after" content="7 days">       
        <meta name="robots" content="NOFOLLOW">

Meinst du das?

Gérome 19.11.2003 15:39

Jupp, kann ich und mache ich hiermit auch. ;-)

Also: Die in diesem Zusammenhang relevanten Meta-Tags sind ja "robots" und "revisit-after".
Hier generieren wir z.B. für die Foren-Übersicht und die einzelnen Rubriken Tags wie z.B.

<meta name="revisit-after" content="7 days">
<meta name="robots" content="INDEX,FOLLOW">

Hier wollen wir ja, daß die Bots wiederkommen und sich die neusten Beiträge "reinziehen".

Gegenbeispiel wären die Seiten, die alte Thread anzeigen. Hier generieren wir z.B. die folgenden Tags:

<meta name="revisit-after" content="120 days">
<meta name="robots" content="NOFOLLOW">

Durch diese dynamischen Tags (mit denen man ein wenig herumexperimentieren muss) schaffen wir es, die Flut an Bots verblüffend gezielt zu steuern. (Und alles voll über das Admin-Panel konfigurierbar :D )


Grüße,
Gérome

Nev 19.11.2003 15:45

Klingt interessant, werde ich mir überlegen

Habt ihr erfahrungen mit den Bots gemacht, ich meine in Richtung indexierung mit SID

So wie es ciruZ geschrieben hat?

tapete 19.11.2003 15:55

Darf ich mal in die Runde die Frage schmeissen, ob jemand ein Tool kennt, das meine Seiten abgrast und aus jeder dynamischen php Datei eine HTML Datei macht und in einem extra Ordner speichert?

Gérome 19.11.2003 16:15

Zitat:

Original geschrieben von Nev
Habt ihr erfahrungen mit den Bots gemacht, ich meine in Richtung indexierung mit SID

So wie es ciruZ geschrieben hat?

Um ehrlich zu sein: Nein. In den Anfangs-Zeiten, als wir auch Bots noch die SIDs präsentierten, sind wir so gut wie nicht indexiert worden. Wir hatten in einem ersten Schritt für Bots die SIDs entfernt und sich auch denn erst in nennenswertem Umfang von den Bots besucht worden.
Erst nach dem Einsatz von mod_rewrite sind dann die oben beschriebenen Änderungen mit den Meta-Tags nötig geworden.



Grüße,
Gérome

Gérome 19.11.2003 16:16

Zitat:

Original geschrieben von tapete
Darf ich mal in die Runde die Frage schmeissen, ob jemand ein Tool kennt, das meine Seiten abgrast und aus jeder dynamischen php Datei eine HTML Datei macht und in einem extra Ordner speichert?
Bringe eine lokale Version Deiner Site zum Laufen und lasse einen Webgrabber darauf los. (Kannst Du natürlich auch mit Deinem Live-System machen, aber lokal dürfte es drastisch schneller gehen.)


Grüße,
Gérome

TRS 19.11.2003 16:30

Zum Thema Bots folgendes: Bots besitzen ein Problem mit der Sessionid, weswegen nicht alle Bots in der Lage sind Foren zu indizieren. Andere dynamische Webseiten machen in der Regel keine Probleme, was zumindest für Google gilt.

Aber nicht jedes Forum ist somit unzugänglich für Bots, da beispielsweise mein Forum keine Sessionids den Gästen zuweist und so werden alle Seiten indiziert, auch "Beitrag melden" etc.

Aus diesem Grund ist der Einsatz von Mod_Rewrite nicht unbedingt nötig für die Indizierung von Foren.


Aber zur eigentlichen Frage: Ich würde es gerne sehen, wenn wirklich Expertenforen indiziert werden, da ich mir einfach sorgen mache, dass man schlussendlich auf irgendwelchen Allroundboards landet, wo das Problem dann nichr gelöst wird. Mir fällt das immer wieder mit Spotlight auf, da ich immer wieder dort lande.

Aber dies ist natürlich kaum umzusetzen :rolleyes:

DaddyCool 19.11.2003 16:39

Warum den Bots überhaupt eine SID zuweisen??

Die wichtigsten Bots (Inktomi, Google usw.) lassen sich über HTTP_USER_AGENT oder der IP identifizieren. Mit den Infos kann man SID Vergabe ohne Probleme unterdrücken.

Die unwichtigen lassen sich übrigends auch erkennen ;)

Bei mir sind teilweise auch 30 bis 40 Google Bots unterwegs, jedoch indizieren sie alle andere Bereiche der Seite. Sprich keine Seite wird zweimal aufgerufen.

TRS 19.11.2003 18:46

Inktomi - Ist der eigentlich so wichtig? Ich sehe ihn permanent bei mir im Forum rumlungern, allerdings ohne wirkliches Resultat.

MrNase 20.11.2003 07:45

Ich denke mal mein Archiv hat genug Stoff für die Bots ;)

Das gute an mod_rewrite ist das das Forum indexiert wird und die Benutzer nicht erst übers Archiv gehen müssen.
Sobald ich ne neue Version rausbringe werde ich mir die Sache mit mod_rewrite überlegen. Momentan sind knapp 30 Bots in meinem Forum unterwegs... Sicherlich generieren die Traffic, aber wenn auch nur 10 Besucher über Google kommen dann ist es das wert :)

DaddyCool 20.11.2003 11:15

Zitat:

Original geschrieben von Reimer
Inktomi - Ist der eigentlich so wichtig? Ich sehe ihn permanent bei mir im Forum rumlungern, allerdings ohne wirkliches Resultat.
Inktomi gehört zu Yahoo und sammelt Daten für Yahoo, Overture, MSN und anderen Suchmaschinen.

TRS 20.11.2003 13:17

Vielen Dank für die Informationen, aber erinnere ich mich nicht richtig, dass Yahoo auf Google setzt?

tapete 20.11.2003 14:27

Hab bis gestern noch nie was von mod_rewrite gehört.

Aber wirklich geile Sache, ich habs jetzt auch so gemacht :)

DaddyCool 20.11.2003 14:31

Yahoo hat vor einiger Zeit Overture gekauft, um wieder eigenständig zu werden und den Gewinn zu maximieren.

Overture selbst beliefert andere Suchmaschinen mit Ergebnisse und verkauft die Spitzenpositionen in den Ergebnissen.

Altavista, MSN usw. werden so beliefert.

Edit: Overture selbst bekommt die Daten von Inktomi.

Nev 21.11.2003 07:33

Mehrere Leute haben den Traffic angesprochen.
Sicher machen BOT's wenn sie mal wüten, eine menge Traffic.

Aber wie ich schon oben beschrieben habe, sollte man nur Teile eines Forums indizieren.
d.h. bis zu einer Grenze und ned weiter.
So das das Beispiel von Reimer ned auftretten kann:
Zitat:

Aber nicht jedes Forum ist somit unzugänglich für Bots, da beispielsweise mein Forum keine Sessionids den Gästen zuweist und so werden alle Seiten indiziert, auch "Beitrag melden" etc.
@DaddyCool
Danke für den Tip -> Den Bot keine SID zuweisen.

Meiner Meinung nach schlummer in speziellen Foren ein großes Wissen.
Nur leider kann man über Suchmaschinen ned drauf zugreifen, da diese nicht indiziert werden.

MrNase 21.11.2003 16:51

Ja, das mit dem doppelt stimmt wohl...

Sucht mal @ google nach "streetbal" ohne " ;)
Der obere Link führt in mein Archiv, der 2. Link ins Thema.

@ vBulletin Archiv: http://www.vbulletin.com/forum/archive/index.php/

Nev 21.11.2003 18:48

@ciruZ

Ich weiß jetzt was du meinst.

du exportiert es ned als HTML, sondern schummelst es per mod_rewrite dem Bot vor

Wobei es ein eigenes Tpl-Set ist.

die Idee is nett

paridus 26.11.2003 19:14

so nach dem hier nun gefachsimpelt wurde, möchte ich schon mal wissen was mod_rewrite ist und wie man das nun in ein vb einbaut!?

Nev 27.11.2003 11:00

@paridus

Mittels mod_rewrite kannst du Urls umschreiben.

d.h: http://.../artikel/124.html
wird umgewandelt und er ruft dann
artikel.php?ID=124
auf

Wobei die Url oben stehn bleibt.

Die Regeln und weiterverarbeitung kannst du selbst bestimmen.

Wobei das Modul installiert / freigeschalten sein muss, bzw der Server auch htaccess unterstützen muss.

Wie weit das jetzt im VB eingebaut ist, kann ich dir leider ned sagen.

MrNase 27.11.2003 14:41

@ paridus: als vB Lizenzbesitzer such mal auf vbulletin.org nach 'archive'. Dort findest du das von mir angesprochene Archiv für die 2.3.x
Du kannst auch mal nach 'friendly url' suchen. Dort findest du auch einen interessanten Hack der die URL's wie von Nev beschrieben verändert. Er funktioniert bei mir allerdings nicht :(
Die Version 3 hat schon ein Archiv eingebaut.

tapete 04.12.2003 19:19

So, jetzt war der googlebot bei mir, hat aber nicht viel gebracht :rolleyes:


Er ist jetzt auf mein Archiv gestoßen, hat die Links dor aber nicht weiterverfolgt! Kann man irgendwie herausfinden, woran das liegt?

Mein Archiv ist das hier: http://www.e-disput.de/textversion.htm

Er hat genau die Seite indexiert und nicht eine mehr :-/

Ist doch alles schön Suchmaschinenfreundlich, oder hab ich da was übersehen :confused:

Daniel Richter 04.12.2003 19:32

Wenn der Googlebot bei dir war heißt es ja noch lange nicht, dass deine Seite ins Archiv aufgenommen wurde.
Solche Bots machen auch einfach nur so Besuche.

tapete 05.12.2003 10:39

Hm, diese eine Seite hat er aber indexiert.
Er hat genau 3 Anfragen gemacht. Einmal die Startseite, einmal die Archivseite (die er nicht weiterverfolgt hat)

und einmal vermutlich die robots.txt


Gibts da irgendwie nen Grund für, warum er das nicht weiterverfolgt?

tapete 06.12.2003 12:52

Achso, nagut dann hoff ich mal, das er dann irgendwann mehr indiziert, weil was er bis jetzt indiziert hat, bringt nicht viel :D


ok thanks!

Silmarillion 10.12.2004 23:35

Ist zwar schon ein bisserl alt...aber was soll ich einen neuen Thread aufmachen, wenn schon einer existiert. ^^

Folgendes:

In einem SEO Forum hat mir ein User dazu geraten, mod_rewrite einzusetzen. Mir erschließt sich aber immer noch nicht der Sinn dieser "Schummelei".
Deshalb meine Fragen:

- wie müsste eine entsprechende htaccess in meinem Falle am sinnvollsten aussehen?
- ist diese Variante durch das vBulletin-Archiv nicht überflüssig geworden?
- wer von Euch benutzt mod_rewrite?

PS: Ich habe ja erst kürzlich eine kleine "Domainumleitung" vorgenommen. Die entsprechende htaccess sieht wie folgt aus:

PHP-Code:

RewriteEngine On 
RewriteRule forum
/(.*) http://www.meinedomain.de/$1 [R=301,L] 

Ist ja auch mod_rewrite. Aber WO soll darin ein bzw. der Vorteil liegen? :confused:

Anm.: passend zum Thema habe ich diese Anleitung gefunden. Empfehlenswert, oder eher nicht?

mfg

michi50 17.12.2005 09:09

mod-rewirte macht auf jeden fall sinn!
Finde ich zumindestes!
Ich benutze es zur url optimierung!

Scotty 17.12.2005 09:26

Ich bin hier kein Experte, das ist ein komplexes Thema (finde ich).

Zitat:

Zitat von Silmarillion
- wie müsste eine entsprechende htaccess in meinem Falle am sinnvollsten aussehen?

Pauschal kann man das leider nicht beantworten, ist soweit ich das mitbekommen habe, nicht bei jedem Hoster gleich.

Zitat:

Zitat von Silmarillion
- ist diese Variante durch das vBulletin-Archiv nicht überflüssig geworden?

Wenn jemand über eine Suchmaschine was sucht ;), ist es doch besser wenn er direkt auf dein Forum im jeweiligen Beitrag landet und nicht erst im Archiv.

Hier wird im Grunde das Archiv überflüssig, denn es werden gleich alle normalen Links entsprechend umformatiert. Nutzt man nur das Archiv, hat man auch sehr oft doppelten Content in den Suchmaschinen, also die regulären Foreninhalte und dann noch mal das was über das Archiv aufgenommen wurde.

Einziger Vorteil eines solchen Archivs gegenüber der anderen Methode ist, das es etwas Traffic spart.

Zitat:

Zitat von Silmarillion
- wer von Euch benutzt mod_rewrite?

Ich ;)…

@michi50
Diese inhaltslose antwort hättest du dir sparen können!

Tobias Schäfer 17.12.2005 18:37

Wer den Server nicht zu arg belasten will kann mod_rewrite und Meta-Tags nur für Gäste benutzen. Wobei man sich die Metas auch sparen kann, da es zimlich schwer ist ordentliche Beschreibungen und Keywords automatisch zu generieren, so viel bringen die ja auch nichtmehr. Seiten die den Bot nichts angehen (Profil, Antworten,...) sollte man für Gäste komplett ausblenden, zumindest sollte man den Link zu solchen Seiten entfernen, das spart nochmal einiges an Traffic und Google gefällt es auch wenn der Bot nur relevante Seiten findet.

Zitat:

<meta name="revisit-after" content="7 days">
Glaubst du wirklich das sich der Bot von dir sagen lässt wie oft er kommen soll? Das war vielleicht früher mal so, aber ich hab die Erfahrung gemacht das sich mitlerweile kein Bot mehr daran hält. Sollen die Suma-Bots doch kommen so oft sie wollen, Traffic kostet heute ja fast nichtsmehr und Sumas bringen einige Besucher...


Zitat:

Hm, diese eine Seite hat er aber indexiert.
Er hat genau 3 Anfragen gemacht. Einmal die Startseite, einmal die Archivseite (die er nicht weiterverfolgt hat)

und einmal vermutlich die robots.txt


Gibts da irgendwie nen Grund für, warum er das nicht weiterverfolgt?
Du brauchst mehr Links damit dein Pagerank steigt. Schwache Seiten werden erstmal nur bis zur ersten oder zweiten Ebene verfolgt. Damit auch tiefere Ebenen gespidert werden brauchst du Geduld oder du setzt ein paar Links auf Unterseiten damit der Bot da anfängt zu spidern.
Die interne Verlinkung ist da auch sehr wichtig, im Idealfall ist jede Seite von überall aus mit 3 klicks erreichbar. Um die interne Verlinkung zu verbessern gibt es ganz nützliche MODs wie "Ähnliche Beiträge under jedem Topic".


@Scotty: Du hast bei dir im Forum den Fehler gemacht den viele machen. Jede Seite sollte unter einer URL erreichbar sein. Bei dir wird massig doppelter Content erzeugt:
http://www.stubentiger-forum.de/ftopic21.html
http://www.stubentiger-forum.de/fpost64.html#64
http://www.stubentiger-forum.de/fpost70.html#70
...
http://www.stubentiger-forum.de/ftopic21-0-asc-0.html
http://www.stubentiger-forum.de/ntopic33.html
ist alles die gleiche Seite, allerdings unter mehreren URLs erreichbar. Das ist doppelter Content der von Google als Spam angesehen und abgestraft wird. Du hast einfach alle dynamischen URLs in statische umgewandelt, ohne drauf zu achten das immer das gleiche bei raus kommt, so hilfst du Google den doppelten Content zu erkennen. Du kannst zwar fpost* usw. in der robots.txt sperren, allerdings verschlechtert sich dann deine interne Verlinkung und du musst dich drauf verlassen das sich Google an die robots.txt hält.

Scotty 17.12.2005 18:46

Zitat:

Zitat von tas2580
@Scotty: Du hast bei dir im Forum den Fehler gemacht den viele machen. Jede Seite sollte unter einer URL erreichbar sein. Bei dir wird massig doppelter Content erzeugt:
http://www.stubentiger-forum.de/ftopic21.html
http://www.stubentiger-forum.de/fpost64.html#64
http://www.stubentiger-forum.de/fpost70.html#70
...
http://www.stubentiger-forum.de/ftopic21-0-asc-0.html
http://www.stubentiger-forum.de/ntopic33.html
ist alles die gleiche Seite, allerdings unter mehreren URLs erreichbar. Das ist doppelter Content der von Google als Spam angesehen und abgestraft wird. Du hast einfach alle dynamischen URLs in statische umgewandelt, ohne drauf zu achten das immer das gleiche bei raus kommt, so hilfst du Google den doppelten Content zu erkennen. Du kannst zwar fpost* usw. in der robots.txt sperren, allerdings verschlechtert sich dann deine interne Verlinkung und du musst dich drauf verlassen das sich Google an die robots.txt hält.

Oha, stimmt auch wieder, hab mich ehrlich gesagt damit noch nicht so sehr beschäftigt, mir wurde immer nur dieser MOD hier empfohlen.

Tobias Schäfer 17.12.2005 18:52

Ja, den MOD hab ich auch lange benutzt, bis mir das Problem bewusst geworden ist. Versuch es mal hiermit, das ist fast das gleiche wie die Version von larsneo nur das halt kein doppelter Content mehr erzeugt wird.

Scotty 18.12.2005 09:39

Irgendwie hab ich da eh das Gefühl, als wenn das alles etwas bremst. Vielleicht doch besser ein Archiv MOD?

Es geht um diesen Archive MOD: http://www.kailashnadh.name/code/

Ich hab von mod_rewrite keine so richtige Ahnung ;), mein Hoster ist 1&1, im allgemeinen Funktioniert mode_rewrite ja auch. In der .htaccess dieses MODs ist das aber wohl so eingestellt, das es bei mir nicht funktioniert, ich bekomme immer nur einen Error 404.

.htaccess
Code:

RewriteEngine On
RewriteRule ^archive(/)?$ archive.php [L]

RewriteRule ^archive/forum/(.*)-(.*)-(.*)\.(.*) archive.php?forum=$2&page=$3 [L]
RewriteRule ^archive/forum/(.*)-(.*)\.(.*) archive.php?forum=$2 [L]
RewriteRule ^archive/post/(.*)-(.*)-(.*)\.(.*) archive.php?post=$2&forum_id=$3 [L]

RewriteRule ^archive/(.*)\.htm parse_friendly.php?t=$2 [L]

Jemand eine Idee?

EDIT
Das Archiv kann ich normal aufrufen, es werden auch alle Foren aufgelistet, klicke ich jedoch eines der Foren an, kommt ein Error 404. Das gleiche Problem hab ich beim phpBB Search Engine Indexer MOD (With Forcetype).


Alle Zeitangaben in WEZ +1. Es ist jetzt 17:57 Uhr.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25