Boardunity & Video Forum

Boardunity & Video Forum (https://boardunity.de/)
-   Programmierung und Datenbanken (https://boardunity.de/programmierung-datenbanken-f23.html)
-   -   Searchindex = Speicherfresser...? (https://boardunity.de/searchindex-speicherfresser-t3296.html)

Scotty 10.07.2005 23:17

Searchindex = Speicherfresser...?
 
Ich bin hier noch nicht so bewandert aber so einen Serachindex verwendet ja jede Boardsoftware. Genau jener Index verbraucht aber jede menge Speicher, nur für die Suche, das ist doch pure Verschwendung, gibt es da nicht bessere Möglichkeiten?

Wer hat schon einen eigenen Server, wo der Speicherverbrauch der DB keine rolle Spielt (vom RAM Verbrauch mal abgesehen), die meisten haben doch nur Webspace-Pakete, wo dann auch die DB eine Begrenzung hat. Ist bei mir jedenfalls so, ich hab auch nur 100MB (pro DB) zur Verfügung, keine Ahnung wie lange die reicht.

Klärt mich mal bitte auf ;)…

Jan Stöver 10.07.2005 23:31

Generell hast du recht ... was wirklich viel Speicher auf Dauer fressen kann ist die Tabelle "word" (wie auch immer sie jeweils heissen mag) ... in der werden alle möglichen Wörter gespeichert und später dann mit der ID den Beiträgen zugeordnet.

Suchwort1 = ID1, ID2, ID3 (jeweils die Beitrags ID)
Suchwort2 = ID4, ID2, ID9
...

Es ist also nicht so, dass immer mehr Wörter gespeichert werden. Ein neues noch nicht bekanntest Wort kommt in die DB und jedes Mal wenn dieses Wort wieder in einem Beitrag auftaucht, wird an das Wort nur die ID gehängt oder umgekehrt die ID des Suchwortes an den Beitrag.

Beim vBulletin kann man die Suchmaschine dahingehend einstellen, dass die minimale und maximale Wortlänge für diese Tabelle eingestellt wird. So kann man verhindern, dass zu kurze, oft vorkommende Begriffe wie z.B. ich, du, sie, er und es aufgenommen werden. Die maximale Länge verhindert, dass sehr seltene Wortverbindungen oder Ketten aufgenommen werden. Bei den kurzen kann man Ausnahmen einstellen, die trotz der minimalen Länge gesucht werden können. Hier wäre das z.B. "vB" als Suchwort.

Für die vB 3.5.x kann man auf eine MySQL Volltext Suche umstellen, die ihre Vor- und Nachteile hat. Das wäre aber wieder etwas ganz anderes ...

(eine grobe, bzw. sehr grobe Beschreibung)

Scotty 10.07.2005 23:37

Zitat:

Zitat von Jannefant
Beim vBulletin kann man die Suchmaschine dahingehend einstellen, dass die minimale und maximale Wortlänge für diese Tabelle eingestellt wird. So kann man verhindern, dass zu kurze, oft vorkommende Begriffe wie z.B. ich, du, sie, er und es aufgenommen werden. Die maximale Länge verhindert, dass sehr seltene Wortverbindungen oder Ketten aufgenommen werden. Bei den kurzen kann man Ausnahmen einstellen, die trotz der minimalen Länge gesucht werden können. Hier wäre das z.B. "vB" als Suchwort.

Für das phpBB gibt’s dafür die "search_stopwords.txt" wo man alles was drin steht von der Indizierung ausnehmen kann. So weit hab ich das schon alles begriffen ;).

Zitat:

Zitat von Jannefant
Für die vB 3.5.x kann man auf eine MySQL Volltext Suche umstellen, die ihre Vor- und Nachteile hat. Das wäre aber wieder etwas ganz anderes ...

(eine grobe, bzw. sehr grobe Beschreibung)

Klinkt aber interessant, was ist da anders?

Jan Stöver 10.07.2005 23:44

Ich habe mal nachgeschaut ... die Boardunity Tabelle mit den Wörtern hat folgende Werte:

Speicherplatzverbrauch:
Daten 3.857 KB , Index 1.627 KB, Insgesamt 5.484 KB

Es hält sich also durchaus in Grenzen ...

http://dev.mysql.com/doc/mysql/de/fulltext-search.html

Scotty 10.07.2005 23:56

Bei mir ist ja noch alles sehr klein aber in Relation zu dem was geschrieben wurde ist die bei mir schon auffallend groß. Wenn ich mir die search_wordlist so anschaue stehen da jede menge alltäglicher Wörter drin ;). Ich werde hier noch ein ganzes Weilchen warten und dann mal meine "search_stopwords.txt" überarbeiten ;) und dann den Searchindex neu aufbauen.

Danke für den Link, muss mir das alles mal durchlesen, auch generell was MySQL angeht.


Alle Zeitangaben in WEZ +1. Es ist jetzt 20:37 Uhr.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25