![]() |
kukuk! |
Das Problem ist: Ich hatte nicht vor, selber so stark mitzuwirken (wie gesagt aus Zeitgründen). Ich denke, wir sind jetzt an einem Punkt angelangt, an dem wir uns weitere Leute suchen sollten. Und zwar möglichst welche, die schon mal über den Tellerrand von PHP hinaus geguckt haben. |
Wir müssen ja so oder so noch solche Sachen wie Protokoll festlegen. Aber wenn sich welche melden würden, die sich mit den entsprechenden Forensystemem (Vb, BB, phpBB, usw) auskennen und dafür einen Mod schreiben wollen/können, wäre das vorteilhaft. |
Die Forensysteme sind erst einmal das geringste Problem. Schließlich könnten wir ein Forum auch einfach simulieren, indem wir Texte manuell einspeisen und schauen, welche ähnlichen Themen / Texte ausgespuckt werden. Das Protokoll geht außerdem schon stark auf die Details ein. Mal abgesehen davon, dass wir meiner Meinung nach zunächst einmal auf einen Prototypen setzen sollten, den wir so schnell wie möglich zusammenschustern. Einfach nur, um unsere Ansätze auszuprobieren. :) |
Dann also erstmal mit php, oder? Wie viele Beiträge werden schon in der Stunde/Tag/Monat geschrieben? Da uns dort die Erfahrung fehlt, würde ich erst ein Plattform nehmen, wo wirklich jeder mitarbeiten kann. |
Zitat:
Ich habe übrigens mal ein Repository bei bitbucket.org eingerichtet. Am besten du richtest dir auch eins ein, denn in Mercurial arbeitet man verteilt, d.h. jeder mit einem oder mehreren Repositories, die sich gegenseitig synchronisieren (manuell). Mehr dazu hier. |
tut mir Leid das ich mich nicht gemeldet hab, musste meine Oma besuchen, 6 Stunden Autofahrt hin, 6 zurück, um Mercurial kümmere ich mich morgen, hab jetzt nicht mehr genug Energie mich dort einzulesen. |
Auch wenn ich selbst wenig Zeit habe, wollte ich mal fragen, wie's bei dir aussieht? Nicht, dass das hier wieder komplett einschläft... :) |
ja, ist irgendwie eingeschlafen. Ich hab mir nochmal den Wirkipediaeintrag zu Python angesehen: Zitat:
(letzter Punkt) Wollen wir also noch bei Python bleiben? Ich müsste das erst lernen, hab bisher halt nur Erfahrungen mit PHP und Autoit gemacht. Kannst du es? Bzw. kennts du Leute die Python können und hier begeistert mitarbeiten würden? |
Nein, ich müsste mich auch erst einmal einarbeiten. Aber wie gesagt: Ich würde es zunächst auch nur für einen Prototypen verwenden und das richtige System nachher in einer kompilierten Sprache, wie C++, Java oder C#, umsetzen. Und dass Python langsam ist, ist dort eher auf ebendiese kompilierte Programmiersprachen bezogen. Programmierer, die Python beherrschen, kenne ich, nur dürften die alle keine Zeit haben... ;) |
Na, wenn wir beide es nicht können und das ganze sowieso nochmal portiert werden soll, bringt es doch nichts sich erst noch in eine Programmiersprache einzuarbeiten, die nur für den Prototypen verwendet wird. |
Also dann Java? :) |
hmgpf! Zitat:
Neben Schule, Hausaufgaben, Vokabeln lernen und im Haushalt helfen, bleibt halt leider nicht mehr genug Zeit eine weitere Programmiersprache zu lernen, jedenfalls nicht in Kürze. |
Ok, dann eben PHP. Auch wenn es mir in der Seele wehtut. :( |
so schlimm ist es doch nicht, oder? |
Darauf möchte ich mal lieber nicht eingehen, sonst endet unsere Diskussion noch sonstwo. :) |
Womit wollen wir dann arbeiten? Eclipse für Php? Texteditor? Wer programmiert was? Was wird überhaupt gebraucht? |
Eclipse hört gut an, zumal die Integration mit Mercurial dann sehr, sehr einfach wäre. :) Wir brauchen also: - Eine IDE (Eclipse) - Eine Versionsverwaltungssoftware (Mercurial) - Eine Datenbanksoftware (MySQL scheint mir für den Anfang am geeignetsten zu sein) Habe ich etwas vergessen? |
Hast alles erwähnt, ich dachte aber eigentlich eher an die benötigten Funktionen:
|
Wie ich bereits sagte: Sich gleich von Anfang an Sorgen um Caching und Plugins zu machen, ist nicht sinnvoll, denn im Zentrum unserer Entwicklungsarbeit steht am Anfang die Engine, die die Ergebnisse überhaupt generiert. So oder so kommen wir spätestens jetzt nicht mehr weiter, ohne ausreichend Zeit in dieses Projekt zu investieren. Sprich, die Diskussion hier im Forum alleine führt uns jetzt nicht weiter. Wir müssen unseren Worten auch Taten folgen lassen. Das Problem ist nur, dass ich kurz vor dem Abitur stehe und ich daher überhaupt keine Zeit mehr habe, so gerne ich jetzt auch sofort mit der Programmierarbeit anfangen würde. Wir könnten allerdings versuchen, die Funktionsweise unserer beiden Ansätze (d.h. zum Einen über die Anzahl der übereinstimmenden Stichworte, zum Anderen über das Netz) gemeinsam bis ins Detail zu modellieren (vielleicht über ein UML-ähnliches Schema), um später nur noch herunterzuschreiben. Dann bestünde vielleicht eher die Möglichkeit trotz Zeit- und Personalmangels Stück für Stück gemeinsam vorzugehen. Eine entsprechende Testumgebung kann dann ja noch im Nachhinein eingerichtet werden. Es wäre nur lieb, wenn wir erst einmal mit der Modellierung des Netzkonzepts anfangen könnten (weil sich da bereits während der Modellierung herausstellen dürfte, ob es machbar ist oder nicht). Ich werde Luki mal bitten im BUN-Forum ein neues Unterforum einzurichten, damit ich die alten Diskussionen dorthin verschieben kann. PS: Wurstbrot, wie kommt's, dass du dich in deiner Doktorarbeit mit dem Thema beschäftigst? |
Wenn du im Augenblick solche Zeitprobleme hast, würde ich einfach mal mit der Verarbeitung des Beitrages zu Stichpunkten anfangen. Es ist natürlich selbstverständlich das Abitur vorgeht. Edit: Darf man hier Texte zum testen kopieren? Oder muss das vom Admin abgesegnet werden? |
Zitat:
|
Die Beiträge von anderen Usern um zu schauen ob der Algo, der aus den Beiträgen, die ans BUN gesendet werden, die passenden Stichworte hinaussucht. |
Naja, du veröffentlichst die Texte ja nicht. Ich sehe da jetzt keine Urheberrechtsverletzung, zumal es ja auch nicht nachgewiesen werden könnte. (Ohne Gewähr :)) |
Ich hab mal was zusamengebastelt: PHP-Code: PHP-Code: |
Ich dachte mir noch: Kann man die User dazu bringen, dass sie selbst Stichworte angeben? Das wäre natürlich die beste Option, der Mensch ist in sowas noch besser. Desweiteren gibt es ja auch hier in der Boardunity unterhalb eines Themas ein Feld mit dazu passenden Stichworten. Wie ist das hier gelöst? |
Das Problem, welches ich sehe, ist nur, dass du bei diesem Verfahren die Blacklist immer weiter anpassen musst. Im Übrigen: Wieso lässt du zum Schluss noch mal array_unique über das Array drüberlaufen? Wenn ein Stichwort besonders oft vorkommt, ist das doch ein Zeichen dafür, dass es in diesem Thema besonders um dieses Wort geht. Zitat:
|
Das es schwierig ist die User dazu zu bringen Stichworte anzugeben ist logisch. Weißt du hierzu was? Zitat:
|
Welches Feld meinst du? |
hier, unter dem letzten Beitrag und über "Direkt antworten" |
Ah richtig, das hab ich ganz übersehen. :) Ich glaube, das wir uns aber in die falsche Richtung bewegen. Die Foren dazu zu bringen, Stichwörter für die Themen festzulegen, ist unmöglich, also sollten wir uns nicht weiter damit aufhalten? |
kein Problem, wollte nur wissen, ob das möglich gewesen wäre, würde uns ja viel arbeit ersparen. |
Hi, nachdem hier noch schon länger nichts passiert ist versuche ich es noch mal mit einem Konzept. Alle Zahlen, Werte und Ähnliches sind natürlich absolut variabel. Jedes Forum bekommt einen 32stelligen Code, der das Forum eindeutig kennzeichnet. Wird nun in diesem Forum ein neuer Beitrag geschrieben, wird das dem BUN Server gemeldet. Dabei wird der Thementitel, eine eindeutige ID (für das Forum, nicht für das gesamte BUN) und der Code übergeben. Der BUN Server speichert diese in einer Datenbank. Des Weiteren gibt es auf dem Server für jedes Forum einen Ordner mit dessen Code als Namen. Darin befindet sich für jedes Thema eine XML Datei die 10 ähnliche Themen, nach Relevanz geordnet, enthält. z.B.:
z.B.: http://bun.boardunity.de/fh478hfwhf7...h84fhz4/id_542 Damit erreichen wir meiner Meinung nach eine geringere Last auf dem Server, als wenn für jede Anfrage eine wie auch immer geartete Scriptsprache benutzt wird. Allerdings sind wir natürlich auch nicht so aktuell wie es möglich wäre. Diese Dateien müssen natürlich auch erstellt und aktualisiert werden. Dazu wird in einem weiteren Script match() benutzt. Dieses Script muss nicht auf dem eigentlichen BUN Server laufen, sondern kann sonst wo arbeiten, muss halt nur eine lokale Kopie der Datenbank zur Verfügung haben. Des Weiteren müssen die Dateien auch noch aktuell gehalten werden. Es bietet sich natürlich an auf einem Privaten PC immer alles neu zu erstellen und anschließend hochzuladen. Einen Teil der Arbeit kann man sich aber meiner Meinung nach sparen. Zum Beispiel erstellt Apache ein Zugriffslog. Darin steht auch welche Dateien von dem Forum öfters angefordert werden und somit indirekt auch das Interesse an dem Thema (Besucht keiner das Thema, fordert das Forum nicht die passende Datei an und die Datei taucht nicht im Log auf) Somit lässt sich festzustellen welche Themen noch gelesen werden und somit für diese eine aktuelle Datei wünschenswert wäre. Alte Themen, die schon seit Jahren niemand mehr angesehen hat brauchen schließlich keine tagesaktuellen Dateien. Ich hoffe mal ich habe keinen verwirrt und bitte um Meinungen. Ist so ein Aufbau sinnvoll und logisch? Viele Grüße, jendrik |
Ich finde, Caching wäre hier eher angebracht. So würden die ähnlichen Themen für wenig frequentierte Themen auf Anfrage aktualisiert werden, die für beliebte in festgelegten Abständen (sodass es zu keiner Überlastung kommt). Denn: Gerade wenn ein Thema uralt ist und sich dann doch mal ein Besucher darauf verirrt, ist es doch interessant, ob sich die Diskussion nicht vielleicht woanders weiterentwickelt hat, ob es neue Erkenntnisse gibt o.ä. Von der Idee, die Daten in Ordnern mit endlos vielen Dateien zu speichern, halte ich auch wenig. Bei Dateisystemen gibt es in der Regel ein Maximum in Bezug auf die Dateien pro Ordner, oberhalb dessen ein Dateizugriff zunehmend langsamer wird. Datenbanken können mit solchen Datenmengen inzwischen um einiges besser umgehen. |
Gegen Caching habe ich prinzipiell auch nichts, das ganze aber nicht über ein Programm laufen zu lassen ist mein Anliegen. Es müssen natürlich nicht alle Dateien in einen Ordner vorhanden sein. Eine Unterteilung nach Forum, erste ID-Stelle, zweite ID-Stelle, dritte ID-Stelle, vierte ID-Stelle, ... ist natürlich möglich. Aber ich möchte nur mal auf heise.de verweisen, bei denen sieht es zumindest so aus als würden alle Einträge in einem Ordner liegen. Und desweiteren habe ich mich vieleicht missverständlich ausgedrückt: Auch ältere Themen sollten regelmäßig aktualisiert werden, aber nur in größeren Abständen, wöchentlich zum Beispiel. |
Zitat:
|
Ok, mag ja so sein, dennoch möchte ich noch auf den Rest meines letzten Beitrages verweisen. Zitat:
|
Zitat:
Zitat:
|
Zitat:
Zitat:
Zitat:
Und wie warscheinlich ist es das sich für ein 3 Jahre altes Thema innerhalb einer Woche eine Masse an neuen Informationen ansammelt und dabei nur ein oder zwei mal das alte Thema geöffnet wird? Denn bei mehr zugriffen wird die Datei ja auch früher als in dem Wochenrhythmus aktualisiert. |
Zitat:
* Spontan fällt mir allerdings ein interessanter Anwendungsfall ein, den ich gerne auch mal selber in Angriff nehmen würde. Ist aber psst! geheim. ;) Zitat:
|
Alle Zeitangaben in WEZ +1. Es ist jetzt 22:50 Uhr. |