herausfiltern ähnlicher Beiträge durch Wörtertvergleich
Eingetragen von Helge (404)
am 03.12.2015 - 19:35 Uhr in
am 03.12.2015 - 19:35 Uhr in
Hallo zusammen,
jeder der eine Drupal-Community betreibt kennt das sicher,
da werden Artikel eingestellt ohne vorher genau nachzuschauen, ob es bereits einen ähnlichen Artikel im System gibt.
Um die Artikel voneinander zu unterscheiden hat man wohl die Tags erfunden, doch diese werden von Nutzern kaum ausgefüllt uns sind somit relativ nutzlos für Filterungen ähnlicher Inhalte.
Nun meine Frage an Euch,
Gibt es neue Wege oder Modelle, Redundanzen herauszufiltern?
Vielleicht über das filtern und vergleichen von Wörtern oder so.
Wäre sicher auch für dieses Forum interessant.
Herzlichst
Helge
- Anmelden oder Registrieren um Kommentare zu schreiben
das ist ein dickes Brett
am 04.12.2015 - 08:22 Uhr
so etwas müsste im Hintergrund und per cron laufen.
Ohne einen menschlichen Redakteur wird es aber auch dann nicht machbar sein.
Natürlich kannst die Fließtexte mit einem cron job verschlagworten lassen.
Die Schlagworthäufung kannst du noch darstellen. Ob es sich um die gleiche Thematik handelt, kann nur ein menschlicher Redakteur feststellen.
Ich hatte vor etwa 30 Jahren so ein Projekt, wo es um die Verschlagwortung von Fließtexten gind.
Das ist eine heftige Angelegenheit, und lässt deine Schlagwortdatenbank explossionsartig anwachsen.
Ohne laufende Pflege wird das zu einem großen Schrotthaufen.
Grüße
Ronald
automatische Verschlagwortung
am 04.12.2015 - 12:17 Uhr
Hallo Ronald,
welche modernen Möglichkeiten der automatischen Verschlagwortung gibt es denn heutzutage?
Mit einer guten umfangreichen Vokabularliste könnte man ja evtl. Wortvergleiche anstellen und dann bei Übereinstimmung automatisch verschlagworten.
Aber woher bekommt man eine solche deutsche Vokabularliste und wie hält man die noch performant in der DB?
Herzlichst
Helge
eine solche Liste musst du dir schon im Kontext deiner Umgebung
am 04.12.2015 - 13:42 Uhr
anlegen.
Das ist nicht so einfach.
Die Software von damals machte foldgendes:
Jedes Wort wurde auf bestimmte Grundmerkmale geprüft:
1. Mindestlänge
2. Maximallänge
3. in Ausschlußliste
Und dann, ob es dieses Wort schon in der DB gibt, wenn ja, wird nur eine Verknüpfung zum aktuellen Dateinamen hergestellt, wenn nein, wird es mit einer solchen Verknüpfung angelegt.
Am Ende hast du eine Datenbank, die Schlagworte mit Verknüpfungen auf die originalen Texte enthalten.
Dies kannst du dann zählen.
Die Datenbank selbst ist relativ einfach strukturiert, enthält jedoch sehr viele Einträge.
Mit einem Index auf dem Schlüsselbegriff ist der Zugriff sehr schnell.
Dafür ist auch mySQL gut geeignet.
Dennoch kannst du lediglich feststellen dass es bei bestimmten Dokumenten bestimmte Schlagworte gibt.
Diese Dokumente dann zu beurteilen, braucht es einen fähigen Redakteur, der die entsprechenden Abfragen in die Datenbank vornimmt, und die Einträge inhaltlich vergleicht.
Grüße
Ronald
Modul AutoTag
am 04.12.2015 - 14:32 Uhr
Aber so ähnlich macht es doch das Modul AutoTag doch auch, oder?
Weiß halt nicht wie gut das funktioniert.
probier es aus
am 04.12.2015 - 14:42 Uhr
es kann dir vielleicht dabei helfen.
Von der Beschreibung her passt es da rein.
Der Rest ist Organisation.
Ohne den Faktor Mensch geht es wahrscheinlich nicht.
Grüße
Ronald
vielleicht sollte ich mal
am 04.12.2015 - 15:31 Uhr
vielleicht sollte ich mal gezielt nach diesem Modul in einem neuen Thread nachfragen
wer da Erfahrungen mit gesammelt hat?!