Die Suche nach der perfekten Suche

Schon seit einigen Monaten haben wir auf der Basis von Lucene an einer Volltextsuche für unsere Kurse gearbeitet. Überraschenderweise war das gar nicht so einfach gut lösbar und zwar deshalb nicht, weil der Textumfang eines Kurses deutlich geringer ist als der einer Online-Bibliothek.

So sieht das Suchergebnis aus. Unter "Weitere Ergebnisse" finden sich auch alle Erwähnungen - der Vollständigkeit halber.
So sieht das Suchergebnis aus. „Beste Ergebnisse“ zeigt ausschließlich Stellen, an denen der Suchbegriff behandelt wird. Unter „Weitere Ergebnisse“ finden sich auch alle Erwähnungen – der Vollständigkeit halber.

Eine typische Bibliothek hat bei Symposion etwa 10 Bücher mit jeweils 25 Kapitel a jeweils 25 Seiten. Mehr als 6.000 Seiten verteilen sich demnach auf 250 Kapitel. Das macht die Volltextsuche leicht: Die Suchmaschine stellt zunächst fest, in welchen der Kapitel sich ein Suchbegriff häuft und nimmt dann eine Gewichtung vor, die in der Lucene-Standardeinstellung schon sehr gut ist.

Aber durch die Auswertung solcher Häufungen bleibt eines der zentralen Probleme jeder Suche in der Regel verborgen: Die Unterscheidung zwischen einer Erwähnung und einer Behandlung des Suchbegriffs. Damit ist gemeint, dass es einen großen Unterschied macht, ob ein Kapitel mit dem Satz beginnt „<Suchbegriff> wird in diesem Kapitel nicht behandelt“ oder „In diesem Kapitel werden wir uns nun eingehend mit <Suchbegriff> beschäftigen“. Fall 1 wird im Ranking der Suchmaschine einfach deshalb nicht sehr weit oben auftauchen, weil der Suchbegriff vermutlich nur an dieser einen Stelle im Kapitel vorkommen wird. Fall 2 wird vermutlich sehr viel höher im Ranking zu finden sein, weil man erwarten kann, dass der Suchbegriff in diesem Kapitel häufiger vorkommt, vielleicht im Schnitt sogar mehr als einmal pro Seite.

Ein Kurs dagegen hat einen Textumfang von, sagen wir, 10 Kursteilen mit jeweils 80 Folien. Der Anspruch an eine Volltextsuche muss hier nicht nur sein, die Kursteile zu identifizieren, in denen der Suchbegriff häufig vorkommt, sondern zusammenhängende Folienbereiche, auf denen der Suchbegriff tatsächlich abgehandelt wird.

Auch das könnte die Suchmaschine zwar leicht lösen, da aber jeder Kursteil durch 3 Überschriftenhierarchien gegliedert wird, muss weiter berücksichtigt werden, dass das Vorkommen einer gleich- oder höherrangigen Überschrift einen Folienzusammenhang aufheben kann. Ein Beispiel: Eine Überschrift 2. Grades lautet „Über alles außer Grün“ und beherrscht die folgenden 10 Folien. Danach folgt eine weitere Ü2 „Über die Mischung aus Blau mit Gelb“, die weitere 10 Folien beherrscht, auf denen der Begriff „Grün“ achtmal vorkommt. Wenn nun nach <Grün> gesucht wird, dann darf das Suchergebnis weder nahelegen, dass der Bereich „Über alles außer Grün“ für den Suchenden relevanter sei als der Bereich „Über die Mischung aus Blau mit Gelb“, noch darf es als Ergebnis einen durchgehenden Bereich von 20 Folien präsentieren. Und wenn auf der letzten Folie im Bereich „Über alles außer Grün“ der Text „im nächsten Kursteil geht es dann um die Farbe Grün“ steht, dann sollte natürlich das Suchergebnis auch keinen Zusammenhang vorgaukeln, der auf dieser letzten Folie beginnt und sich bis zum Ende des folgenden Bereichs zieht.

Work in Progress: mit diesem komplizierten Suchergebnis können wir prüfen, ob die Suche den Unterschied zwischen Erwähnung und Behandlung gut verstanden hat.
Work in Progress: mit dieser etwas komplizierten Arbeitsansicht können wir prüfen, wie gut die Suche den Unterschied zwischen Erwähnung und Behandlung schon verstanden hat.

Das alles hört sich ziemlich konstruiert und theoretisch an, deshalb meine Empfehlung: Testen Sie die neue Kurssuche doch einfach einmal und schreiben Sie mir an wrede@symposion.de, was Sie davon halten, was wir verbessern sollten und welche Fehler Sie gefunden haben.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s