Vorschlag für einen besseren ft:pedia Volltextindex
Verfasst: 13 Feb 2023, 22:27
Hallo zusammen,
ich weiß nicht, ob das Thema hier oder bei "Rund um die Community" besser aufgehoben ist, ggf. bitte verschieben.
Die Suche unter <https://www.ftcommunity.de/search/ftpedia-search/> ist m.E. im Funktionsumfang etwas limitiert. Konkret:
* keine speziellen Suchen (Autorenname, Titel) möglich
* es wird ein Teil des Textes und die ft:pedia Ausgabe gelistet, hilfreiche Informationen wie bspw. der Titel fehlen
* Verlinkung erfolgt immer auf die komplette ft:pedia-Ausgabe, nicht auf den Artikel der gefunden wurde
Ich habe nun eine Alternative erstellt, die auf Xapian basiert. Das Erstellen des Index ist auf meinem Rechner eine Sache von ein paar Sek. und die Ergebnisse lassen sich m.E. besser auswerten / darstellen:
* es wird zu jedem Dokument ein JSON-Dokument in der Datenbank abgelegt, u.a. mit Titel, Autor(en), Erscheinungsjahr, …
* es können Suchen durchgeführt werden, die nur den Autor enthalten, bspw: author:falk
* es können Suchen durchgeführt werden, die die Rubrik des Artikels spezifizieren, bspw. author:till AND category:modell
* es wird ein Datensatz zur URL angelegt, der die genaue Seite des Artikels angibt, somit können die Artikel direkt angeklickt und aufgerufen werden.
Der komplette Code für die Datenbank (Erstellen des Index und Suche) ist unter <https://github.com/heuer/ftpediasuche/b ... ulltext.py> zu finden, m.E. recht kurz und überschaubar. Es wird eine DB mit einer Größe von ca. 20 MB erzeugt, darum liegt die DB auch nicht im Repository, sondern müßte selber erstellt werden.
Das dazugehörige Repository <https://github.com/heuer/ftpediasuche> hat noch ein paar zusätzliche Infos, so dass, bei Interesse, der Code auch in ftc-Webseite übernommen werden kann. Der komplette Code steht unter einer Public Domain ähnlichen Lizenz, so dass es auch keine Lizenzprobleme geben sollte.
Ein paar Bilder des Web-UI Prototyps im Anhang, wobei ich den gar nicht so wichtig finde und er kein Designvorschlag ist, aber die Funktionalität ggf. besser als Worte beschreibt.
Neben den genannten Kritikpunkten finde ich es etwas unglücklich, dass die Anfragen bei der derzeitigen Suche per POST und nicht via GET gestellt werden, aber das hat nur bedingt mit dem Funktionsumfang zu tun, auch wenn Anfragen via GET den Vorteil hätten, dass man Links über Suchanfragen austauschen kann.
Verlinkung der PDFs mit Seitenangabe
Suche nach Autoren (falk und riedel)
Suche im Titel Freitextsuche
Viele Grüße
Lars
ich weiß nicht, ob das Thema hier oder bei "Rund um die Community" besser aufgehoben ist, ggf. bitte verschieben.
Die Suche unter <https://www.ftcommunity.de/search/ftpedia-search/> ist m.E. im Funktionsumfang etwas limitiert. Konkret:
* keine speziellen Suchen (Autorenname, Titel) möglich
* es wird ein Teil des Textes und die ft:pedia Ausgabe gelistet, hilfreiche Informationen wie bspw. der Titel fehlen
* Verlinkung erfolgt immer auf die komplette ft:pedia-Ausgabe, nicht auf den Artikel der gefunden wurde
Ich habe nun eine Alternative erstellt, die auf Xapian basiert. Das Erstellen des Index ist auf meinem Rechner eine Sache von ein paar Sek. und die Ergebnisse lassen sich m.E. besser auswerten / darstellen:
* es wird zu jedem Dokument ein JSON-Dokument in der Datenbank abgelegt, u.a. mit Titel, Autor(en), Erscheinungsjahr, …
* es können Suchen durchgeführt werden, die nur den Autor enthalten, bspw: author:falk
* es können Suchen durchgeführt werden, die die Rubrik des Artikels spezifizieren, bspw. author:till AND category:modell
* es wird ein Datensatz zur URL angelegt, der die genaue Seite des Artikels angibt, somit können die Artikel direkt angeklickt und aufgerufen werden.
Der komplette Code für die Datenbank (Erstellen des Index und Suche) ist unter <https://github.com/heuer/ftpediasuche/b ... ulltext.py> zu finden, m.E. recht kurz und überschaubar. Es wird eine DB mit einer Größe von ca. 20 MB erzeugt, darum liegt die DB auch nicht im Repository, sondern müßte selber erstellt werden.
Das dazugehörige Repository <https://github.com/heuer/ftpediasuche> hat noch ein paar zusätzliche Infos, so dass, bei Interesse, der Code auch in ftc-Webseite übernommen werden kann. Der komplette Code steht unter einer Public Domain ähnlichen Lizenz, so dass es auch keine Lizenzprobleme geben sollte.
Ein paar Bilder des Web-UI Prototyps im Anhang, wobei ich den gar nicht so wichtig finde und er kein Designvorschlag ist, aber die Funktionalität ggf. besser als Worte beschreibt.
Neben den genannten Kritikpunkten finde ich es etwas unglücklich, dass die Anfragen bei der derzeitigen Suche per POST und nicht via GET gestellt werden, aber das hat nur bedingt mit dem Funktionsumfang zu tun, auch wenn Anfragen via GET den Vorteil hätten, dass man Links über Suchanfragen austauschen kann.
Verlinkung der PDFs mit Seitenangabe
Suche nach Autoren (falk und riedel)
Suche im Titel Freitextsuche
Viele Grüße
Lars