Moin,
Fratruart hat geschrieben: ↑04 Jan 2021, 03:20
[...] die Sprachsteuerung setzt einen Stift in Bewegung der sich dann über die Leinwand bewegt und meine Sprache in Bögen und Co. Umsetzt.[...]
Das ist ein interessantes Thema. Mit Bordmitteln von fischertechnik läßt sich das sicherlich nicht einfach umsetzen, aber mit dem offenen
TX-Pi sollte das zu schaffen sein.
Zunächst gäbe es die Möglichkeit, die Daten an Google & Co. zu schicken, dort auswerten zu lassen und das Ergebnis wiederum auszuwerten. M.W. bietet neben Google auch Amazon entsprechende Möglichkeit. Damit begibt man sich natürlich in die Abhängigkeit des jeweiligen Anbieters und evtl. bekommt man auch Probleme, wenn nicht nur die eigene Sprache, sondern auch die von Dritten dorthin geschickt wird. Da müßte man sich vermutlich zuvor deren Einwilligung einholen.
* Google:
https://cloud.google.com/speech-to-text
* Amazon:
https://aws.amazon.com/de/lex/
Sympathischer wäre es sicherlich, die Daten auf dem eigenen Rechner auswerten zu lassen, ohne dass diese an Dritte in die Cloud geschickt werden müssen. Hier muß man dann ggfs. Abstriche bei der Erkennung machen und die begrenzte Rechenkapazität des Raspberry Pi berücksichtigen. Ich würde ein TX-Pi mit einem Raspberry Pi 4 gegenüber einem Raspberry 3 vorziehen.
Es gibt bspw.
Snips mit dem man hauptsächlich Modelle bauen kann, um Keywords zu filtern. Das ist nicht Open Source, aber läuft auf dem eigenen Rechner. Vermutlich ist das nicht, das was Du suchst, weil man damit eher soetwas wie "Raspi, Licht an", "Raspi, Licht aus" umsetzen kann und m.W. weniger dazu geeignet ist, beliebige Texte zu erkennen.
In der Open Source Welt gibt es ein Projekt von Mozilla namens
DeepSeech. M.W. ist dessen Zukunft etwas ungewiss, weil sich Mozilla ob Geldmangels davon trennen möchte oder sich davon bereits getrennt hat.
Ferner gibt es noch
CMUSphinx, das jedoch bei deutschsprachigen Texten Probleme haben soll. Letzteres ist ein bei den Open Source Lösungen ein generelles Problem; mit englischen Texten kommt man sicherlich leichter zu brauchbaren Ergebnissen, einige Projekte unterstützen bspw. gar kein Deutsch, sondern nur Englisch (
Julius).
Die Frage ist auch, was Du erreichen möchtest und ob Du überhaupt eine Sprachsteuerung benötigst oder ob es ausreichend ist, nur unterschiedliche Klänge beim Vorlesen eines Textes zu visualisieren. Das sollte einfacher umzusetzen sein.
Viele Grüße
Lars