Sprachsteuerung

Fratruart · Beitrag von **Fratruart** » 04 Jan 2021, 03:20

Moin Foren Mitglieder, Plane ein Kunst Projekt beim es darum geht eine Leinwand ( in meinem fratruart Youtube Kanal gibt es ein Video) mit einem Rahmen zu versehen auf dem sich eine Halterung befindet die durch Sprache gesteuert wird ( ich Lese zB.: etwas aus einem Roman) und die Sprachsteuerung setzt einen Stift in Bewegung der sich dann über die Leinwand bewegt und meine Sprache in Bögen und Co. Umsetzt.
Danke für eure Unterstützung

Viele Grüße fratruart

Speerwerfer · Beitrag von **Speerwerfer** » 04 Jan 2021, 09:43

Hmmm, und was genau willst du mit Fischertechnik dabei machen? Eine - wie auch immer funktionierende Sprachsteuerung - hat Fischertechnik nicht.

tintenfisch · Beitrag von **tintenfisch** » 04 Jan 2021, 10:36

Moin,

Fratruart hat geschrieben: ↑
04 Jan 2021, 03:20
[...] die Sprachsteuerung setzt einen Stift in Bewegung der sich dann über die Leinwand bewegt und meine Sprache in Bögen und Co. Umsetzt.[...]

Das ist ein interessantes Thema. Mit Bordmitteln von fischertechnik läßt sich das sicherlich nicht einfach umsetzen, aber mit dem offenen TX-Pi sollte das zu schaffen sein.

Zunächst gäbe es die Möglichkeit, die Daten an Google & Co. zu schicken, dort auswerten zu lassen und das Ergebnis wiederum auszuwerten. M.W. bietet neben Google auch Amazon entsprechende Möglichkeit. Damit begibt man sich natürlich in die Abhängigkeit des jeweiligen Anbieters und evtl. bekommt man auch Probleme, wenn nicht nur die eigene Sprache, sondern auch die von Dritten dorthin geschickt wird. Da müßte man sich vermutlich zuvor deren Einwilligung einholen.

* Google: https://cloud.google.com/speech-to-text
* Amazon: https://aws.amazon.com/de/lex/

Sympathischer wäre es sicherlich, die Daten auf dem eigenen Rechner auswerten zu lassen, ohne dass diese an Dritte in die Cloud geschickt werden müssen. Hier muß man dann ggfs. Abstriche bei der Erkennung machen und die begrenzte Rechenkapazität des Raspberry Pi berücksichtigen. Ich würde ein TX-Pi mit einem Raspberry Pi 4 gegenüber einem Raspberry 3 vorziehen.

Es gibt bspw. Snips mit dem man hauptsächlich Modelle bauen kann, um Keywords zu filtern. Das ist nicht Open Source, aber läuft auf dem eigenen Rechner. Vermutlich ist das nicht, das was Du suchst, weil man damit eher soetwas wie "Raspi, Licht an", "Raspi, Licht aus" umsetzen kann und m.W. weniger dazu geeignet ist, beliebige Texte zu erkennen.

In der Open Source Welt gibt es ein Projekt von Mozilla namens DeepSeech. M.W. ist dessen Zukunft etwas ungewiss, weil sich Mozilla ob Geldmangels davon trennen möchte oder sich davon bereits getrennt hat.

Ferner gibt es noch CMUSphinx, das jedoch bei deutschsprachigen Texten Probleme haben soll. Letzteres ist ein bei den Open Source Lösungen ein generelles Problem; mit englischen Texten kommt man sicherlich leichter zu brauchbaren Ergebnissen, einige Projekte unterstützen bspw. gar kein Deutsch, sondern nur Englisch (Julius).

Die Frage ist auch, was Du erreichen möchtest und ob Du überhaupt eine Sprachsteuerung benötigst oder ob es ausreichend ist, nur unterschiedliche Klänge beim Vorlesen eines Textes zu visualisieren. Das sollte einfacher umzusetzen sein.

Viele Grüße
Lars

Beitrag von **DirkW** » 04 Jan 2021, 12:58

Hallo fratruart,

eine Möglichkeit es mit fischertechnik umzusetzen gibt es, welche aber wohl sehr schwierig ist.

Man hat mit der fischertechnik Kamera auch ein Mikrofon, die Kamera muss dabei mit dem TXT Controller verbunden sein.

Spricht man ein Wort so verändert sich der Wert der Variablen. Während man das Wort spricht, müsste man mit dem
Liste-Element das Muster abspeichern. Somit hätte man ein Muster. Das Problem ist, das man ja nie ein Wort
mit exakt den gleichen Lauten und in der gleichen Lautstärke spricht. Somit ist die Wiedererkennung schwierig.

Aber das ist ein spannendes Thema, die Spracherkennung.

: Sprache.JPG (63.16 KiB) 7361 mal betrachtet

: Sprache1.JPG (49.29 KiB) 7361 mal betrachtet

Grüße
Dirk

elektrofuzzis · Beitrag von **elektrofuzzis** » 04 Jan 2021, 15:56

Hi,

die LyraT Boards von Espressif (=ftcSoundBar in der letzten ftpedia) können auch einfache Spracherkennung onboard. Unterstützt werden derzeit englische und chinesische Kommandos, die man in einer Art Lautschrift hinterlegt. Bislang habe ich damit aber nur oberflächlich experimentiert. Ist auf der Liste für ein späteres Release der ftcSoundBar.

Du kannst aber über die esp-Prozessoren generell auch eine Alexa-Integration machen, dann laufen aber Deine Sprachdaten wie bei Alexa üblich über Amazon zur Analyse. Hierfür gibt es von espressif auch ein fertiges Framework. Mehr als mal grob angeschaut, habe ich aber noch nicht damit gemacht.

Die Ankopplung an RoboPro kannst Du mit einer shared Library (.so-lib) über Wifi machen.

Gruss

Stefan

tintenfisch · Beitrag von **tintenfisch** » 04 Jan 2021, 17:50

Ich frage mich, ob wir über das Ziel hinausschießen...

Fratruart hat geschrieben: ↑
04 Jan 2021, 03:20
[...] meine Sprache in Bögen und Co. Umsetzt.[...]

Evtl. möchte der Threadersteller auch einfach nur Schwingungsbilder erstellen? Das würde aufwendigere Lösungen wie "Spracherkennung" überflüssig machen und ggfs. ließe sich das auch mit ft-Mitteln (plus zusätzlichem USB-Mikro oder eben die von @DirkW angesprochene Kamera) lösen.

Das würde das ganze auf eine Art Plotter reduzieren, man muß dann "nur" die Daten des Mikrofons in einen Graphen umsetzen.
Siehe u.a. dazu auch Tills Plotter auf Basis des ftDuino: https://www.youtube.com/watch?v=nAMwyCpBqOg

Edit: Oder hier mit etwas dramatischer Musik aber einer evtl. nützlichen Lösung um die Leinwand zu bewegen (dort wird der Plotter manuell gesteuert, es geht mir eher um eine etwas andere Umsetzung bzgl. des Plottens): https://www.youtube.com/watch?v=J1ursi-KQyA

Unabhängig von der Intention des Fragestellers finde ich das Thema "Spracherkennung" (inbes. in Kombination mit dem TX-Pi) spannend und würde mich freuen, wenn hier im Forum solche Projekte vorgestellt werden würden, so sie denn existieren.

Viele Grüße
Lars

Fratruart · Beitrag von **Fratruart** » 04 Jan 2021, 19:12

Moin,
Endschuldigung habe mich Falsch Ausgedrückt.
in meiner Jugend gab es Lichtorgeln die per Mikrofon auf den Sound aus den Lautsprecherboxen reagiert haben.

So eine Steuerung würde vollkommen ausreichen, habe kein Interesse Amazon Google und Co. für mein Projekt in Anspruch zunehmen.

Vielen Dank

für die Zahlreichen Antworten

fishfriend · Beitrag von **fishfriend** » 04 Jan 2021, 19:41

Hallo...
Ich gebe zu, ich würde es mit einer Art Fourier-Analyse und dann Richtungsumkehr machen. Das ginge auch über mehrere Achsen.
Das ist aber auch keine Sprachanalyse.
Es gab mal Bausätze die hatten ICs die auf bestimmte Worte reagierten. Die hatten so 10 Worte. Ich meine das es soetwas auch
für Arduino und co. gibt. Ist schon länger her.
Aber auch das trift nicht zu 100% das was gesucht ist.
Mit freundlichen Grüßen
fishfriend
Holger Howey

Techum · Beitrag von **Techum** » 29 Okt 2021, 19:58

Fratruart hat geschrieben: ↑
04 Jan 2021, 19:12
kein Interesse Amazon Google und Co. für mein Projekt in Anspruch zunehmen.

Verstehe ich. Auf der anderen Seite ist man z.B. mit SpeechRecognition recht flexibel, welche API man verwenden will. Es ist universell und flexibel.
Man kann auch mit ganzen Phrasen arbeiten.
Kommandos vom PC zum TXT oder vom Smartphone sind einfach umsetzbar.

Ist ein schöner Gag und man kann sich aufs Bauen konzentrieren.

Beispiel zum kopieren hier:
https://youtu.be/4EGyeFfQxKI
Die Programme (txt und Handy) werden Ende gezeigt und sind simpel.

Wir sind keine großer Programmierer, bitte seht uns formale Fehler nach. Noch lieber wären Vorschläge zur Verbesserung.

Direkte Eingabe am TXT haben wir nicht probiert, weil es darum ging, ein mobiles Modell per Voice zu steuern.

Vielleicht hat ja jemand Verwendung.
Wir hatten jedenfalls Spaß.

slusi · Beitrag von **slusi** » 29 Okt 2021, 23:06

In Kürze wird sich so etwas mit dem TXT 4.0 und der "Voice Control"-App von fischertechnik ganz gut umsetzen lassen.

Techum · Beitrag von **Techum** » 31 Okt 2021, 19:46

Tatsächlich!
Die Programmierung unter ROBO Pro Coding dazu ist ab Lernstufe 2 unter "Kommunikation" sichtbar.

Schöne Sache! - Vor allem ist die Erkennungsqualität ausgezeichnet! Ich habe es mit "left", "right", "forward" aber auch mit "go and get a cup of coffee" probiert, und die Erkennung war 100% korrekt - auf Anhieb.
Auch auf Deutsch keine Probleme mit den einfachen Befehlen wie "links, rechts, geradeaus", aber ebenso super: "mach mal schnell das Licht an" oder "geh und hol mir eine Kaffeetasse Kaffee".

Super umgesetzt von Fischertechnik!

Ich gebe das im Text zum Video mal mit an. Das Feature könnte Fischertechnik ruhig aggresiver vermarkten.

Zum Test: Wir haben freilich noch keinen TXT 4.0.
Ich habe stumpf in Master of Gizmos txt-4.0.py statt Localhost unter "# run main HTTPServer" die IP des Rechners eingetragen, auf dem der virtuelle TXT 4.0 läuft und diese Adresse samt port 8000 in die von SLUSI genannte App eintragen. Danach habe ich Befehle auf Deutsch und Englisch (nur diese beiden Sprachen gibt es in den Einstellungen zur Zeit) reingesprochen.
Mit MasterOfGizmo's FTDUINO könnte das schon funktionieren - die Sprachbefehle werden jedenfalls in der Python-Shell des Servers sichbar.

Schönen Abend noch
Techum

MasterOfGizmo · Beitrag von **MasterOfGizmo** » 01 Nov 2021, 15:33

Ja, jetzt wo die Apps verfügbar sind muss ich mein Script Mal anpassen und vor allem die Doku aktualisieren.

MasterOfGizmo · Beitrag von **MasterOfGizmo** » 03 Nov 2021, 19:51

Habt ihr mal ein RoboPro-Coding-Programm erstellt, das die Voice-Funktion nutzt und Euch dann den generierten Python-Code angeschaut? Bei mir kommt da nur kaputter Code raus und das VoiceControl-Objekt wird angelegt _nachdem_ es verwendet wird

Also wenn mir jemand verrät, wie man da gültigen Python-Code erzeugt, dann bringe ich meinem SofTXT die Nutzung des Voice-Features gerne bei.

Irgendwie habe ich das recht häufig, dass RP-C mir ungültigen Code erzeugt .... entweder bin ich zu doof oder das ist noch ziemlich buggy ...

MasterOfGizmo · Beitrag von **MasterOfGizmo** » 06 Nov 2021, 19:42

Gerade gab es ein Update für RP-C und nun wird Code in der richtigen Reihenfolge erzeugt.

MasterOfGizmo · Beitrag von **MasterOfGizmo** » 08 Nov 2021, 18:04

Die aktuelle Vesion vom SofTXT kann nun zumindest die Voice-Kommandos empfangen. Allerdings beschwert sich die App, dass keine passende App auf dem TXT läuft. Nun muss ich erraten, wie die Antwort darauf aussieht ...

Edit: Erraten: Die Antwort muss "application": "irgendein name" enthalten

Nun ist die die Voice-App zufrieden ...

MasterOfGizmo · Beitrag von **MasterOfGizmo** » 09 Nov 2021, 16:51

Die aktuelle Version von SofTXT unterstützt nun auch das VoiceCommand. Man kann also mit RoboPro Coding ein Programm schreiben, auf einem Linux-PC (mit ggf. angeschlossenem ftDuino) ausführen und dann mit der VoiceControl-App Sprachbefehle an das RoboPro-Programm schicken.

Ist für jemanden, der sich halbwegs mit Linux auskennt, vergleichsweise einfach zu nutzen. Man muss das Repository von SofTXT runterladen, das txt-4.0.py-Script starten und dann von den ft-Apps auf dem Smartphone nach <IP des Linux-PC>:8000 verbinden. Dann kann man RoboPro-Programme schreiben, die das Voice-Control nutzen.

: rpc_ftduino_voice.png (25.88 KiB) 5575 mal betrachtet

fischertechnik community forum

Sprachsteuerung

Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung

Re: Sprachsteuerung