„Boar, wie geil..“ war das Echo, als meine neueste Erweiterung fĂŒr Carola im Familienkreis vorgestellt habe, also sollt auch Ihr daran teilhaben đ
Twinkle, Twinkle little PVA …
Bislang kam bei Carola, unserem Lieblings-Personal-Voice-Assistant, Jitsi beim Telefonieren zum Einsatz, weil es das brauchbarste SIP Programm war. Das hat sich radikal geÀndert, als Twinkle auf der BildflÀche erschien.
Die OberflĂ€che von Twinkle, daĂ mit zwei Leitungen auch mal eine Dreierkonferenz makeln kann, ist eher ernĂŒchtern:
Da Twinkle im Livebetrieb diese UI nicht offen haben muĂ, kann man das verschmerzen. Die UI von Jitsi ist klein, schön und kompakt, so wie man das von klassischen InstantMessangern erwartet. Bei Twinkle geht es aber hauptsĂ€chlich um SIP, ĂŒber das man auch Nachrichten schicken kann, und cooles Aussehen nicht so wichtig đ
Der schwierigste Teil von Twinkle ist seine Konfiguration, aber nur, wenn man den SIP-Providernamen falsch angibt. Merkt Euch mal: IMMER den Domainnamen angeben, also sipgate.de, fritz.box usw. NIE die IP!
Ok, jetzt haben wir ein funktionierendes SIP-Programm, was das mit Carola zu tun hat, dĂŒrfte Euch natĂŒrlich klar sein, man kann damit jemanden Anrufen. Das war natĂŒrlich der erste Test, also sagen wir Carola, wir wollen mit X sprechen, Carola sucht die Nummer raus, teilt das Twinkle mit und das ruft dann die Nummer an. Soweit hatten wir das schon mit Jitsi, wenn Ihr Euch erinnern mögt, steht auch so in der Default Config vom PVA drin.
Eigentlich nicht weiter spannend, dann können wir jetzt aufhören… Sekunde mal, das Telefon klingelt.
„Carola am Apparat“
„Wie war Ihr Name?“
„MĂŒĂten Sie das nicht wissen, Sie haben doch mich angerufen“
„ich will mit meiner Tochter sprechen“
„geht nicht, ist nicht da.“
„können sie ihr sagen, das ich angerufen habe“
„nein, kann ich sonstwie helfen?“
WÀre die Google Stimme noch etwas besser, wÀre das GesprÀch oben geeignet gewesen, einen Menschen zu tÀuschen. So aber ist es nur unsere neueste Errungenschaft: Carola nimmt aktiv das Telefonat an und spricht mit den Anrufenden \o/
Die fĂŒr das GesprĂ€ch nötige Config sieht so aus:
reaction:“wie war ihr name“,““,“Mein Name ist %KEYWORD“
reaction:“wer ist da“,““,“Hier ist %KEYWORD. Was möchten Sie von mir?“
reaction:“wer ist da“,““,“Sollten Sie das nicht wissen, sie haben mich angerufen!“
reaction:“ich will mit [Haushaltsmitglied1] sprechen“,““,“der ist unterwegs mit seiner Tabletschlampe Anja“
reaction:“ich will mit [Haushaltsmitglied2] sprechen“,““,“tut mir leid, die ist nicht zu sprechen.“
reaction:“ich will mit|sprechen“,““,“Ist nicht da“
reaction:“ich will mit|sprechen“,““,“Die Person ist mir unbekannt“
reaction:“ich will mit|sprechen“,““,“Pech gehabt, nicht da“
reaction:“ich will mit|reden“,““,“kenn ich nicht“
reaction:“ich will mit|reden“,““,“Pech gehabt, nicht da“
reaction:“können sie eine nachricht“,““,“nein, die Funktion ist noch nicht eingebaut“
reaction:“können sie eine nachricht“,““,“das tonband ist defekt“
reaction:“können sie eine nachricht“,““,“rufen Sie einfach spĂ€ter nochmal an.“
reaction:“können|sie|sagen|das“,““,“rufen Sie einfach spĂ€ter nochmal an.“
reaction:“können|sie|sagen|das“,““,“nein, kann ich sonstwie helfen?“
reaction:“können|sie|sagen|das“,““,“nein, der mp3-rekorder ist defekt“
Das ist natĂŒrlich nur ein Teil. Vorher mĂŒssen wir noch ein paar coole Techniken benutzen, damit sich Carola und wer auch immer da anruft, unterhalten können.
Der Pulseaudio Part
War klar, oder? Ohne Pulseaudio geht so etwas nicht, weil man PA erzÀhlen extern kann, wo welches Programm seinen Sound ausgeben soll. Jetzt muà ich etwas ausholen, denn ich habe zwei AudiogerÀte im PC:
- Die Mainboard Lautsprecher
- Einen HDMI Monitor mit Köpfhörerausgang
Wie Ihr vielleicht wisst, gibt es zu jedem AusgabegerÀt unter Pulseaudio auch die Möglichkeit einen Monitor davon als EingabegerÀt zu verwenden. Ihr ahnt vermutlich jetzt, wo die Reise hingeht. Wir verdrahten die Ausgabe von Twinkle zur Aufnahme von Carola und umgekehrt.
Da Carola ĂŒber gsay/say Ihre SĂ€tze an den Lautsprecher schickt, ist es tatsĂ€chlich so, daĂ Twinkles Aufnahme auf den Monitor vom Mainboard geht und Carola kurzfristig das HDMI GerĂ€t belauscht, auf dem Twinkle die Sachen ausgeben wird.
Der Scriptteil
Damit das klappt, braucht es zwei Bashscripte: pulse.out + pulse.in
pulse.out stellt die Ausgaben um, pulse.in die Aufnahmen. Die Scripte könnt Ihr hier finden:
https://github.com/Cyborgscode/Personal-Voice-Assistent/tree/main/plugins/twinkle
Zur Technik:
Schritt 1 – Die Sinkid finden, auf der ein Prozess seine Ausgaben macht
echo $( LANG=C pactl list sink-inputs | grep -e „Sink\ Input“ -e „node.name“)
Geht den Befehl wenn Musik lÀuft ein, da kommt das raus:
Sink Input #543 node.name = „qmmp“
LANG=C ist nötig, damit es eine definierte Sprache gibt, die parsebare Ergebnisse liefert. Sonst mĂŒĂte man das Script auf alle Sprachen erweitern. Jetzt haben wir die SinkID von QMMP und mĂŒssen wir noch wissen wohin die Reise gehen soll: pactl list sinks | grep „Name:“
kommt u.a. so ein Treffer: „alsa_output.pci-0000_0a_00.4.analog-stereo“ Das ist in meinem Fall, die normale Lautsprecherausgabe vom Mainboard. Jetzt noch in einer Anweisung zusammen bringen:
pactl move-sink-input 543 alsa_output.pci-0000_0a_00.4.analog-stereo
Damit ist QMMP auf die Lautsprecher gelegt. Jetzt als Befehl fĂŒrs Script: pulse.out qmmp default
Wenn Ihr die Scripte zu hause benutzen wollt, dann mĂŒĂt Ihr die Aus/Eingabe-GerĂ€tenamen anpassen.
Damit kann man jetzt schon neue Funktionen fĂŒr Carola bauen:
command:“schalte auf kopfhörer“,“EXEC:pulse.outx:x{config:audioplayer:pname}x:xhdmi“
command:“schalte auf lautsprecher“,“EXEC:pulse.outx:x{config:audioplayer:pname}x:xdefault“
command:“schalte um auf kopfhörer“,“EXEC:pulse.outx:x{config:audioplayer:pname}x:xhdmi“
command:“schalte um auf lautsprecher“,“EXEC:pulse.outx:x{config:audioplayer:pname}x:xdefault“replacements:“h d m i“,“hdmi“
replacements:“u s b“,“usb“command:“schalte .* um auf kopfhörer“,“EXEC:pulse.outx:x%0x:xhdmi“
command:“schalte .* um auf lautsprecher“,“EXEC:pulse.outx:x%0x:xdefault“
command:“schalte .* auf .* um“,“EXEC:pulse.outx:x%0x:x%1″
Die ersten vier Zeilen schalten den Default-Audioplayer um. Das ist eine nette kurzversion des Befehls. Mit {config:audioplayer:pname} bekommen wir den konfigurierten Prozessnamen von, in dem Fall, qmmp. Damit ist klar, wen das Script umschalten soll.
Die letzten drei Befehle wiederum nehmen einen beliebigen Prozessnamen an und schalten diesen Prozess auf wiederum beliebige GerĂ€te um. (Spart es Euch, das ist doppelt exploitsicher, egal wie oft Ihr da ein ; einfĂŒgen wollt, es wĂ€re nur ein Argument, keine Bashanweisung UND versucht mal Semikolon ĂŒber eine Spracheingabe als ; einbauen zu lassen đ ) Da kann man also auch firefox oder twinkle angeben.
Das alleine reicht aber noch nicht fĂŒr den Trick, ist aber eine sehr wichtige Grundlage!
Die Twinkleanbindung
Jetzt stellt Euch mal die Frage: „Woher weiĂ der PVA, daĂ jemand anruft?“ Antwort: „WeiĂ er nicht.“
Folgerichtig muĂ Twinkle die Arbeit leisten und Carola andocken đ Dazu brauchen wir das hier:
und dazu brauchen wir die zwei Script ( auch auf Github ) :
#!/bin/bash
echo „action=autoanswer“
echo „end“
sleep 2s
pulse.in „PipeWire ALSA [python3.10]“ hdmimonitor
pulse.in „PipeWire ALSA [twinkle]“ defaultmonitor
pulse.out „PipeWire ALSA [twinkle]“ hdmi
gsay „Hi, Carola am Apparat“
Die beiden ersten Anweisungen sind an Twinkle selbst, sofort abzuheben und nicht mehr auf das Script zu warten. An der Stelle kann man auch noch eine spezielle Behandlung fĂŒr bestimmte Anrufer einbauen, in dem man auf die CallerID checkt, aber das brauchen wir nicht.
Wir warten jetzt 2 Sekunden, damit alle Sinks aktiv sind und unsere Pulse.in und Pulse.out Scripte Ihre Magie ausfĂŒhren können.
Wenn das gesprÀch beendet wird, was Carola nicht beeinflussen kann, kommt das Gegenscript zum Einsatz:
#!/bin/bash
pulse.in „PipeWire ALSA [python3.10]“ usb
pulse.in „PipeWire ALSA [twinkle]“ usb
pulse.out „PipeWire ALSA [twinkle]“ default
echo „action=end“
Alles wird wieder auf normal umgestellt. Wenn wir da sind, können wir , in meinem Fall, ĂŒber die Kopfhörer den Anrufer hören und ĂŒber den Lautsprecher was Carola sagt. Das hat den Vorteil, daĂ wenn der Anrufer z.b. ein Programm mit Tonausgabe startet, er das auch hören kann, weil fĂŒr alle anderen Programme auĂer Twinkle, hat sich nichts an der eingestellten Konfig geĂ€ndert.
Jetzt seid Ihr dran
Ok, Freunde, an der Stelle ĂŒberlasse ich Euch jetzt das Feld. Ich will ausgeklĂŒgelte Telefonreaktionsketten sehen, in denen ein Anrufer solange wie möglich am Telefon gehalten wird đ Die besten kommen ins Github!
Pingback: GUI-Requester aus Bashscripten erzeugen - Marius Welt