Twinkle, Twinkle little PVA …

„Boar, wie geil..“ war das Echo, als meine neueste Erweiterung für Carola im Familienkreis vorgestellt habe, also sollt auch Ihr daran teilhaben 🙂

Twinkle, Twinkle little PVA …

Bislang kam bei Carola, unserem Lieblings-Personal-Voice-Assistant, Jitsi beim Telefonieren zum Einsatz, weil es das brauchbarste SIP Programm war. Das hat sich radikal geändert, als Twinkle auf der Bildfläche erschien.

Die Oberfläche von Twinkle, daß mit zwei Leitungen auch mal eine Dreierkonferenz makeln kann, ist eher ernüchtern:

Main-UI von Twinkle.

Da Twinkle im Livebetrieb diese UI nicht offen haben muß, kann man das verschmerzen. Die UI von Jitsi ist klein, schön und kompakt, so wie man das von klassischen InstantMessangern erwartet. Bei Twinkle geht es aber hauptsächlich um SIP, über das man auch Nachrichten schicken kann, und cooles Aussehen nicht so wichtig 😉

Der schwierigste Teil von Twinkle ist seine Konfiguration, aber nur, wenn man den SIP-Providernamen falsch angibt. Merkt Euch mal: IMMER den Domainnamen angeben, also sipgate.de, fritz.box usw. NIE die IP!

Ok, jetzt haben wir ein funktionierendes SIP-Programm, was das mit Carola zu tun hat, dürfte Euch natürlich klar sein, man kann damit jemanden Anrufen. Das war natürlich der erste Test, also sagen wir Carola, wir wollen mit X sprechen, Carola sucht die Nummer raus, teilt das Twinkle mit und das ruft dann die Nummer an. Soweit hatten wir das schon mit Jitsi, wenn Ihr Euch erinnern mögt, steht auch so in der Default Config vom PVA drin.

Eigentlich nicht weiter spannend, dann können wir jetzt aufhören… Sekunde mal, das Telefon klingelt.

„Carola am Apparat“
„Wie war Ihr Name?“
„Müßten Sie das nicht wissen, Sie haben doch mich angerufen“
„ich will mit meiner Tochter sprechen“
„geht nicht, ist nicht da.“
„können sie ihr sagen, das ich angerufen habe“
„nein, kann ich sonstwie helfen?“

Wäre die Google Stimme noch etwas besser, wäre das Gespräch oben geeignet gewesen, einen Menschen zu täuschen. So aber ist es nur unsere neueste Errungenschaft: Carola nimmt aktiv das Telefonat an und spricht mit den Anrufenden \o/

Die für das Gespräch nötige Config sieht so aus:

reaction:“wie war ihr name“,““,“Mein Name ist %KEYWORD“
reaction:“wer ist da“,““,“Hier ist %KEYWORD. Was möchten Sie von mir?“
reaction:“wer ist da“,““,“Sollten Sie das nicht wissen, sie haben mich angerufen!“
reaction:“ich will mit [Haushaltsmitglied1] sprechen“,““,“der ist unterwegs mit seiner Tabletschlampe Anja“
reaction:“ich will mit [Haushaltsmitglied2] sprechen“,““,“tut mir leid, die ist nicht zu sprechen.“
reaction:“ich will mit|sprechen“,““,“Ist nicht da“
reaction:“ich will mit|sprechen“,““,“Die Person ist mir unbekannt“
reaction:“ich will mit|sprechen“,““,“Pech gehabt, nicht da“
reaction:“ich will mit|reden“,““,“kenn ich nicht“
reaction:“ich will mit|reden“,““,“Pech gehabt, nicht da“
reaction:“können sie eine nachricht“,““,“nein, die Funktion ist noch nicht eingebaut“
reaction:“können sie eine nachricht“,““,“das tonband ist defekt“
reaction:“können sie eine nachricht“,““,“rufen Sie einfach später nochmal an.“
reaction:“können|sie|sagen|das“,““,“rufen Sie einfach später nochmal an.“
reaction:“können|sie|sagen|das“,““,“nein, kann ich sonstwie helfen?“
reaction:“können|sie|sagen|das“,““,“nein, der mp3-rekorder ist defekt“

Das ist natürlich nur ein Teil. Vorher müssen wir noch ein paar coole Techniken benutzen, damit sich Carola und wer auch immer da anruft, unterhalten können.

Der Pulseaudio Part

War klar, oder? Ohne Pulseaudio geht so etwas nicht, weil man PA erzählen extern kann, wo welches Programm seinen Sound ausgeben soll. Jetzt muß ich etwas ausholen, denn ich habe zwei Audiogeräte im PC:

  1. Die Mainboard Lautsprecher
  2. Einen HDMI Monitor mit Köpfhörerausgang

Wie Ihr vielleicht wisst, gibt es zu jedem Ausgabegerät unter Pulseaudio auch die Möglichkeit einen Monitor davon als Eingabegerät zu verwenden. Ihr ahnt vermutlich jetzt, wo die Reise hingeht. Wir verdrahten die Ausgabe von Twinkle zur Aufnahme von Carola und umgekehrt.

Da Carola über gsay/say Ihre Sätze an den Lautsprecher schickt, ist es tatsächlich so, daß Twinkles Aufnahme auf den Monitor vom Mainboard geht und Carola kurzfristig das HDMI Gerät belauscht, auf dem Twinkle die Sachen ausgeben wird.

Der Scriptteil

Damit das klappt, braucht es zwei Bashscripte: pulse.out + pulse.in

pulse.out stellt die Ausgaben um, pulse.in die Aufnahmen. Die Scripte könnt Ihr hier finden:

https://github.com/Cyborgscode/Personal-Voice-Assistent/tree/main/plugins/twinkle

Zur Technik:

Schritt 1 – Die Sinkid finden, auf der ein Prozess seine Ausgaben macht

echo $( LANG=C pactl list sink-inputs | grep -e „Sink\ Input“ -e „node.name“)

Geht den Befehl wenn Musik läuft ein, da kommt das raus:

Sink Input #543 node.name = „qmmp“

LANG=C ist nötig, damit es eine definierte Sprache gibt, die parsebare Ergebnisse liefert. Sonst müßte man das Script auf alle Sprachen erweitern. Jetzt haben wir die SinkID von QMMP und müssen wir noch wissen wohin die Reise gehen soll:  pactl list sinks | grep „Name:“

kommt u.a. so ein Treffer: „alsa_output.pci-0000_0a_00.4.analog-stereo“ Das ist in meinem Fall, die normale Lautsprecherausgabe vom Mainboard. Jetzt noch in einer Anweisung zusammen bringen:

pactl move-sink-input 543 alsa_output.pci-0000_0a_00.4.analog-stereo

Damit ist QMMP auf die Lautsprecher gelegt. Jetzt als Befehl fürs Script: pulse.out qmmp default

Wenn Ihr die Scripte zu hause benutzen wollt, dann müßt Ihr die Aus/Eingabe-Gerätenamen anpassen.

Damit kann man jetzt schon neue Funktionen für Carola bauen:

command:“schalte auf kopfhörer“,“EXEC:pulse.outx:x{config:audioplayer:pname}x:xhdmi“
command:“schalte auf lautsprecher“,“EXEC:pulse.outx:x{config:audioplayer:pname}x:xdefault“
command:“schalte um auf kopfhörer“,“EXEC:pulse.outx:x{config:audioplayer:pname}x:xhdmi“
command:“schalte um auf lautsprecher“,“EXEC:pulse.outx:x{config:audioplayer:pname}x:xdefault“

replacements:“h d m i“,“hdmi“
replacements:“u s b“,“usb“

command:“schalte .* um auf kopfhörer“,“EXEC:pulse.outx:x%0x:xhdmi“
command:“schalte .* um auf lautsprecher“,“EXEC:pulse.outx:x%0x:xdefault“
command:“schalte .* auf .* um“,“EXEC:pulse.outx:x%0x:x%1″

Die ersten vier Zeilen schalten den Default-Audioplayer um. Das ist eine nette kurzversion des Befehls. Mit {config:audioplayer:pname} bekommen wir den konfigurierten Prozessnamen von, in dem Fall, qmmp. Damit ist klar, wen das Script umschalten soll.

Die letzten drei Befehle wiederum nehmen einen beliebigen Prozessnamen an und schalten diesen Prozess auf wiederum beliebige Geräte um. (Spart es Euch, das ist doppelt exploitsicher, egal wie oft Ihr da ein ; einfügen wollt, es wäre nur ein Argument, keine Bashanweisung UND versucht mal Semikolon über eine Spracheingabe als ; einbauen zu lassen 😀 ) Da kann man also auch firefox oder twinkle angeben.

Das alleine reicht aber noch nicht für den Trick, ist aber eine sehr wichtige Grundlage!

Die Twinkleanbindung

Jetzt stellt Euch mal die Frage: „Woher weiß der PVA, daß jemand anruft?“ Antwort: „Weiß er nicht.“

Folgerichtig muß Twinkle die Arbeit leisten und Carola andocken 🙂 Dazu brauchen wir das hier:

und dazu brauchen wir die zwei Script ( auch auf Github ) :

#!/bin/bash

echo „action=autoanswer“
echo „end“

sleep 2s
pulse.in „PipeWire ALSA [python3.10]“ hdmimonitor
pulse.in „PipeWire ALSA [twinkle]“ defaultmonitor
pulse.out „PipeWire ALSA [twinkle]“ hdmi
gsay „Hi, Carola am Apparat“

Die beiden ersten Anweisungen sind an Twinkle selbst, sofort abzuheben und nicht mehr auf das Script zu warten. An der Stelle kann man auch noch eine spezielle Behandlung für bestimmte Anrufer einbauen, in dem man auf die CallerID checkt, aber das brauchen wir nicht.

Wir warten jetzt 2 Sekunden, damit alle Sinks aktiv sind und unsere Pulse.in und Pulse.out Scripte Ihre Magie ausführen können.

Wenn das gespräch beendet wird, was Carola nicht beeinflussen kann, kommt das Gegenscript zum Einsatz:

#!/bin/bash

pulse.in „PipeWire ALSA [python3.10]“ usb
pulse.in „PipeWire ALSA [twinkle]“ usb
pulse.out „PipeWire ALSA [twinkle]“ default

echo „action=end“

Alles wird wieder auf normal umgestellt. Wenn wir da sind, können wir , in meinem Fall, über die Kopfhörer den Anrufer hören und über den Lautsprecher was Carola sagt. Das hat den Vorteil, daß wenn der Anrufer z.b. ein Programm mit Tonausgabe startet, er das auch hören kann, weil für alle anderen Programme außer Twinkle, hat sich nichts an der eingestellten Konfig geändert.

Jetzt seid Ihr dran

Ok, Freunde, an der Stelle überlasse ich Euch jetzt das Feld. Ich will ausgeklügelte Telefonreaktionsketten sehen, in denen ein Anrufer solange wie möglich am Telefon gehalten wird 🙂 Die besten kommen ins Github!

PVA und das Fedora 35 Update

Fedora 34 nähert sich dem Ende also ist es Zeit auf Fedora 35 zu aktualisieren. Welche Folgen das für Carola und den PVA haben kann, kommt nach der Überschrift.

PVA und das Fedora 35 Update

Ihr könnt es Euch sicher denken, daß wenn das Update glatt durchgelaufen wäre, es diesen Artikel nicht geben würde 😉 Ergo, es ging was schief ..

Durch das dem Fedora 35 Update innewohnende Austauschen von Python, wurden leider alle nötigen Pythonerweiterungen gelöscht, da diese als ROOT für alle Benutzer installiert waren. Zum Glück müssen wir die nur schnell nachinstallieren, oder? 🙂

# pip3 install sounddevice vosk

Bisher reichte es aus nur das Sounddevice und Vosk per PIP zu installieren, aber jetzt brauchen noch ein Modul namens Tqdm:

# pip3 install tqdm

Danach startet Carola wieder durch, was man von anderen audiobasierten Tools nach dem Upgrade nicht behaupten kann… R.I.P. PulseEffects 🙁

neue Features für PVA Carola

Erst war es nur eine Idee, dann wurde es doch Realität: MP3 Metadaten 😉

neue Features für PVA Carola

Als ich in 2021 angefangen habe mit Carola einfachste Anweisungen umzusetzen, kamen schnell möglich Anwendungsfelder ins Spiel z.b. ein naheliegender Gedanke: auf Zuruf Musik abspielen können. Also schaute ich mir meinen Lieblingsplayer QMMP genauer an und der konnte alles per Kommandozeile mitgeteilt bekommen, was für ein Programm, daß eigentlich nur Bashbefehle absetzt naheliegend ist.

Natürlich reicht das nicht, weil man Musik ja auch suchen muß. Wer wie ich jetzt Spotify in Klein zu hause hat, der macht aus der kleinen Aufgabe, mal eben das ~/Musik Verzeichnis zu durchsuchen eine abendfüllende Angelegenheit, weil trotz M2.SSD der Suchvorgang recht lange braucht. Also cacht man trotzdem alles, was man so cachen kann, in diesem Fall alle Pfade und Dateinamen, damit man nur noch eine Datei laden und durchsuchen muß, was nicht mehr Minuten, sondern nur (Bruchteile von) Sekunden dauert.

Jetzt kann man mit einer vernünftigen Benennungsstrategie, recht gute Treffer für Begriffe wie „Queen“, „Elton John“ oder „Alles nur geklaut“ erzielen, aber grundlegende Suchen nach dem Genre fallen weg, weil man das üblicherweise nicht in den Dateinamen schreibt. Da andere Sachen wichtiger waren, blieb es also erst einmal bei dieser simplen Methode.

com.mpatric.mp3agic hat das geändert

Da es noch keine Methode gab, die Musiksammlung durch Metadaten nach Genres abspielen zu lassen, ohne dabei auf andere Audioplayer zu setzen, die nicht das Look&Feel von QMMP hatten, gab es auch keinen Grund die Musiksammlung dahin gehend zu indizieren und die Tags in die MP3-Dateien zu überführen. Wir hatten also ein Henne-Ei-Problem 😉

Github ist ein Hort von Software für fast alles und die JAVA Bibliothek com.mpatric.mp3agic konnte sehr einfach MP3Files auf alles mögliche analysieren. Leider dauerte ein Scan meiner fünfstelligen Sammlung bequeme 10 Minuten. Der Wert ist natürlich für eine Direktsuche viel zu schlecht. Michael, der Autor von mp3agic, konnte die Zeit durch Tipps auf unter 5 Minuten drücken aber auch das war mir noch zu lange.

Java kann eigentlich sehr einfach Subprozesse erzeugen und koordinieren, so daß ein gemeinsamer Datensatz erzeugt werden kann. Hmm.. also was macht man, wenn ein Sequenzielles Verarbeiten von Daten zu langsam ist und genug Prozessoren zur Verfügung stehen? Genau man parallelisiert den Vorgang 😀

Load 12000 – Tendenz steigend!

Ich hatte Carola vor einigen Wochen beigebracht mir den Status des PCs in menschlicher Form mitzuteilen, also nicht einfach stumpf die Load aufsagen, sondern abhängig von der Load entsprechend immer dramatischer klingende Sätze von sich zu geben, bis hin zur Überlastung mit Rotem Alarm und Warnsirenen 🙂 Leider war Carola im ersten, zu erfolgreichem, Versuch selbst die Ursache, so daß es mir leider keinen Kommentar zur Load von 12.000!!! geben konnte 😀

Die CPU brennt? 😀

Eine Load von 12.000 habe ich selbst in 20 Jahren Linux noch nirgendwo gesehen, entsprechend ungläubig habe ich mir die Werte in Top angesehen 😉 Aber wenn man mehr als 10.000 Prozesse gleichzeitig auf 12 unschuldige CPU Kerne loslässt, dann geht die Load relativ schnell nach oben, wenn die IO-Last steigt. Wenn man Anfangs noch 300 Prozesse gleichzeitig von der SSD hat versorgt lassen können, wird das für jeden Prozess der dazu kommt und für den noch kein früherer beendet wurde, immer langsamer, selbst mit „Bis zu 1.000.000 IOPS“ lesend (Samsung Werbung) , weil gar nicht genug Daten am Stück gelesen werden, so ein MP3-File ist ja schliesslich endlich, kann die SSD das nie ausspielen. Dazu kommt noch, daß ein Teil der Daten auf langsameren SATA SSDs oder SATA HDDs gespeichert waren, was die IO-Last deutlich steigert und die Performance drastisch in den Keller zieht.

Anders als bei einem SWAP-of-Death Zustand, ist eine Load von 12.000 kein Problem. Das System läuft bequem weiter, weil die CPU zwar durch IO-Wait gebremst werden, aber alle anderen Prozesse deswegen trotzdem ausgeführt werden können. Das Starten von neuen Anwendungen wird zum Problem, aber z.b. lief die Musik auch störungsfrei durch. Abbrechen kann man die Prozesse so auch leicht.

Wie aus 10+ Minuten 1,5s wurden

Vorteilhaft ist es, die nötigen Blöcke der Dateien bereits im Filecache des OS zu haben, aber um das zu erreichen muß man, welch Wunder, genau diese Blöcke schon einmal gelesen haben. Wenn man das gemacht hat, dann braucht man den zweiten Lauf nicht mehr, weil man das Ergebnis bereits hat. Nur der Statistikfreaks wegen, hier der Benchmark für einen Ryzen 5600X mit DDR4 3200MHz RAM: (bestwert) 1,5s auf 14.000+ Files.

Um den ersten Lauf durchzuführen, braucht man mit der Methode wahnsinnig viel Zeit, fast soviel wie sequenziell, weil durch die vielen Prozesse keiner der Prozesse richtig fertig wird, weil laufend Kontextswitche in der CPU und damit im IO-Controller stattfinden müssen, was höllisch inperformant ist. In der Praxis ist es daher besser ein niedrigeres Limit für die maximale Anzahl an Prozessen zu setzen, so daß die Platten hinterher kommen und die Kerne gut ausgelastet sind. Ich habe da mal 200 als Limit angesetzt.

Ohne Limit dauerte der Vorgang (ungecacht) :

$ time java PVA ‚:“carola erzeuge metadata“‚
erzeuge metadata
found MAKEMETACACHE:

real 15m39,380s
user 0m24,000s
sys 0m9,338s

Mit Limit 200 UND Debugausgabe in Terminal wo er ist…

argument:Das Metacache wurde aktualisiert.

real 0m44,807s
user 0m3,886s
sys 0m2,852s

Mit Limit 200, MIT Filecache UND OHNE Debugausgabe in Terminal wo er ist…

$ time env java PVA ‚:“carola erzeuge metadata“‚
erzeuge metadata
found MAKEMETACACHE:

real 0m3,385s
user 0m3,351s
sys 0m1,800s

Ich denke, das ist ein guter Kompromiss zwischen den Extremen 😉 Ist das Filecache richtig gefüllt, ist es auch egal wieviele Prozesse parallel starten: ob es 200, 2.000 oder 20.000 sind spielt dann keine Rolle mehr. Im ungecachten Zustand ist aber ein wichtiger Faktor, weil die Anzahl der Prozesse die IO-Last reguliert.

Merke: Das Filecache im RAM ist extrem wichtig!

Wie kommt man die Metadaten ran?

Dazu benutzt man am besten PICARD. Ja, ich dachte auch erst an TNG 😉

Mit Picard habt Ihr ein gutes Tool, das schnell, und meisten recht einfach, die Metadaten aus der MusicBrainz Datenbank auslesen kann. Es schreibt dann die Metadaten in die Files.

die Oberfläche von Picard, Links die Dateinamen, oben die Buttonreihe.

MP3 Files oder ganze Ordner hinzufügen.

Die Dateien auswählen

Die Dateien werden mit verschiedenen Wahrscheinlichkeiten erkannt

Noch speichern und wir sind fertig.

Nachdem man mit Picard irgendwann, realistisch so Wochen später, fertig ist, dann erzeugt man einmal die Metadaten mit dem PVA Befehl „erneuere metadaten“ und danach kann man mit Carola auch nach „SmoothJazz“ suchen, oder was Raghesh sonst noch so gefällt 😉

Termine! Termine, nichts als Termine!

Das Mantra der Postmoderne lautet nicht „Können Sie mich hören?“ sondern „Nicht schon wieder ein Meeting“. Nun bei der Anzahl der Meetings kann Carola zwar nicht helfen, aber bei der Organisation könnte sie jetzt hilfreich werden:

Carola erinnere mich am Dienstag um achtzehn Uhr dreißig an Linux am Dienstag

Der obige Satz führt dazu, daß Carola „Linux am Dienstag“ in die Termindatenbank aufnimmt und einen am nächsten Dienstag um 18:30 Uhr an unseren Treff „Linux am Dienstag“ erinnert. Genauso gut kann man den Tag weglassen oder „morgen“, „Übermorgen“ usw. verwenden. Da die Woche nur 7 Tage hat, können wir so nur rund eine Woche abdecken. Die Angabe des Datums fehlt noch. Der Satz:

Carola erinnere mich um achtzehn Uhr dreißig an Linux am Dienstag

ist auch völlig valide und meint implizit HEUTE ABEND um 18:30 Uhr.

Carola meine Termine bitte“ oder etwas unhöflicher „Carola meine Termine“ führt dann zu einer sprachlichen Auflistung der Termine. Löschen kann man die Termine noch nicht, da die Analyse des Datums im Code noch fehlt.

„Computer?“

Wem Carola als Name nicht gefällt, oder jemand einfach das vollständige Star Trek Feeling haben will, der kann den PVA jetzt per Befehl umbenennen 🙂

„Carola Dein neuer Name lautet computer“

Gleich danach hört Euer PVA auf den Namen „Computer“. Auf Spielchen mit „Siri“,“ok Google“ oder „Hallo Alexa“ würde ich verzichten, das beeindruckt Besucher kein bisschen 😉

Medienplayer wie MPV oder Celluloid

Wer den Artikel über die neue Mediaplayersteuerung noch nicht gelesen hat, der finden den hier:

Carola: Netflix & Mediaplayerkontrolle

Kleiner Ausblick auf die nächsten Tage: Ihr bekommt einen Technikvortrag über Systemd,Timers und JAVA fails 😉