Carola – Personal Voice Assistent

Vor 2 Wochen hatte ich Euch schon von den ersten Schritten für Euren persönlichen Sprachassistenten für Linux berichtet, nun kommt der dafür nötige Code zu Euch.

Carola – Personal Voice Assistent

Das Projekt basiert noch immer auf VOSK, Mbrola und Java, so wie hier beschrieben:

Mbrola – etwas bessere Sprachsynthese

Wer eine deutsche Anleitung zum Installieren der Abhängigkeiten vorzieht, der wird oben fündig zusammen mit einigen nützlichen Infos. Jeder der gleich noch Carola mit installieren möchte, der muß hier auf Github in mein Repo schauen: https://github.com/Cyborgscode/Personal-Voice-Assistent

Neben der Anleitung zur Installation findet Ihr da alle Teile, die Ihr braucht um Euren PC ab sofort per Sprache zu bedienen.

Ziel von Carola

Das Ziel von Carola ist nicht, daß es für Euch Knöpfchen drückt oder Menüs öffnet. Vielmehr soll Carola ganz nebenbei Aufgaben erledigen, die einen perifer interessieren, z.B. im Programmieren oder Schreiben eines anderen Textes, die Musik zu steuern, damit Ihr aus dem Arbeitsfluß nicht rausfallt. Man muß auch nicht mehr zum PC laufen und leiser machen, wenn man gerade kein Handy in der Hose und KDE zur Hand hat, sprich auf einer Feier kann man Carola bitten die Musik leiser zu machen. Solche Dinge stehen hier im Fokus.

Natürlich könnt Ihr es auch produktiv zur Suche nach Dokumenten benutzen, Eure Emails diktieren oder jemanden anzurufen, wenn man die Möglichkeiten hat, die man dazu braucht.

Was Carola nicht tut

Carola wird Euch nicht Eure Lieblingsepisode auf Netflix abspielen oder WOW für Euch zocken, weil Ihr den Char leveln wollt … noch nicht 😉 Das ist zur Zeit zu komplex, wäre jetzt aber wiederum nicht so schwer, wie diverse Botscripte für Spiele beweisen. Eigentlich hapert es nur an den Programmen selbst, weil diese externen Input halt nur per Maus und Tastatur annehmen und keine API zur Verfügung stellen, wie QMMP das z.b. tut. Ich kann Firefox dazu bringen, Netflix zu öffnen, aber das wars dann auch schon.

Wie kann man Carola erweitern

Das erste was Ihr machen könnt ist Eure Apps in die Config einzutragen. Damit, sofern die Apps da funktional mitspielen, habt Ihr das schon einmal personalisiert.

Dann könnt Ihr die Befehlsworte natürlich selbst anpassen. Alles was es braucht ist ein Texteditor der idealerweise Java interpretieren kann und den Java Compiler, der bei Java dabei ist. Wer neue Funktionen einbauen möchte, muß leider Java können. Der universal Parser ist noch nicht fertig, kommt aber.

Wer nicht weiß wie man mit einem Javac Befehl umgeht, Carola weiß es. Solange Ihr keine Fehler einbaut, kann Sie sich selbst kompilieren, auf Zuruf 😉

Pinephone

Carola funktioniert auch auf dem Pinephone gut, klar ist ja auch ein Linux, braucht dort aber eine beta-Komponente von AlphaCephei. Wo man die her bekommt, steht in Github Readme drin. Ansonsten ist alles gleich. Nur eins muß einem klar sein: Wenn auf dem Pine Musik aus dem Lautsprecher kommt, übertönt das Eure Spracheingabe bei weitem! Also Sprachsteuerung und Musik geht nur bei Kopfhörereinsatz.

Alles weitere steht in den Sourcen des Projekts, also wünsche ich jetzt viel Vergnügen damit 🙂

Github: https://github.com/Cyborgscode/Personal-Voice-Assistent

Pinephone: Jetzt wissen wir definitiv, daß es langsam ist :)

Gerade von meinem Pine erzeugt:

PassMark PerformanceTest Linux

Pine64 PinePhone (1.2) (AllWinner A64)
4 cores @ 1152 MHz | 2.9 GiB RAM
Number of Processes: 4 | Test Iterations: 1 | Test Duration: Medium
--------------------------------------------------------------------------
CPU Mark: 355
Integer Math 8031 Million Operations/s
Floating Point Math 1058 Million Operations/s
Prime Numbers 2 Million Primes/s
Sorting 1590 Thousand Strings/s
Encryption 109 MB/s
Compression 2 MB/s
CPU Single Threaded 157 Million Operations/s
Physics 36.1 Frames/s
Extended Instructions (NEON) 143 Million Matrices/s
Memory Mark: 228
Database Operations 281 Thousand Operations/s
Memory Read Cached 2143 MB/s
Memory Read Uncached 1201 MB/s
Memory Write 2725 MB/s
Available RAM 832 Megabytes
Memory Latency 405 Nanoseconds
Memory Threaded 1322 MB/s
--------------------------------------------------------------------------

Wir haben es gefühlt, jetzt wissen wir: Der CPU Kern des Pinephones ist eine langweilige Kartoffel 😀

Die CPU hat weniger Dampf als ein „AMD Athlon II 170u“ von 2010, aber immerhin braucht Sie weniger Leistung dafür ( AMD 20W, A64 4W ). Erstaunt bin ich über die 109 MB/s Encryption, das ist ja mal nicht übel für so eine ansonsten langweilige CPU 😉

Naja, ist ja auch ein Handy 😀

Pinephone: Firefox 89 (Un)Nutzbarkeit

Da aus dem anderen Zimmer meiner Wohnung gestern zwei Stunden lang Mozilla und deren Angestellte verflucht und auf das übelste beschimpft wurden, möchte ich Euch auf eine graphische Reise von Berg der Hoffnung, ins Tal der Tränen mitnehmen.

Pinephone: Firefox 89 (Un)Nutzbarkeit

Vorweg, man kann mit Firefox auf dem Pinephone durchaus arbeiten, das gilt auch noch für Firefox 89. Es ist aber ein Weg voller Gefahren für Eure Stirn.

Natürlich habe ich es gestern nach dem Firefox 89 Update gleich mit WebRTC Videokonferenz und Matrix versucht, um zu sehen, ob dies noch funktioniert und/oder besser geworden ist. Zwei Dinge bleiben festzustellen:

  1. Megapixels gestartet zu haben, bevor man mit Firefox einen Matrixvideoanruf tätigen will, ist ganz schlecht. Da hilft nur der REBOOT aka. es geht dann nicht mehr.

  2. Firefox kann mit Jitsi Meet keine Kamera ansprechen, mit Matrix Web schon. Ich finde das mehr als merkwürdig.

und ein dringender Aufruf an alle Render-Engine-Hersteller dieser Welt:

„Hört endlich auf, Dinge außerhalb des physikalischen Bildschirms zu positionieren!“

Beispiele: ( ich habe keine Grafiken gemacht )

  • Es kommt ein Anruf rein, ein Requester geht auf, aber man kann keins der Buttons anklicken, weil beide Rechts aus dem Bildschirm raus sind. Dabei mehr als genug freier Platz im Restfenster!
  • Es gibt keine ZOOM Optionen, die man erreichen könnte, um den Zoomfaktor vom FF zu ändern. Das geht nur per Tastatur, welche durch notorische Abwesenheit auf einem Touchgerät glänzt 😉
  • Apps, die Navigationen extra breit machen, so daß für den eigentlich Hauptinhalt kein Platz mehr ist.
  • Buttons, die auf Teufel komm raus im Sichtfeld platziert werden, aber so klein sind, daß man sie nicht anklicken kann. Die Bilder die gleich kommen, vermitteln den falschen Eindruck, weil die auf Eurem Bildschirm viel zu groß dargestellt werden 😉

Fangen wir mal mit einer aufgeräumten Browseroberfläche an: Chromium

Chromium

Ja ja, man kann sich bei Netflix einloggen, aber zu sehen bekommt man leider nichts, weil das Widevine-Plugin fehlt.

Firefox – noch siehts ok aus

Nach dem Start sieht Firefox eigentlich ganz nett aus, oder? Bis man es nutzen möchte:

das nächste Bild zeigt nicht ein falsch gerendertes Aufklappmenü, es sind zwei 😀

ganz genau hinsehen!

Einige Menüs kann man nämlich nicht mehr zuklappen, bzw. die gehen beim Aufklappen von anderen Menüs nicht von alleine zu. Tja. Das ist das Hauptmenü:

Von „Zoom“ keine Spur mehr. DANKE MOZILLA! Das ist auf einem Display von 5,5 Zoll EXTREM HILFREICH!

Das einzige Menü, das was taugt, ist das Lesezeichenmenü:

und selbst das ist falsch positioniert: links noch Platz, aber Rechts was abschneiden.. das haben wir gerne.

Das liegt natürlich nicht am Firefox, sondern an dem mangelnden universellen UI-Toolkit für Handy. Gnome hat da schon mal was vorbereitet, aber nutzen muß es natürlich keiner und was dann passiert, sieht man hier.

Das ein Pinephone nicht einfach Desktopapps laufen lassen kann und alle erwarten könnten, daß das dann auch brauchbar ist, sollte jetzt allen klar sein. Man benötigt spezielle Bedien- und Layout-Ideen um auf einem physikalisch so kleinen Bildschirm zu bestehen. Da ist der Linuxansatz noch Lichtjahre vom normalen Appmarkt entfernt. Leider.

Dabei wäre es ja ein leichtes gewesen, von Android zu lernen, so wie es Plasma Mobil gemacht hat. App Uis müssen aufgeräumt und groß designt sein. Es hilft auch nicht, wenn der Desktop, warum auch immer, im laufenden Betrieb die DPI-Skalierung verändert. Das passiert öfter als man denkt.

Es gibt aber auch Lichtblicke: Portfolio, Lollypop, Fluffychat . Die können alle sauber auf dem Handy bedient werden.

Linux geht zwar mit großen Schritten auf dem Pinephone voran, aber bevor es nicht einen einheitlichen UI-Toolkit gibt, wird das ein steiniger Weg werden.