Wie gut ist Gemini 1.5 aka Gemma3 von Google?

Ich hab mal wieder Ollama und meine GPU gequält und ein „paar“ Tests gemacht 😉

Wie gut ist Gemini 1.5 aka Gemma3 von Google?

Wie gut etwas ist, ist immer relative zusehen zu dem, was man davon haben will. Es hängt auch davon ab, welche Variante man laufen lässt. Alles was ich jetzt sage, bezieht sich auf „gemma3:12b“ . „gemma3:27b“ meinte über 12b, es wäre Ihm ja so etwas von unterlegen, das müßte man gar nicht mehr in Worte fassen 😉 Er hats dann doch gemacht, aber das waren kaum mehr als ein paar Allgemeinphrasen, weil 27b halt mehr Tokens hat.

Meiner Meinung nach, ist 27b für eine Ryzen 5 Cpu schon zu langsam beim Antworten. Wenn es auf Qualität ankommt, mag das nicht mehr wichtig sein.

So, was habe ich getestet:

– Texte frei erzeugen,
– Texte überarbeiten,
– im Stil umschreiben.

Dabei kam raus, daß:

– fehlende Wörter im erzeugten Text ein echtes Problem sind
– falsche Worte im erzeugten Text ein echtes Problem sind z.B. „Einen Problem war, dass…“ Muß „Ein“ lauten.
– man das gar nicht so merkt, wenn man das liest, weil in meinem Kontext es eh komisch klingen sollte. Das war Teil der Aufgabe.
– das das Modell von Aufgabe zu Aufgabe immer länger brauchte, weil zu viele alte Prompts und Antworten berücksichtigt hat.
– das Aufträge nicht oder erst im zweiten Versuch, nachdem man das Model auf den Fehler hingewiesen hat, erledigt wurden.
– man öfter mal Ollama neu starten muß, weil es gar nicht mehr fertig wurde.

Einen positiven Aspekt gabs bei der Sache noch:

– man konnte sau gut mit ihm rumblöddeln, weil eh nur Quatsch bei rauskommt \o/

Was da raus kam, werde ich Euch vielleicht mal verlinken.

Wie hat sich Gemma3 im Bezug auf Treue zum Auftrag verhalten?

Im Großen und Gesamten hat es gemacht was es sollte und das hat es dann recht gut gemacht. Einiges mußte man noch umformulieren, Fehler beheben usw. . Es kommen also keine 100% so direkt abdruckbare Texte raus.

Einige male, muß man Auftragen neu formulieren, weil es einfach nicht das gemacht hat, was man gesagt hat. Da half es dann auch mal die Session zu clearen, sprich komplett neu anzufangen. Der Test lief über mehrere Wochen und damit automatisch über verschiedenen Sessions hin weg. Am Ende habe ich mir dann ein eigenes Model geclont, daß schon Anweisungen und Prompts enthielt, wo mit das dann nicht mehr ganz „bei 0 anfangen“ war.

Was man merkt ist,d aß das LLM über die Zeit besser wird den eigenen Stil zu verstehen, aufgrund der alten Prompts natürlich. Besser wärs, wenn man da ein Promptmerging machen könnte, wo die Essenzen der Session gespeichert werden und nicht jeder Text noch und nöcher verarbeitte werden muß.

Die Arbeit mit dem Model hat mich in der Ansicht bestärkt, daß so ein generatives Text LLMs per se nicht so brauchbar sind, außer für einen Anwendungsfall und für den habe ich das auch benutzt :DDD

Marius Welt

Wie gut ist Gemini 1.5 aka Gemma3 von Google?

Wie gut ist Gemini 1.5 aka Gemma3 von Google?

Wie hat sich Gemma3 im Bezug auf Treue zum Auftrag verhalten?

Related