Ich hab mal wieder Ollama und meine GPU gequĂ€lt und ein „paar“ Tests gemacht đ
Wie gut ist Gemini 1.5 aka Gemma3 von Google?
Wie gut etwas ist, ist immer relative zusehen zu dem, was man davon haben will. Es hĂ€ngt auch davon ab, welche Variante man laufen lĂ€sst. Alles was ich jetzt sage, bezieht sich auf „gemma3:12b“ . „gemma3:27b“ meinte ĂŒber 12b, es wĂ€re Ihm ja so etwas von unterlegen, das mĂŒĂte man gar nicht mehr in Worte fassen đ Er hats dann doch gemacht, aber das waren kaum mehr als ein paar Allgemeinphrasen, weil 27b halt mehr Tokens hat.
Meiner Meinung nach, ist 27b fĂŒr eine Ryzen 5 Cpu schon zu langsam beim Antworten. Wenn es auf QualitĂ€t ankommt, mag das nicht mehr wichtig sein.
So, was habe ich getestet:
– Texte frei erzeugen,
– Texte ĂŒberarbeiten,
– im Stil umschreiben.
Dabei kam raus, daĂ:
– fehlende Wörter im erzeugten Text ein echtes Problem sind
– falsche Worte im erzeugten Text ein echtes Problem sind z.B. „Einen Problem war, dass…“ MuĂ „Ein“ lauten.
– man das gar nicht so merkt, wenn man das liest, weil in meinem Kontext es eh komisch klingen sollte. Das war Teil der Aufgabe.
– das das Modell von Aufgabe zu Aufgabe immer lĂ€nger brauchte, weil zu viele alte Prompts und Antworten berĂŒcksichtigt hat.
– das AuftrĂ€ge nicht oder erst im zweiten Versuch, nachdem man das Model auf den Fehler hingewiesen hat, erledigt wurden.Â
– man öfter mal Ollama neu starten muĂ, weil es gar nicht mehr fertig wurde.
Einen positiven Aspekt gabs bei der Sache noch:
– man konnte sau gut mit ihm rumblöddeln, weil eh nur Quatsch bei rauskommt \o/
Was da raus kam, werde ich Euch vielleicht mal verlinken.
Wie hat sich Gemma3 im Bezug auf Treue zum Auftrag verhalten?
Im GroĂen und Gesamten hat es gemacht was es sollte und das hat es dann recht gut gemacht. Einiges muĂte man noch umformulieren, Fehler beheben usw. . Es kommen also keine 100% so direkt abdruckbare Texte raus.
Einige male, muĂ man Auftragen neu formulieren, weil es einfach nicht das gemacht hat, was man gesagt hat. Da half es dann auch mal die Session zu clearen, sprich komplett neu anzufangen. Der Test lief ĂŒber mehrere Wochen und damit automatisch ĂŒber verschiedenen Sessions hin weg. Am Ende habe ich mir dann ein eigenes Model geclont, daĂ schon Anweisungen und Prompts enthielt, wo mit das dann nicht mehr ganz „bei 0 anfangen“ war.
Was man merkt ist,d aĂ das LLM ĂŒber die Zeit besser wird den eigenen Stil zu verstehen, aufgrund der alten Prompts natĂŒrlich. Besser wĂ€rs, wenn man da ein Promptmerging machen könnte, wo die Essenzen der Session gespeichert werden und nicht jeder Text noch und nöcher verarbeitte werden muĂ.
Die Arbeit mit dem Model hat mich in der Ansicht bestĂ€rkt, daĂ so ein generatives Text LLMs per se nicht so brauchbar sind, auĂer fĂŒr einen Anwendungsfall und fĂŒr den habe ich das auch benutzt :DDD