Nvidia: Fehlercodes

Seit einigen Wochen nervt meine GTX 1050, eine schöne Gelegenheit Euch mal das Nvidia Fehlersystem näher zu bringen.

Nvidia: Fehlercodes

Zuerst müssen wir natürlich erstmal wissen, welcher Fehler überhaupt aufgetreten ist. Dazu braucht es nur dmesg:

$ dmesg |grep Xid
[ 5552.987812] NVRM: Xid (PCI:0000:01:00): 32, pid=1550, Channel ID 00000033 intr 00040000
[ 5731.173383] NVRM: Xid (PCI:0000:01:00): 32, pid=11658, Channel ID 00000033 intr 00040000
[ 5731.173633] NVRM: Xid (PCI:0000:01:00): 32, pid=11658, Channel ID 00000033 intr 00040000
[ 6326.298292] NVRM: Xid (PCI:0000:01:00): 32, pid=11982, Channel ID 00000033 intr 00040000
[ 6326.298525] NVRM: Xid (PCI:0000:01:00): 32, pid=11982, Channel ID 00000033 intr 00040000

Wie bei allen Kernelmeldungen steht am Anfang die Kernelzeit in Sekunden seit dem Boot. Danach kommt als erstes die PCI ID des Gerätes, aber da selten jemand zwei oder mehr Grafikkarten im PC hat, ist das für die meisten uninteressant. Der Fehlercode selbst ist die unscheinbare Zahl nach der PCI ID, hier „32“.

Auf der Webseite von Nvidia: xid errors findet sich dann die Beschreibung für den Fehler und erste Hinweise zur Ursache:

XIDFailureCauses
HW ErrorDriver ErrorUser App ErrorSystem Memory CorruptionBus ErrorThermal IssueFB Corruption

31

GPU memory page fault

X

X

32

Invalid or corrupted push buffer stream

X

X

X

X

X

Xid 32 meint also, daß der Datenstrom zu Grafikkarte unterbrochen wurde. Mögliche Ursachen: Der Graka-Speicher ist defekt, der PCI Bus hat ne Macke oder irgendwas ist überhitzt. (FB Corruption meint FRAMEBUFFER kaputt, das sind die Strukturen im OS/Programm welche die Grafik handhaben. )

Wie man vorn sehen kann, handelt sich nicht um einen HW Fehler, sondern am wahrscheinlichsten um einen Grafikkartentreiberbug.

Ab jetzt kann man nur noch spekulieren, weil das ja alles mögliche meinen kann. Es geht sogar soweit, daß Xid 32 Probleme bei der Stromzuführung in die Grafikkarte meinen kann, also wenn das Netzteil schwächelt. Da aber der Bildschirm nicht ausgeht, hat die Graka noch genug Saft, das kann es also eigentlich nicht sein.

Jetzt können wir noch etwas ausschließen: Thermalprobleme

55 Grad sind völlig normal. Im Bild oben sind zwar die Lüfter aus, aber die funktionieren nachweislich, denn man hört sie bei der Arbeit 😉

Das Nvidia Settingstool (oben im Bild) kann man beim Gamen auf dem zweiten Monitor mitlaufen lassen und so die Anzeige im Auge behalten.

Vielleicht doch nur ein Treiberproblem?

Jetzt bringt uns das nicht weiter. Wir haben zwar 2 Sachen ausschließen können, aber es blieben immer noch FB Problem, Memoryproblem. Keins davon kann man prüfen.

Was man jetzt noch prüfen könnte, steht im /var/log/messages sofern man das noch hat. ( Habt Ihr nicht mehr, nur noch Systemd? Ihr tut mir so leid .. ehrlich 🙁 )

$ grep NVRM /var/log/messages

Jul 23 00:43:18 eve kernel: NVRM: Xid (PCI:0000:01:00): 31, pid=1923, Ch 00000020, intr 10000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_PE_0 faulted @ 0x1_0ca39000. Fault is of type FAULT_PTE ACCESS_TYPE_READ

Andere Fehlernummer.. interessant. Ist ein reiner Anwendungsbug. In diesem Fall in WINE. Wine hat in den letzten Wochen unheimlich viele Updates rausgehauen. Es wäre also wirklich im Bereich des Möglichen, daß Wine bzw. der 3D Treiber in Wine ( DXVK ) hier die eigentliche Ursache sind.

Wine hat allerdings noch ganz andere Probleme, die die Entwickler aber leider nicht wahr haben wollen, weil Bugreports ignoriert werden. Ab Wine-Staging 5.5+ kommt es zu einem wahrlich irren Bug:

Es kommt in Verbindung mit dem Grakafehler zu einem IO-Fehler mit dem DVD-ROM, welches aber gar nicht benutzt wird noch eine DVD drin hat. Das sieht dann so aus:

[22163.062313] sr 1:0:0:0: [sr0] tag#26 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[22163.062316] sr 1:0:0:0: [sr0] tag#26 Sense Key : Not Ready [current]
[22163.062319] sr 1:0:0:0: [sr0] tag#26 Add. Sense: Medium not present – tray closed
[22163.062321] sr 1:0:0:0: [sr0] tag#26 CDB: Read(10) 28 00 00 00 00 00 00 00 08 00
[22163.062323] blk_update_request: I/O error, dev sr0, sector 0 op 0x0:(READ) flags 0x80700 phys_seg 2 prio class 0
[22163.062366] sr 1:0:0:0: [sr0] tag#3 unaligned transfer
[22163.062368] blk_update_request: I/O error, dev sr0, sector 0 op 0x0:(READ) flags 0x0 phys_seg 2 prio class 0
[22163.062370] Buffer I/O error on dev sr0, logical block 0, async page read
[22163.062382] sr 1:0:0:0: [sr0] tag#4 unaligned transfer
[22163.062383] blk_update_request: I/O error, dev sr0, sector 1 op 0x0:(READ) flags 0x0 phys_seg 2 prio class 0
[22163.062384] Buffer I/O error on dev sr0, logical block 1, async page read
[22163.062393] sr 1:0:0:0: [sr0] tag#5 unaligned transfer
[22163.062394] blk_update_request: I/O error, dev sr0, sector 2 op 0x0:(READ) flags 0x0 phys_seg 2 prio class 0
[22163.062395] Buffer I/O error on dev sr0, logical block 2, async page read
[22163.062404] sr 1:0:0:0: [sr0] tag#6 unaligned transfer
[22163.062405] blk_update_request: I/O error, dev sr0, sector 3 op 0x0:(READ) flags 0x0 phys_seg 2 prio class 0
[22163.062406] Buffer I/O error on dev sr0, logical block 3, async page read
[22163.062415] sr 1:0:0:0: [sr0] tag#7 unaligned transfer
[22163.062416] blk_update_request: I/O error, dev sr0, sector 4 op 0x0:(READ) flags 0x0 phys_seg 2 prio class 0
[22163.062417] Buffer I/O error on dev sr0, logical block 4, async page read
[22163.062425] sr 1:0:0:0: [sr0] tag#8 unaligned transfer
[22163.062427] blk_update_request: I/O error, dev sr0, sector 5 op 0x0:(READ) flags 0x0 phys_seg 2 prio class 0
[22163.062427] Buffer I/O error on dev sr0, logical block 5, async page read
[22163.062436] sr 1:0:0:0: [sr0] tag#9 unaligned transfer
[22163.062437] blk_update_request: I/O error, dev sr0, sector 6 op 0x0:(READ) flags 0x0 phys_seg 2 prio class 0
[22163.062438] Buffer I/O error on dev sr0, logical block 6, async page read
[22163.062446] sr 1:0:0:0: [sr0] tag#10 unaligned transfer
[22163.062448] blk_update_request: I/O error, dev sr0, sector 7 op 0x0:(READ) flags 0x0 phys_seg 2 prio class 0
[22163.062448] Buffer I/O error on dev sr0, logical block 7, async page read

und das ist nur beim Starten von Wine, da ist noch nicht mal eine GFX Operation gelaufen. Mit WIne 5.13 geht nicht mal ein Fenster auf, das ist derzeit komplett im *****.

Das bestärkt mich in der Annahme, daß es sich um reine Driverbugs handelt, die von WINE getriggert werden. Rein zur Vorsicht, habe ich das .nv/GLCache geleert, vielleicht lag da ja noch was defektes drin.

Mehr ist zu dem Zeitpunkt leider nicht feststellbar. Jetzt hilft nur Testen, updaten, Testen und weiter Testen.

 

CoronaChroniken: die App, die nichts tat.

Guten Morgen,

ich lese heute morgen Nachrichten und wäre fast aus dem Bett gefallen vor Lachen: 69 Millionen Euro für eine App, die ein Anfänger hätte zusammen klicken können und die bei Millionen nicht funktioniert hat.

CoronaChroniken: die App, die nichts tat.

Die Sache mit den Handies ist schon komisch, die sind dauernd an und laufen doch tagelang durch. Wieso fragt Ihr? Na weil die Handybetriebssysteme die Apps runterregeln, wenn die nicht gebraucht werden. Dieser Umstand war jetzt Pech für alle CoronaFans, die unbedingt wissen wollten, ob da einer mal irgendwann in Ihrer Nähe war, der Ihnen das Virus hätte vorstellen können: (Links dazu unten)

Chip.de: Millionen Android-Nutzer betroffen: Corona-Warn-App hat nicht gewarnt

Business Insider: Corona-Warn-App seit Wochen defekt, Millionen Deutsche betroffen

Auf Samsung und Huawei Handies (vermutlich Androidhandies im Allgemeinen) wurde die 69 Millionen Euro teure Corona-App, die man auch für einen vierstelligen Betrag hätte entwickeln lassen können, wenn man nicht SAP und die DTAG als Eurogräber beauftragt hätte, einfach von Hintergrundaufgaben wie „nach Handies suchen“ befreit. Ein Umstand, der erfahrenen Androidentwicklern bekannt gewesen wäre 🙂  Seit der Version 1.1.1 der App, soll das Problem jetzt behoben sein.

Da heute bei Heise.de ein Bericht über den Algorithmus zur Berechnung des Risikos gekommen ist, mußte ich wieder schmunzeln, weil da wieder „fiktiv“ und „RKI“ zusammen genannt wurden, was ich schon bei dem NowCast des RKI auch so gesehen habe 😉  Fakt ist nämlich, daß aufgrund des Energiesparprinzips, der Scan soll nur alle 5 Minuten passieren, Einer Einen mit eingeschalteter Warnung anniessen kann, weg geht und die App das nicht merkt. Das dürfte so ziemlich das wichtigste Szenario zur Ansteckung überhaupt sein, von „Bei Tönnies in der Produktion arbeiten“ mal abgesehen. Auch sonst macht die Berechnung der Wahrscheinlichkeit zur Ansteckung in der App nicht sofort Sinn. Mehr dazu bei Heise.

Ich halte die App daher für eine ziemlich teure Todgeburt. Von den 16 Mio. Usern waren gerade mal ~500 mit Warnung unterwegs, da kann man sich leicht ausrechnen, daß die anderen 16 Mio. kaum eine Chance hatten, auf einen zu treffen und dann muß die App das ja auch noch mitbekommen und das Risiko für gegeben halten. Wenn dann noch Millionen Corona-Apps im Energiesparmodus rumdümpeln, kann man das nur einen Flop nennen.

Wenn man dann noch so etwas von einem Unbekannten Forenbenutzer liest: „…die Corona-Warn-App flankiert noch die viel ’stärkere‘ Maßnahmen wie Maske, Abstand, …“  hmm.. ja, genau, diese Maske die nichts brachte 🙂 Da kann ich nur sagen, „Ihr habt es nicht besser verdient.“

Eine gute Idee

Wer sich schützen möchte, der sollte Abstand zu anderen ein- und seine ungewaschenen Hände vom Gesicht fernhalten. Eine gute Idee ist es, jetzt im Sommer nach draußen in die Sonne zu gehen, Vitamin D aufzutanken und sich keine unnötigen Sorgen zu machen, denn das schwächt das Immunsystem zusätzlich.

Ein Blick auf die Zahlen, ein leichter Anstieg ist zu bemerken, nichts dramatisches:

Wie immer: Zahlen vom RKI, Grafik von mir.

Kleiner Tipp zu dem was Ihr oben seht: Ich meine das ist das normale Grundrauschen eines Virus, außerhalb seiner Saison. Am Anfang der Kurve die 0 kann zwei Sachen bedeutet: Entweder „Virus schon immer da, aber keine Tests vorhanden/durchgeführt“ oder „Virus neu (und keine Tests)“, deswegen kein Grundrauschen. Wenn jetzt auf dem Niveau weiter geht, dann dauert es 166.000 Tage bis die Bevölkerung rein rechnerisch voll durchsetzt wäre, das sind immerhin 454 Jahre 😉 Bis dahin sind min. 414.558.750 Menschen in Deutschland gestorben, falls uns kein Krieg o.ä. einen Strich durch die Rechnung macht.

Quellen:

https://www.tagesspiegel.de/wirtschaft/69-millionen-euro-warum-die-corona-warn-app-so-viel-kostet/25929302.html

https://www.chip.de/news/Millionen-Android-Nutzer-betroffen-Corona-Warn-App-hat-nicht-gewarnt_182865757.html

https://www.businessinsider.de/tech/corona-warn-app-seit-wochen-defekt-millionen-deutsche-betroffen-samsung-huawei-smartphones

https://www.heise.de/hintergrund/So-berechnet-die-Corona-Warn-App-Ihr-Ansteckungsrisiko-4851495.html

CoronaChroniken: Der negative Maskeneffekt