Hey! Ich weiß nicht, ob ich hier richtig bin, aber ich brauche unbedingt Feddit’s Schwarmintelligenz. Ich bin mit meinem Latein am Ende und komme ums verrecken nicht mehr weiter.
Ich habe folgendes Problem:
- Mein Desktop-PC friert mir konstant ein und schmiert ab.
- Und damit meine ich wirklich KONSTANT. Ich darf ihn teilweise mehrmals täglich zwangsneustarten (Power-Knopf 10s), weil ich es nicht mal mehr über das Menü machen kann.
- Ich bekomme andauernd den Popup “App xy reagiert nicht, beenden?”, teils auch bei banalen Systemapps. Wenn ich auf Beenden klicke, passiert nichts, auch nicht im Taskmanager.
- Dabei ist es so, dass simple Programme schon häufig abkacken, komplexere (Bildbearbeitung, manche Spiele, etc.) umso häufiger.
- Liegt bestimmt am System? Denkste! Mein Laptop hatte zeitweise die exakt selbe Konfiguration, und der läuft seit Jahren komplett problemfrei. Das ist nur dieser eine PC.
Nun, was habe ich bisher alles probiert? + relevante Hintergrundinfos
- Erstmal hab ich mich natürlich sehr sehr ausgiebig selbst informiert. GPT (genauer gesagt Huggingface mit gekoppelter Websuche) war dabei eine riesen Hilfe.
- Das Problem besteht schon, seit dem ich die blöde Kiste habe, also ca. 1 Jahr. Ich hab ihn mir damals selbst zusammengebaut, teils aus Komponenten meines alten PCs, teils neuen. Ich gehe aber eigentlich eher nicht davon aus, dass ich was grob falsch gemacht habe. Dazu später.
Softwareprobleme kann ich (fast) ausschließen.
- Einerseits, siehe oben, waren die Konfigurationen die selben. Ich hatte bei beiden ca. 3 Monate lang Fedora Workstation, dazwischen unzählige andere Distros (OpenSuse Tumbleweed, Debian, Pop!OS, etc., selten länger als einen Monat) nur auf dem PC, und jetzt eine Zeit lang Fedora Atomic (Silverblue/ Kinoite/ Bazzite), welches imagebasierte Distros sind. Und tatsächlich sind die nochmal ein Stück weit problemärmer als die normalen Linux-Distros.
- Ich habe damals schon einen Feddit-Post gemacht, bei dem ich dachte, dass das Problem wegen meiner eigenen Dummheit in Bezug auf “Ich schrotte meinen Install” entstanden ist.
Hier der Link: https://feddit.de/post/3130750
Hat das Problem mit der Stabilität aber leider auch nicht nennenswert behoben, außer, dass ich nicht jede zweite Woche neuinstallieren muss. - Seltsamerweise funktionieren die Rollbacks aber auch nur teilweise.
- Beim KDE-Spin war es besonders auffällig. Da hatte ich bei fast jedem Boot einen schwarzen Bildschirm und bin dann im Rescue Mode gelandet, bei dem ich aber nichts machen konnte, nicht mal tippen, Logs auslesen o.ä., sehr seltsam. Normalerweise kann man damit ja ein zerschossenes System wiederherstellen, aber nö, nix da.
- Ich hatte in meiner Liste aber immer ein (von 5) Images, das funktioniert hat. Sobald die ausgetauscht wurden, z.B. nach einem Update oder Pin, haben andere Images manchmal wieder funktioniert. Dieses eine bestimmte Image hat dann aber auch reproduzierbar gebootet.
- Dass die Images mal so, mal so funktionieren macht überhaupt keinen Sinn.
- KDE war insgesamt etwas anfälliger für Totalausfall-Freezes, während bei Gnome mehr Programme einfach beschlossen, jetzt Feierabend zu machen. (Wie gesagt, die 1:1 selbe Konfiguration auf meinem Laptop hat extrem zuverlässig funktioniert!)
Hardware
Inkompatible Komponenten:
- Mit dem OS sollte alles wunderbar kompatibel sein. AMD GPU, ein leicht älteres und generisches ASUS-Mainboard (nicht die, die bei Linux Probleme machen, z.B. ROGs oder Laptops), und sonst auch nichts seltsames.
- Untereinander sollte auch alles funktionieren. 2 gleiche RAM-Riegel, BIOS-Einstellungen alle fast Standard, nichts über- oder untertaktet, etc.
Stromversorgung:
- In dem oben verlinktem Feddit-Thread hatten !u/superknet und !u/Atemu@lemmy.ml die Idee, dass es am Stromnetz liegen könnte. Sie waren auf dem richtigen Weg!
- Tatsächlich war in der alten Wohnung immer wieder mal kurz das Licht weg oder der Monitor hat sich kurz verabschiedet.
- Ich denke aber, durch das immutable System, sollte das kein Problem sein. Wenn beispielsweise ein Update unterbrochen wird, starte ich einfach von vorne und muss halt mit dem Image von gestern leben :) Mein “normales” System hätte es (und hat es auch) damit gebricked.
- Jetzt habe ich aber eine stabile Versorgung und trotzdem funktionierts nicht richtig…
Festplatte:
- Ich hab mir nen Live-USB geschnappt und mit
sudo smartctl -a meinefestplatte
meine NVMe gecheckt. - SMART hat keine Auffälligkeiten gezeigt, außer halt, dass das Gerät >300 Mal außerplanmäßig ausgeschalten wurde :D
CPU:
- Hab mit mit dem selben Live-USB per
GTKStressTesting
fast eine Stunde lang verschiedene Benchmarks gemacht, darunter auch mit Testalgorithmen, die besonders fehleranfällig sind. - Das System ist kein einziges Mal abgeschmiert/ gebugged, obwohl alle Kerne komplett ausgereizt waren. Im Gegenteil, es war minimal langsamer, aber hat butterweich funktioniert.
RAM:
- Hab mir einen USB mit
MemTest86+
gemacht und diesen für 3 Stunden (2 komplette Zyklen mit allen möglichen Algorithmen) laufen lassen. - Null Auffälligkeiten oder Fehlermeldungen
PSU:
- Hab ich auch schon ausgewechselt.
- Die jetzige brummt/ fiept ganz leicht, wenn das Gerät ausgeschalten ist, aber ich denke, dass das nur das latente Spulenfiepen der Kondensatoren oder so ist. Sobald der Strom weg ist, passt alles.
- Die PSU ist auch leistungsstark genug (850W), auch für die große Grafikkarte (AMD 6800XT). Unter Volllast, z.B. wenn ich lokales Stable-Diffusion laufen lasse, wird der Raum damit zwar krass geheizt, aber der PC läuft weiter als wäre nichts gewesen.
Temperatur:
- Hab ich während den Benchmarks und KI-Kram auch durchgehend gecheckt. CPU und GPU wurden nie heißer als 75-80°C max, Laufwerke ebenfalls nicht, Leitfähigkeitspaste hab ich auch erst vor nem halben Jahr erneuert, etc.
Weitere Lösungsideen?
- Neuinstallation: vielleicht ist durch die instabile Stromversorgung in der alten Wohnung damals ein Schreibfehler in der Festplatte aufgetreten. Da könnte ich das OS (mal wieder) neu installieren. Wäre mega nervig… aber wenn ihr sagt, dass es was bringen könnte, nagut.
- Neuinstallation nach Check: der SMART-Checkt könnte fehleranfällig sein. Es gibt auch destruktive Methoden, aber danach wäre die NVMe platt.
- Neue Komponenten: ich könnte das Mainboard, samt CPU und RAM, ersetzen. ^Wenn ich Geld hätte.^
- …?
Ich weiß wirklich nicht mehr weiter… was soll ich tun?
Edit 1
- Danke für eure unzähligen Kommentare! Die waren enorm hilfreich!
- Da der Live-USB und die Benchmarks unauffällig und stabil waren, besteht die Vermutung, dass es an der Festplatte liegt. Deswegen teste ich erstmal meine eingebaute Zweit-NVMe mit einem neu installiertem System.
- Wenn das nichts bringt, schau ich wegen dem Mainboard/ BIOS und update das mal
- Und dann schau ich weiter.
Mein defekter RAM war laut Memtest86 OK. Die Fehler hatte dann nur die Memory Diagnostics von Windows gefunden. Falls du da in irgendeiner Form Windows drauf hast, wäre das mal einen Versuch wert.
Ich hab den Post bei !c/Computerhilfe@feddit.de gecrossposted, und da hat auch schon welche vorgeschlagen, ich solls mal mit Windows testen, nur als Sanity-Check.
Wie finde ich die Memory-Diagnostics? Systemsteuerung Problembehandlung?
Meinst du mit Memtest86 das mit dem “+” (FOSS) oder das proprietäre? Habe eigentlich gehört, dass Memtest quasi der Standard ist, um defekte RAMs auszuschließen.
Aber danke für die Antwort! Werde ich testen!
Ich hab das Memtest aus der erstbesten Linux-ISO genommen, die ich auf meinem Ventoy-Stick hatte.
Unter Windows: Startmenü öffnen, Memory Diagnostics in die Suche tippen und starten. Dann macht er nen Reboot und testet. Nachteil: Das Tool zeigt während dem Test die gefundenen Fehler an, aber macht danach sofort nen Reboot. Das Ergebnis siehst du, wenn du davor sitzen bleibst. Alternativ kannst du nach dem neuen Reboot in Windows das Eventlog öffnen (Startmenü, Suche nach eventvwr) und dort den Eintrag suchen. Siehe Microsoft hier: http://hs.windows.microsoft.com/hhweb/content/m-en-us/p-6.2/id-4edd5f80-def2-4d32-965c-116d49fb9872/
Ah, okay. Von dem, was ich gelesen habe, soll man lieber die Live-USB-Variante davon verwenden, da das Memtest-Tool in einem gebooteten, vollwertigem OS nicht so zuverlässig funktioniert. Wer anders hat aber gemeint, dass der Test in dem Umfang, wie ich ihn gemacht habe, mehr als aussagekräftig und zuverlässig ist. Wie siehst du das?
Es sieht so aus, als ob es ein Speicherproblem ist:
- Booten von NVMe SSD --> Probleme
- Booten von USB --> funktioniert
Also mein erster Versuch wäre die NVMe SSD durch ein anderes Speichermedium zu ersetzen. Bevor du das tust, könntest du versuchen, die NVMe SSD erneut in den Slot einzusetzen, einen anderen Slot zu nehmen und die NVMe Kontakte auf Beschädigungen zu überprüfen.
Das Ding ist ja, ich hab eine zweite, kleinere NVMe bereits drin. Wenn ich mich recht erinnere, hatte ich mein OS damals auch mal ne Zeit lang drauf, und da hats genauso gespackt. Den Tipp mit raus- und reinbauen werd ich mal probieren. Schaden kanns ja nicht :)
Aber wie ich in einer anderen Antwort schon geschreiben habe, werde ich mal mein OS (zuerst vielleicht Windows, dann eine Linux-Distro) auf die zweite Festplatte klatschen und schauen, wie es sich da dann verhalten wird. Danke für den Vorschlag! :)
Ich erinnere mich dunkel, random Systemausfälle gehabt zu haben, als ich eine neue PSU angeschlossen hatte.
Die Ursache war letztendlich, dass ich mehrere Festplatten an dasselbe SATA-Kabel (hat mehrere Stecker) angeschlossen hatte, darunter die fürs System.
Nachdem die Platte ein eigenes hatte liefs wunderbar.
Live USB und Memtest haben also über Stunden ohne Probleme funktioniert? Dann kannst du den Fehler mit ziemlicher Sicherheit auf deine NVMe oder deine Installation eingrenzen. Ich hatte mal ein sehr ähnliches Phänomen, da war es letzten Ends auch die Festplatte obwohl SMART sagte, dass alles in Ordnung ist.
Sehr gut, danke! Das ist schon mal ein echt vielversprechender Anfang. Dann teste ich mal meine Zweit-NVMe, die schon im PC drinsteckt. OS draufklatschen und paar Tage intensiv testen. Und wenns genauso spinnt, liegt die Vermutung nahe, dass es daran auch nicht liegt. Wir werden sehen…
Dem SMART traue ich eh nicht so, weiß auch nicht. Dem Memtest/ Denkaufgaben der Benchmarks schon eher. Mint ist vom USB aus so smooth gelaufen, das ist schon fast auffällig… Dann mach ich das mal und gebe euch Bescheid, was rausgekommen ist 👍
Nimm einen zweiten PC, z.b. Laptop und log dich per SSH ein und folge dem syslog, also z.b. mit “journalctl -f” Und lass das so laufen und benutze deinen Deskop PC bis er sich wieder aufhängt. Mit etwas Glück bekommst du vielleicht irgendeine interessante Fehlernachricht zurück. Ausserdem wäre interessant ob du bei einem aufhänger, dich noch per SSH verbinden kannst zu der Kiste oder nicht. Wenn z.b. per ssh noch alles geht, aber der Desktop nicht reagiert dann grenzt es das ganze schonmal etwas ein.
Wenn du meinst dein Laptop hat die exact gleiche Konfiguration, was heisst das genau? Dein desktop hat sicherlich keine mobile CPU oder GPU, das heisst da sind schonmal unterschiede.
Tritt das Problem immer erst nach einer gewissen Zeit auf? Oder manchmal schon direkt nach dem start?
Die tatsache das nachdem du einen KDE spin booten wolltest, nur ein schwarzer Bildschirm kam, lässt mich auf die GPU schliessen. Falls die Fehlerhaft ist, kann es ziemlich schwierig sein das zu debuggen, vor allem wen der Fehler nicht konstant reproduzierbar ist.
Also strom probleme können ihre spuren hinterlassen. Da muss es nicht heissen das das OS davon betroffen ist, sonder im schlimmsten Fall die Hardware. Das genau zu identifizieren kann z.b. schwierig sein. (Instabile Lötstelle, defekter Resistor, etc…)
OS Neuinstallieren kann man machen, aber ich würde eher mal verschiedene LiveUSB distros ausprobieren und die mal nen Tag lang laufen lassen und sehen ob das Problem auch da auftritt.
Bleibt die Kiste laufen, wenn du sie nicht benutzt? Also im idle Betrieb, oder hängt es sich da auch auf?
Mit motherboards ist das so ne Sache. Die können manchmal ziemlich zickig sein, je nach Hersteller und Firmware version. Egal ob übertaktet oder nicht, oder auch wenn alles auf default settings ist. Von BIOS bugs mal ganz zu schweigen. Ein guter Ansatz ist hier, das man z.b. alle strom sparsachen abstellt. Sowohl im BIOS als auch in Linux selber. Bluetooth, WLan und Netzwerk chips können da manchmal auch zickig sein. Ansonsten kannste probieren alle unnötige onboard hardware im bios zu deaktivieren. Also z.b. wlan, bluetooth, etc…
SSDs und NVMEs funktionieren oft einwandfrei bis sie es plötzlich nicht mehr tun. Da hilft auch S.M.A.R.T. nicht viel weiter, weil man oft keine vorwarnung bekommt. Bei rotierenden Platten schon eher.
Ich nehme mal an deine CPU und Motherboard hat keine onboard grafikkarte? Eventuell wäre das auch eine Möglichkeit. Praktisch die dedizierte GPU auszubauen, und nur mit der lahmen onboard karte zu testen.
Was du auch probieren kannst ist linux auf der maschine im reinen konsolen modus zu betreiben und dann z.b. einen vnc server darauf starten und vom laptop aus gewisse graphische desktop applikation auszuprobieren. Dann kannst du z.b. die GPU als fehlerquelle ausschliessen.
Im Prinzip ist das grösste Problem hier, alle möglichen unbekannten Variablen. “Liegts vielleicht an …?” Gehe systematisch vor, damit du eins nach dem anderen ausschliessen kannst. Eventuell auch protokollieren unter welchen Umständen das Problem auftritt. Wie lang lief die Kiste etwa, was hatte ich grad alles offen, usw…
Im Prinzip ist das grösste Problem hier, alle möglichen unbekannten Variablen. “Liegts vielleicht an …?” Gehe systematisch vor, damit du eins nach dem anderen ausschliessen kannst.
Hab ich eigentlich versucht. Wie gesagt, Software kann ich tendenziell ausschließen.
Häufig, in dem Beispiel Gnome vs. KDE, äußern sich die selben Probleme nur in anderen Symptomen, bspw. dadurch, wie der Window Manager/ Compositor gebaut wurde.
Nimm einen zweiten PC, z.b. Laptop und log dich per SSH ein und folge dem syslog, also z.b. mit “journalctl -f” Und lass das so laufen und benutze deinen Deskop PC bis er sich wieder aufhängt. Mit etwas Glück bekommst du vielleicht irgendeine interessante Fehlernachricht zurück. Ausserdem wäre interessant ob du bei einem aufhänger, dich noch per SSH verbinden kannst zu der Kiste oder nicht. Wenn z.b. per ssh noch alles geht, aber der Desktop nicht reagiert dann grenzt es das ganze schonmal etwas ein.
Gute Idee, probier ich mal.
Wenn du meinst dein Laptop hat die exact gleiche Konfiguration, was heisst das genau? Dein desktop hat sicherlich keine mobile CPU oder GPU, das heisst da sind schonmal unterschiede.
Softwareseitig, das selbe Image. Durch die Immutability ist es das selbe reproduzierbare System.
Tritt das Problem immer erst nach einer gewissen Zeit auf? Oder manchmal schon direkt nach dem start?
Auch direkt beim Start
aber ich würde eher mal verschiedene LiveUSB distros ausprobieren und die mal nen Tag lang laufen lassen und sehen ob das Problem auch da auftritt.
Hab ich für paar Stunden gemacht, hab ich auch so geschrieben. Genauer gesagt nen Mint Live-USB mit GTKStresstest für ne Stunde, sowie einen USB mit MemTest86+.
Bleibt die Kiste laufen, wenn du sie nicht benutzt? Also im idle Betrieb, oder hängt es sich da auch auf?
Nur, wenn ich sie aktiv benutze, z.B. im Software-Center stöbern.
Ich nehme mal an deine CPU und Motherboard hat keine onboard grafikkarte? Eventuell wäre das auch eine Möglichkeit. Praktisch die dedizierte GPU auszubauen, und nur mit der lahmen onboard karte zu testen.
Tatsächlich hat sie das :D Wird getestet
Danke für die tollen Vorschläge!
Noch besser ist es wenn du dich direkt auf die serielle Schnittstelle hängst. Dann bekommst du sogar den Kerneldump mit in dem genau steht warum sich der Kernel verabschiedet hat.