Problem mit einem NVMe-Gerät: Es fällt bei intensiven IO-Aktivitäten aus dem Bus, sodass ich nicht scannen oder zfs send verwenden kann

csdvrx · 22. März 2023

Hallo

Ich habe einen 100% reproduzierbaren Fehler mit einem WDC 740 NVMe Gerät, das während intensiver IO-Aktivitäten, zum Beispiel während einem ZFS-Scrub oder einem ZFS-Send, vom PCIe-Bus getrennt wird.

Ich habe verschiedene Ideen, warum es passieren könnte, und ein paar Dinge, die ich bereits ausschließen kann.

Beginnend mit den Ausschlüssen:

RAM-Probleme: Die Maschine hat ECC, aber die Überwachungstools haben nichts angezeigt. Zur Sicherheit läuft im Moment ein Memtest86, aber ich erwarte, dass er ohne Fehler sein wird.
Spannungsschwankungen: Ich benutze das Standard-Netzteil, aber die Stromversorgung liegt im normalen Bereich, wie die kleinen Anzeigen am Gerät zeigen. Eine USV hat nicht geholfen.
PCIE ASPM-Bugs in Bezug auf Stromprobleme: Das scheint das Gegenteil zu sein, da ASPM-Fehler normalerweise bei Stromsparmaßnahmen oder geringer Nutzung auftreten. Dieses Laufwerk war in normalem Gebrauch stabil. und bei geringer Nutzung und Stromsparmaßnahmen.

Schlimmer noch: Diese Fehler treten nur bei intensiver Nutzung auf. Ich vermute jetzt Überhitzungsprobleme, möglicherweise löst es einen besonderen Zustand aus, um das Laufwerk vor Schäden zu schützen (thermal throttling).

Derzeit ist dieses Pool nur mit einer Festplatte aufgrund von IO-Fehlern ausgesetzt.

Gibt es noch etwas, das ich für Diagnosen ausprobieren kann, ohne das Laufwerk zu stark zu belasten?

Jede Hilfe wäre willkommen, da die Daten vorerst darauf feststecken!! Sogar rsync verursacht zu viel Festplattenaktivität und einen Absturz!

Beispielsweise, wenn tatsächlich Überhitzung das Problem ist, würde ich gerne einige Einschränkungen für die I/O auferlegen, um sie langsamer zu machen und zu sehen, ob sie dann nicht mehr vom Bus getrennt wird, wenn ich große Datenmengen von der Festplatte übertrage (beginnend vielleicht mit einem Scrub).

Da ich keinen besseren diagnostischen Weg habe, wie kann ich solche Einschränkungen durchsetzen?

Ich kenne Tools, mit denen man die CPU- oder RAM-Nutzung begrenzen kann, aber nicht die Bandbreite einer NVMe-Festplatte.

Ist es auch möglich, einen abbrechbaren Scrub durchzuführen, falls er wieder vom Bus getrennt wird? Ich würde versuchen, die Bandbreite zu begrenzen und den Scrub zur Stabilitätstestung zu verwenden und den Auslösepunkt zu ermitteln, der dazu führt, dass das Gerät vom PCIe-Bridge getrennt wird.

Der Standard-Scrub kann nicht verwendet werden, wie er ist: Er schreibt den beabsichtigten Scrub in den Pool, den Prozess mit dem Pool, dann lässt er die NVMe-Festplatte abstürzen, was einen Neustart erfordert, dann wird er automatisch beim nächsten Booten fortgesetzt, was zu einer großen Aktivität führt und dazu führt, dass die NVMe-Festplatte abstürzt, meistens bevor ich eine Eingabeaufforderung für ein `zpool scrub -s pool' geben kann.

Klaus

Hey,

Diese Artikel sind lesenswert und könnten dein Verständnis über das Thema vertiefen:

Neue NVME fehlt im BIOS - so beheben
Wenn NVMe im BIOS nicht angezeigt wird, kann das ein großes Problem sein, da du keinen Zugriff darauf haben oder es zum Speichern von Daten ...
Windows 11: So funktioniert das Scannen
Windows 11 erleichtert das Scannen im Vergleich zu den Vorgängermodellen. Das Betriebssystem verfügt bereits über eine passende Anwendung ...
Windows 11: Drucker wird nicht erkannt - Das können Sie tun
Haben Sie Schwierigkeiten, Ihren Drucker unter Windows 11 zu erkennen? Keine Sorge, wir haben eine einfache Lösung für Sie. Befolgen Sie diese ...
WMI-Event ID 5858: Was ist das und wie löst man es?
Viele Benutzer haben gemeldet, dass der Event-Viewer Fehler in Bezug auf WMI-Aktivitäten mit der Ereignis-ID 5858 protokolliert hat. In ...

d1722825 · 22. März 2023

Wie stark erhitzt sich Ihre SSD? (Es sollte eine oder mehrere Temperaturwerte in der Ausgabe von

Code:

nvme smart-log

oder

Code:

smartctl -a

geben.)

Vielleicht könnten Sie die maximale zulässige Leistungsaufnahme der SSD reduzieren (siehe den Befehl

Code:

nvme set-feature

am Ende): NVMe performance vs. power management

Tritt ein Fehler bei der PCIe Advanced Error Reporting (AER) auf? Ist es aktiviert? https://www.kernel.org/doc/Documentation/PCI/pcieaer-howto.txt

Tritt dies auch bei anderen Dateisystemen auf? Oder nur beim Lesen des Blockgeräts?

Tritt dies auch bei hoher Schreibbelastung auf?

csdvrx · 22. März 2023

Es passiert bei jedem Dateisystem: Ich habe etwas Platz gelassen, also habe ich eine NTFS-Partition erstellt, Windows dort installiert und bei starker IO-Leistung stürzt es ab und zeigt die Meldung an, dass es mit dem Gerät kompatibel ist, das von der PCI-Busverbindung getrennt wurde.

Wenn ich das Laufwerk "normal" verwende, also mit geringer IO-Leistung, tritt das nicht auf. Bei intensiver IO-Leistung geschieht es jedoch, abhängig davon, wie stark die IO-Leistung ist: Mit "zfs send" stürzt es in 10 Sekunden ab. Mit dem "zpool script" kann es 10 bis 20 Sekunden dauern, möglicherweise weil der erste Teil des Scrubs nicht so IO-intensiv ist wie der nächste.

Dieses Verhalten tritt sowohl bei Schreib- als auch bei Lesevorgängen auf (ich habe versucht, auf eine Partition zu dd): Es wurde reproduziert, indem das ZFS-Volume schreibgeschützt eingebunden und dann ein zfs send-Vorgang zum Wiederherstellen von Daten durchgeführt wurde.

Ich habe keine AER gesehen (aber ich überprüfe es noch einmal!). Und das Smartlog-History zeigt keine Überschreitung kritischer Temperaturen in der Vergangenheit an. Es meldet nur unsicheres Herunterfahren, möglicherweise weil es von der Verbindung zum Bus abgefallen ist.

Was die Temperaturen betrifft, könnte es möglicherweise 2 Auslösepunkte geben, einen zum "Anhalten und Aussteigen aus dem PCI-Bus", der vor dem kritischen liegt? Ich werde es noch einmal überprüfen, nachdem ich die von Ihnen verlinkten Ressourcen gelesen habe. Vielen Dank!

Außerdem habe ich ein Skript vorbereitet, um die Temperatur sowohl aus den thermal_zones in /sys als auch aus der Smartctl-Ausgabe zu überwachen: Ich werde die Ausgabe alle 100 ms überwachen, während ich intensive Lese- und Schreibvorgänge durchführe, um den unbekannten Temperatur-Auslösepunkt zu ermitteln, der dieses Verhalten verursacht.

mercenary_sysadmin · 22. März 2023

Es tritt bei jedem Dateisystem auf: Ich habe etwas Platz gelassen, also habe ich eine NTFS-Partition erstellt und Windows dort installiert. Bei starker E/A-Aktivität stürzt es jedoch mit einer Fehlermeldung ab, die besagt, dass das Gerät nicht mit dem PCI-Bus kompatibel ist.

Mit anderen Worten, dies ist definitiv ein Hardwareproblem, kein ZFS-Problem.

Persönlich würde ich dies als starke Hinweise darauf sehen, dass Ihre NVMe-Festplatte unbrauchbar ist und durch ein anderes Modell ersetzt werden sollte. Möglicherweise gebe ich der Garantieabteilung von Western Digital die Möglichkeit, es zuerst richtig zu machen; Es besteht eine geringe, aber nicht null Chance, dass Sie einfach eine schlechte Einheit erhalten haben.

Wenn ich unbedingt so viel wie möglich aus der bereits als gestört eingestuften Ausrüstung herausholen müsste... würde ich mir ein neues Design für den Kühlkörper und Möglichkeiten zur Erhöhung des Luftstroms über diesen ansehen.

d1722825 · 22. März 2023

Könnten Sie versuchen, die SSD aus dem M.2-Steckplatz zu entfernen und wieder einzusetzen? Möglicherweise handelt es sich um ein Verbindungsproblem.

Welche Ausgabe erhalten Sie mit dem Befehl

Code:

lspci -vvv -s PCIeID

(wobei

Code:

PCIeID

die erste Spalte der Ausgabe von

Code:

lspci

entsprechend der SSD ist)?

Vielleicht könnten Sie die PCIe-Geschwindigkeit (oder PCIe-Generation) im BIOS begrenzen? (Wenn es sich um ein Verbindungsproblem handelt, ist eine langsamere Kommunikation möglicherweise stabiler.)

Ich habe in realistischen Bedingungen noch nie gesehen, dass eine SSD aufgrund von Überhitzung vom PCIe-Bus abfällt. Die Lese-/Schreibgeschwindigkeit sinkt vorher nahezu auf null.

Vielleicht handelt es sich um ein Firmware-Problem: Western Digital SN740 Solid State Drive Firmware Update | Driver Details | Dell UK

csdvrx · 22. März 2023

Könnten Sie versuchen, die SSD vom M.2-Slot zu entfernen und wieder einzusetzen? Vielleicht handelt es sich um ein Verbindungsproblem?

Dann handelt es sich um ein seltsames Verbindungsproblem, das nur auftritt, wenn die SSD perfekt auf einem Schreibtisch platziert ist und durch eine mysteriöse Vibration bei der Resonanzfrequenz von zfs send verursacht wird

Könnten Sie vielleicht die PCIe-Geschwindigkeit (oder PCIe-Generation) im BIOS begrenzen? (Wenn es sich um ein Verbindungsproblem handelt, könnte eine langsamere Kommunikation stabiler sein.)

Ich habe noch nie gesehen, dass eine SSD in realistischen Bedingungen aufgrund von Überhitzung vom PCIe-Bus abfällt. Die Lese-/Schreibgeschwindigkeit sinkt vorher fast auf null.

Der SN740 ist ziemlich neu. Es ist sehr wahrscheinlich, dass er aufgrund seines sehr hohen Stromverbrauchs neue Probleme mit sich bringt.

Überprüfen Sie die Spezifikationen unter https://documents.westerndigital.co...-nvme-ssd/product-brief-pc-sn740-nvme-ssd.pdf

Maximaler Stromverbrauch: 6,5W, mir ist kein Laufwerk bekannt, das so hoch gehen kann.

In core.c « host « nvme « drivers - kernel/git/torvalds/linux.git - Linux kernel source tree

Code:

/*
* Initialize latency tolerance controls.  The sysfs files won't
* be visible to userspace unless the device actually supports APST.
*/
ctrl->device->power.set_latency_tolerance = nvme_set_latency_tolerance;
dev_pm_qos_update_user_latency_tolerance(ctrl->device,
min(default_ps_max_latency_us, (unsigned long)S32_MAX));

Moderne Laufwerke könnten von einem default_ps_min_latency_us profitieren, um eine minimale Latenz zu erzwingen und den höheren PS0-Zustand auszuschließen.

Übrigens tritt das gleiche Problem auch unter Windows auf, das standardmäßig den höchsten Leistungsmodus auswählt, eine unvernünftige Wahl bei diesem Laufwerk: NVMe

csdvrx · 22. März 2023

Nach Überprüfung bin ich auf die Version 73110000 gestoßen, die neuer zu sein scheint als die Version 7310.4012, A00.

Die Ausführung des Befehls

Code:

fwupdmgr --get-updates

zeigt ebenfalls nichts an.

Derzeit vermute ich, dass der fehlende niedrige Stromsparmodus das Problem ist: Selbst ohne jeglichen nvme-Cmdline-Parameter werden PS 3, 4 und 5 als nicht funktionsfähig aufgelistet, daher muss etwas sie deaktivieren.

Das Problem scheint ähnlich zu sein wie in Conflict between linux kernel and nvme drives. Faulty power saving mode enabled? ("nvme_core.default_ps_max_latency_us=0 pcie_aspm=off" didn't help) und

https://imgur.com/a/j8N8fKf

, wo das Laufwerk bei Tests versagt, die eine hohe E/A-Aktivität generieren sollten.

CMDRSweeper · 22. März 2023

Überhitzung von NVMe-Laufwerken ist ein häufiges Problem, das zu Problemen führen kann. Die meisten Laufwerke neigen dazu, langsamer zu laufen, wenn die Temperatur zu hoch wird, und versuchen sich selbst einzuschränken.

Aber worauf ich achten würde, ist, ob du ein billiges, schickes Desktop-Mainboard hast und ob einige ihrer "NVMe-Kühler" eher schaden als nützen könnten. Es gab einige Beispiele, bei denen sie dazu neigen, eher zu isolieren als zu kühlen, aufgrund von Kontaktstellen am NVMe-Laufwerk und Materialauswahl.

csdvrx · 22. März 2023

Es handelt sich um einen Lenovo Kupferkühler mit einem Lenovo Board und hat zuvor mit einem Sabrent Laufwerk gut funktioniert.

Auch wenn ich nicht denke, dass die Wärmeleitpaste die Ursache ist, habe ich etwas mehr hinzugefügt und es hilft ein wenig (d.h., es stirbt nach einer längeren Verzögerung bei intensiver I/O).

Ich habe auch einige Honeywell PTM 7950, die meiner Erinnerung nach das beste nicht-leitende Wärmeleitpad/Paste sind. Ich könnte es ausprobieren, wenn die anderen Optionen fehlschlagen (wie z.B. die Leistungsdrosselung durch nvme-Befehle).

Ariquitaun · 22. März 2023

Geld blind auszugeben ist normalerweise keine kluge Vorgehensweise, aber m2 ssd Heatsinks sind nicht teuer. PCI4-Laufwerke werden unter Volllast warm.

Gibt es eine Möglichkeit, einen Heatsink und einen Lüfter auf das Laufwerk zu improvisieren? Hast du vielleicht deine Standard-Intel-Kühlung zur Hand? Oder sogar einen Metallblock, um ihm mehr thermische Masse und Oberfläche zu geben, und einen Tischventilator darauf gerichtet.

Hast du keinen Eintrag für das Laufwerk in den Sensoren? Anekdotisch gesehen haben die beiden Computer mit nvme ssd, die ich zum Überprüfen zur Hand habe, Sensoren und melden Temperaturen.

csdvrx · 23. März 2023

Hier ist das Ergebnis von Sensoren aus meinen Skripten:

Code:

echo "  - Thermische Zonen, exklusive fehlerhafter Zone 1"
for i in 0 2 3 4 5 6 7 8 ; do
echo -n "Sensor $i: " ;
cat /sys/class/thermal/thermal_zone$i/temp | sed -e 's/^../& C /g';
done
echo "  - NVME PS und HW - dann PCI hwmon"
nvme get-feature /dev/nvme0 -f 2 -H
smartctl -a /dev/nvme0n1 | grep Temp | grep Sensor
for i in /sys/devices/pci0000:00/0000:00:06.0/0000:04:00.0/nvme/nvme0/hwmon4/t* ;
do echo -n "$i: " ; cat $i;
done |grep -v min |sed -e 's/.*hwmon4/hwmon4/g' -e 's/:.[0-9][0-9]/& C /g';

Dies ist im Normalbetrieb:

Code:

    - Thermische Zonen
Sensor 0: 42 C 000
Sensor 2: 37 C 000
Sensor 3: 20 C 000
Sensor 4: 36 C 050
Sensor 5: 39 C 050
Sensor 6: 40 C 050
Sensor 7: 42 C 050
Sensor 8: 42 C 000
- NVME PS und HW - dann PCI hwmon
get-feature:0x02 (Energiemanagement), Aktueller Wert:00000000
Workload-Hinweis (WH): 0 - Kein Workload
Stromzustand (PS): 0
Temperatursensor 1:               44 Grad Celsius
Temperatursensor 2:               33 Grad Celsius
hwmon4/temp1_alarm: 0
hwmon4/temp1_crit: 87 C 850
hwmon4/temp1_input: 32 C 850
hwmon4/temp1_label: Zusammengesetzt
hwmon4/temp1_max: 83 C 850
hwmon4/temp2_input: 43 C 850
hwmon4/temp2_label: Sensor 1
hwmon4/temp2_max: 65 C 261850
hwmon4/temp3_input: 32 C 850
hwmon4/temp3_label: Sensor 2
hwmon4/temp3_max: 65 C 261850

Momentan bereite ich eine "Daten speichern" Operation vor, um alles zu sichern, indem ich die I/O drossel, bevor ich das zfs-send durchführe.

samarium-61815 · 23. März 2023

rsync mit begrenzter Bandbreite vielleicht

Spiegelung über eine NBD (Network Block Device) mit begrenzter Bandbreite?

csdvrx · 23. März 2023

Ich habe versucht, die Bandbreite zu begrenzen und bin gescheitert. Ich bereite ein Update vor.

samarium-61815 · 23. März 2023

Ich schlage vor, die Begrenzung auf der Netzwerkebene vorzunehmen und nicht auf der Blockgeräteebene.

Problem mit einem NVMe-Gerät: Es fällt bei intensiven IO-Aktivitäten aus dem Bus, sodass ich nicht scannen oder zfs send verwenden kann

Lösungsvorschläge

Neue NVME fehlt im BIOS - so beheben

Windows 11: So funktioniert das Scannen

Windows 11: Drucker wird nicht erkannt - Das können Sie tun

WMI-Event ID 5858: Was ist das und wie löst man es?

Similar threads: Problem mit einem NVMe-Gerät: Es fällt bei intensiven IO-Aktivitäten aus dem Bus, sodass ich nicht scannen oder zfs send verwenden kann

NVMe-SSD-Problem – Allgemeine Lösungen haben keinen Einfluss auf die Lösung des Problems

Seltsames Problem mit dem Windows-Bildbetrachter

PC-Problem: Ständige Meldung Vorbereitung automatischer Reparaturen und Absturz des Notebooks

Generalüberholt T480 Problem

Problem mit explorer.exe in Windows 11

Ich kann die Ruhezustandsfunktion in Windows 10 nicht mit Windows To Go aktivieren. Weiß jemand, wie man dieses Problem beheben kann?

Win 11 Tipps

Neue Windows 11 Themen