Problem mit einem NVMe-Gerät: Es fällt bei intensiven IO-Aktivitäten aus dem Bus, sodass ich nicht scannen oder zfs send verwenden kann

Diskutiere, Problem mit einem NVMe-Gerät: Es fällt bei intensiven IO-Aktivitäten aus dem Bus, sodass ich nicht scannen oder zfs send verwenden kann in Windows 11 Allgemeines forum; Hallo Ich habe einen 100% reproduzierbaren Fehler mit einem WDC 740 NVMe Gerät, das während...
C
c.
WinUser
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #1
Hallo

Ich habe einen 100% reproduzierbaren Fehler mit einem WDC 740 NVMe Gerät, das während intensiver IO-Aktivitäten, zum Beispiel während einem ZFS-Scrub oder einem ZFS-Send, vom PCIe-Bus getrennt wird.

Ich habe verschiedene Ideen, warum es passieren könnte, und ein paar Dinge, die ich bereits ausschließen kann.

Beginnend mit den Ausschlüssen:

  • RAM-Probleme: Die Maschine hat ECC, aber die Überwachungstools haben nichts angezeigt. Zur Sicherheit läuft im Moment ein Memtest86, aber ich erwarte, dass er ohne Fehler sein wird.
  • Spannungsschwankungen: Ich benutze das Standard-Netzteil, aber die Stromversorgung liegt im normalen Bereich, wie die kleinen Anzeigen am Gerät zeigen. Eine USV hat nicht geholfen.
  • PCIE ASPM-Bugs in Bezug auf Stromprobleme: Das scheint das Gegenteil zu sein, da ASPM-Fehler normalerweise bei Stromsparmaßnahmen oder geringer Nutzung auftreten. Dieses Laufwerk war in normalem Gebrauch stabil. und bei geringer Nutzung und Stromsparmaßnahmen.

Schlimmer noch: Diese Fehler treten nur bei intensiver Nutzung auf. Ich vermute jetzt Überhitzungsprobleme, möglicherweise löst es einen besonderen Zustand aus, um das Laufwerk vor Schäden zu schützen (thermal throttling).

Derzeit ist dieses Pool nur mit einer Festplatte aufgrund von IO-Fehlern ausgesetzt.

Gibt es noch etwas, das ich für Diagnosen ausprobieren kann, ohne das Laufwerk zu stark zu belasten?

Jede Hilfe wäre willkommen, da die Daten vorerst darauf feststecken!! Sogar rsync verursacht zu viel Festplattenaktivität und einen Absturz!

Beispielsweise, wenn tatsächlich Überhitzung das Problem ist, würde ich gerne einige Einschränkungen für die I/O auferlegen, um sie langsamer zu machen und zu sehen, ob sie dann nicht mehr vom Bus getrennt wird, wenn ich große Datenmengen von der Festplatte übertrage (beginnend vielleicht mit einem Scrub).

Da ich keinen besseren diagnostischen Weg habe, wie kann ich solche Einschränkungen durchsetzen?

Ich kenne Tools, mit denen man die CPU- oder RAM-Nutzung begrenzen kann, aber nicht die Bandbreite einer NVMe-Festplatte.

Ist es auch möglich, einen abbrechbaren Scrub durchzuführen, falls er wieder vom Bus getrennt wird? Ich würde versuchen, die Bandbreite zu begrenzen und den Scrub zur Stabilitätstestung zu verwenden und den Auslösepunkt zu ermitteln, der dazu führt, dass das Gerät vom PCIe-Bridge getrennt wird.

Der Standard-Scrub kann nicht verwendet werden, wie er ist: Er schreibt den beabsichtigten Scrub in den Pool, den Prozess mit dem Pool, dann lässt er die NVMe-Festplatte abstürzen, was einen Neustart erfordert, dann wird er automatisch beim nächsten Booten fortgesetzt, was zu einer großen Aktivität führt und dazu führt, dass die NVMe-Festplatte abstürzt, meistens bevor ich eine Eingabeaufforderung für ein `zpool scrub -s pool' geben kann.
 
K
Klaus

Lösungsvorschläge

Hey,

Diese Artikel sind lesenswert und könnten dein Verständnis über das Thema vertiefen:
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #2
Wie stark erhitzt sich Ihre SSD? (Es sollte eine oder mehrere Temperaturwerte in der Ausgabe von
Code:
nvme smart-log
oder
Code:
smartctl -a
geben.)

Vielleicht könnten Sie die maximale zulässige Leistungsaufnahme der SSD reduzieren (siehe den Befehl
Code:
nvme set-feature
am Ende): NVMe performance vs. power management

Tritt ein Fehler bei der PCIe Advanced Error Reporting (AER) auf? Ist es aktiviert? https://www.kernel.org/doc/Documentation/PCI/pcieaer-howto.txt

Tritt dies auch bei anderen Dateisystemen auf? Oder nur beim Lesen des Blockgeräts?

Tritt dies auch bei hoher Schreibbelastung auf?
 
  • Ersteller
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #3
Es passiert bei jedem Dateisystem: Ich habe etwas Platz gelassen, also habe ich eine NTFS-Partition erstellt, Windows dort installiert und bei starker IO-Leistung stürzt es ab und zeigt die Meldung an, dass es mit dem Gerät kompatibel ist, das von der PCI-Busverbindung getrennt wurde.

Wenn ich das Laufwerk "normal" verwende, also mit geringer IO-Leistung, tritt das nicht auf. Bei intensiver IO-Leistung geschieht es jedoch, abhängig davon, wie stark die IO-Leistung ist: Mit "zfs send" stürzt es in 10 Sekunden ab. Mit dem "zpool script" kann es 10 bis 20 Sekunden dauern, möglicherweise weil der erste Teil des Scrubs nicht so IO-intensiv ist wie der nächste.

Dieses Verhalten tritt sowohl bei Schreib- als auch bei Lesevorgängen auf (ich habe versucht, auf eine Partition zu dd): Es wurde reproduziert, indem das ZFS-Volume schreibgeschützt eingebunden und dann ein zfs send-Vorgang zum Wiederherstellen von Daten durchgeführt wurde.

Ich habe keine AER gesehen (aber ich überprüfe es noch einmal!). Und das Smartlog-History zeigt keine Überschreitung kritischer Temperaturen in der Vergangenheit an. Es meldet nur unsicheres Herunterfahren, möglicherweise weil es von der Verbindung zum Bus abgefallen ist.

Was die Temperaturen betrifft, könnte es möglicherweise 2 Auslösepunkte geben, einen zum "Anhalten und Aussteigen aus dem PCI-Bus", der vor dem kritischen liegt? Ich werde es noch einmal überprüfen, nachdem ich die von Ihnen verlinkten Ressourcen gelesen habe. Vielen Dank!

Außerdem habe ich ein Skript vorbereitet, um die Temperatur sowohl aus den thermal_zones in /sys als auch aus der Smartctl-Ausgabe zu überwachen: Ich werde die Ausgabe alle 100 ms überwachen, während ich intensive Lese- und Schreibvorgänge durchführe, um den unbekannten Temperatur-Auslösepunkt zu ermitteln, der dieses Verhalten verursacht.
 
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #4
Es tritt bei jedem Dateisystem auf: Ich habe etwas Platz gelassen, also habe ich eine NTFS-Partition erstellt und Windows dort installiert. Bei starker E/A-Aktivität stürzt es jedoch mit einer Fehlermeldung ab, die besagt, dass das Gerät nicht mit dem PCI-Bus kompatibel ist.

Mit anderen Worten, dies ist definitiv ein Hardwareproblem, kein ZFS-Problem. :)

Persönlich würde ich dies als starke Hinweise darauf sehen, dass Ihre NVMe-Festplatte unbrauchbar ist und durch ein anderes Modell ersetzt werden sollte. Möglicherweise gebe ich der Garantieabteilung von Western Digital die Möglichkeit, es zuerst richtig zu machen; Es besteht eine geringe, aber nicht null Chance, dass Sie einfach eine schlechte Einheit erhalten haben.

Wenn ich unbedingt so viel wie möglich aus der bereits als gestört eingestuften Ausrüstung herausholen müsste... würde ich mir ein neues Design für den Kühlkörper und Möglichkeiten zur Erhöhung des Luftstroms über diesen ansehen.
 
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #5
Könnten Sie versuchen, die SSD aus dem M.2-Steckplatz zu entfernen und wieder einzusetzen? Möglicherweise handelt es sich um ein Verbindungsproblem.

Welche Ausgabe erhalten Sie mit dem Befehl
Code:
lspci -vvv -s PCIeID
(wobei
Code:
PCIeID
die erste Spalte der Ausgabe von
Code:
lspci
entsprechend der SSD ist)?

Vielleicht könnten Sie die PCIe-Geschwindigkeit (oder PCIe-Generation) im BIOS begrenzen? (Wenn es sich um ein Verbindungsproblem handelt, ist eine langsamere Kommunikation möglicherweise stabiler.)

Ich habe in realistischen Bedingungen noch nie gesehen, dass eine SSD aufgrund von Überhitzung vom PCIe-Bus abfällt. Die Lese-/Schreibgeschwindigkeit sinkt vorher nahezu auf null.

Vielleicht handelt es sich um ein Firmware-Problem: Western Digital SN740 Solid State Drive Firmware Update | Driver Details | Dell UK
 
  • Ersteller
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #6
Könnten Sie versuchen, die SSD vom M.2-Slot zu entfernen und wieder einzusetzen? Vielleicht handelt es sich um ein Verbindungsproblem?

Dann handelt es sich um ein seltsames Verbindungsproblem, das nur auftritt, wenn die SSD perfekt auf einem Schreibtisch platziert ist und durch eine mysteriöse Vibration bei der Resonanzfrequenz von zfs send verursacht wird :)

Könnten Sie vielleicht die PCIe-Geschwindigkeit (oder PCIe-Generation) im BIOS begrenzen? (Wenn es sich um ein Verbindungsproblem handelt, könnte eine langsamere Kommunikation stabiler sein.)

Ich habe noch nie gesehen, dass eine SSD in realistischen Bedingungen aufgrund von Überhitzung vom PCIe-Bus abfällt. Die Lese-/Schreibgeschwindigkeit sinkt vorher fast auf null.

Der SN740 ist ziemlich neu. Es ist sehr wahrscheinlich, dass er aufgrund seines sehr hohen Stromverbrauchs neue Probleme mit sich bringt.

Überprüfen Sie die Spezifikationen unter https://documents.westerndigital.co...-nvme-ssd/product-brief-pc-sn740-nvme-ssd.pdf

Maximaler Stromverbrauch: 6,5W, mir ist kein Laufwerk bekannt, das so hoch gehen kann.

In core.c « host « nvme « drivers - kernel/git/torvalds/linux.git - Linux kernel source tree

Code:
/*
* Initialize latency tolerance controls.  The sysfs files won't
* be visible to userspace unless the device actually supports APST.
*/
ctrl->device->power.set_latency_tolerance = nvme_set_latency_tolerance;
dev_pm_qos_update_user_latency_tolerance(ctrl->device,
min(default_ps_max_latency_us, (unsigned long)S32_MAX));

Moderne Laufwerke könnten von einem default_ps_min_latency_us profitieren, um eine minimale Latenz zu erzwingen und den höheren PS0-Zustand auszuschließen.

Übrigens tritt das gleiche Problem auch unter Windows auf, das standardmäßig den höchsten Leistungsmodus auswählt, eine unvernünftige Wahl bei diesem Laufwerk: NVMe
 
  • Ersteller
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #7
Nach Überprüfung bin ich auf die Version 73110000 gestoßen, die neuer zu sein scheint als die Version 7310.4012, A00.

Die Ausführung des Befehls
Code:
fwupdmgr --get-updates
zeigt ebenfalls nichts an.

Derzeit vermute ich, dass der fehlende niedrige Stromsparmodus das Problem ist: Selbst ohne jeglichen nvme-Cmdline-Parameter werden PS 3, 4 und 5 als nicht funktionsfähig aufgelistet, daher muss etwas sie deaktivieren.

Das Problem scheint ähnlich zu sein wie in Conflict between linux kernel and nvme drives. Faulty power saving mode enabled? ("nvme_core.default_ps_max_latency_us=0 pcie_aspm=off" didn't help) und , wo das Laufwerk bei Tests versagt, die eine hohe E/A-Aktivität generieren sollten.
 
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #8
Überhitzung von NVMe-Laufwerken ist ein häufiges Problem, das zu Problemen führen kann. Die meisten Laufwerke neigen dazu, langsamer zu laufen, wenn die Temperatur zu hoch wird, und versuchen sich selbst einzuschränken.

Aber worauf ich achten würde, ist, ob du ein billiges, schickes Desktop-Mainboard hast und ob einige ihrer "NVMe-Kühler" eher schaden als nützen könnten. Es gab einige Beispiele, bei denen sie dazu neigen, eher zu isolieren als zu kühlen, aufgrund von Kontaktstellen am NVMe-Laufwerk und Materialauswahl.
 
  • Ersteller
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #9
Es handelt sich um einen Lenovo Kupferkühler mit einem Lenovo Board und hat zuvor mit einem Sabrent Laufwerk gut funktioniert.

Auch wenn ich nicht denke, dass die Wärmeleitpaste die Ursache ist, habe ich etwas mehr hinzugefügt und es hilft ein wenig (d.h., es stirbt nach einer längeren Verzögerung bei intensiver I/O).

Ich habe auch einige Honeywell PTM 7950, die meiner Erinnerung nach das beste nicht-leitende Wärmeleitpad/Paste sind. Ich könnte es ausprobieren, wenn die anderen Optionen fehlschlagen (wie z.B. die Leistungsdrosselung durch nvme-Befehle).
 
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #10
Geld blind auszugeben ist normalerweise keine kluge Vorgehensweise, aber m2 ssd Heatsinks sind nicht teuer. PCI4-Laufwerke werden unter Volllast warm.

Gibt es eine Möglichkeit, einen Heatsink und einen Lüfter auf das Laufwerk zu improvisieren? Hast du vielleicht deine Standard-Intel-Kühlung zur Hand? Oder sogar einen Metallblock, um ihm mehr thermische Masse und Oberfläche zu geben, und einen Tischventilator darauf gerichtet.

Hast du keinen Eintrag für das Laufwerk in den Sensoren? Anekdotisch gesehen haben die beiden Computer mit nvme ssd, die ich zum Überprüfen zur Hand habe, Sensoren und melden Temperaturen.
 
  • Ersteller
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #11
Hier ist das Ergebnis von Sensoren aus meinen Skripten:

Code:
echo "  - Thermische Zonen, exklusive fehlerhafter Zone 1"
for i in 0 2 3 4 5 6 7 8 ; do
echo -n "Sensor $i: " ;
cat /sys/class/thermal/thermal_zone$i/temp | sed -e 's/^../& C /g';
done
echo "  - NVME PS und HW - dann PCI hwmon"
nvme get-feature /dev/nvme0 -f 2 -H
smartctl -a /dev/nvme0n1 | grep Temp | grep Sensor
for i in /sys/devices/pci0000:00/0000:00:06.0/0000:04:00.0/nvme/nvme0/hwmon4/t* ;
do echo -n "$i: " ; cat $i;
done |grep -v min |sed -e 's/.*hwmon4/hwmon4/g' -e 's/:.[0-9][0-9]/& C /g';

Dies ist im Normalbetrieb:

Code:
    - Thermische Zonen
Sensor 0: 42 C 000
Sensor 2: 37 C 000
Sensor 3: 20 C 000
Sensor 4: 36 C 050
Sensor 5: 39 C 050
Sensor 6: 40 C 050
Sensor 7: 42 C 050
Sensor 8: 42 C 000
- NVME PS und HW - dann PCI hwmon
get-feature:0x02 (Energiemanagement), Aktueller Wert:00000000
Workload-Hinweis (WH): 0 - Kein Workload
Stromzustand (PS): 0
Temperatursensor 1:               44 Grad Celsius
Temperatursensor 2:               33 Grad Celsius
hwmon4/temp1_alarm: 0
hwmon4/temp1_crit: 87 C 850
hwmon4/temp1_input: 32 C 850
hwmon4/temp1_label: Zusammengesetzt
hwmon4/temp1_max: 83 C 850
hwmon4/temp2_input: 43 C 850
hwmon4/temp2_label: Sensor 1
hwmon4/temp2_max: 65 C 261850
hwmon4/temp3_input: 32 C 850
hwmon4/temp3_label: Sensor 2
hwmon4/temp3_max: 65 C 261850

Momentan bereite ich eine "Daten speichern" Operation vor, um alles zu sichern, indem ich die I/O drossel, bevor ich das zfs-send durchführe.
 
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #12
rsync mit begrenzter Bandbreite vielleicht

Spiegelung über eine NBD (Network Block Device) mit begrenzter Bandbreite?
 
  • Ersteller
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #13
Ich habe versucht, die Bandbreite zu begrenzen und bin gescheitert. Ich bereite ein Update vor.
 
  • Problem mit einem NVMe-Gerät: Es fällt bei...
  • #14
Ich schlage vor, die Begrenzung auf der Netzwerkebene vorzunehmen und nicht auf der Blockgeräteebene.
 
Thema: Problem mit einem NVMe-Gerät: Es fällt bei intensiven IO-Aktivitäten aus dem Bus, sodass ich nicht scannen oder zfs send verwenden kann

Similar threads: Problem mit einem NVMe-Gerät: Es fällt bei intensiven IO-Aktivitäten aus dem Bus, sodass ich nicht scannen oder zfs send verwenden kann

NVMe-SSD-Problem – Allgemeine Lösungen haben keinen Einfluss auf die Lösung des Problems: Die interne SSD funktioniert nach dem letzten Windows-Update nicht mehr (keine Probleme vor dem Update, wird seit November 2021 verwendet, funktioniert gestern nicht mehr). Ein Blick auf den 2. „Standard NVM Express Controller“ besagt: „Dieses Gerät kann nicht gestartet werden. (Code 10). Es ist...
Seltsames Problem mit dem Windows-Bildbetrachter: Vor einiger Zeit hatte ich ein Problem mit einer Desktop-Verknüpfung, die das richtige Symbol nicht angezeigt hat. Trotz mehrerer Versuche, es zu ändern, blieb das Symbol unverändert. Also habe ich online recherchiert und die Datei iconcache.db gelöscht, was das Problem erfolgreich gelöst hat...
PC-Problem: Ständige Meldung Vorbereitung automatischer Reparaturen und Absturz des Notebooks: Kannst du mir helfen? Ich schalte meinen PC ein und es erscheint die Meldung "Bereite automatische Reparaturen vor", nach einer Weile erscheint dieser Bildschirm und mein Notebook schaltet sich ab und bleibt in dieser Schleife. RED:1bvako7
Generalüberholt T480 Problem: Ich bin mir nicht sicher, ob dies der richtige Ort ist, um das zu posten, aber hier geht es. Ich habe vor kurzem einen zertifiziert generalüberholten t480 von Amazon gekauft, aber er hat ein seltsames Problem. Zunächst einmal kamen diese Blätter (angehängte Fotos) mit der Anweisung, nur ein...

Problem mit explorer.exe in Windows 11

in Windows 11 Allgemeines
Problem mit explorer.exe in Windows 11: Probleme mit explorer.exe in Windows 11 Diskussion Es gibt schon seit langem ein Problem. Bei normaler Verwendung kommt es zu Tonstörungen, dann wird das System heruntergefahren, die Taskleiste verschwindet und schließlich auch der Desktop. Als ich in die Ereignisanzeige gegangen bin, habe...
Ich kann die Ruhezustandsfunktion in Windows 10 nicht mit Windows To Go aktivieren. Weiß jemand, wie man dieses Problem beheben kann?: Ich verwende einen Acer Swift 3 SF314-55, der über eine externe SSD mit Windows 10 hochgefahren wird. Mein Laptop unterstützt USB-Wake aus S4 Support, daher möchte ich gerne meine USB-Tastatur verwenden, um meinen Laptop aufzuwecken, da ich sowieso immer einen externen Monitor benutze und es...
Zurück
Oben