Heu... J'aimerai savoir pourquoi 4 SSD flanchent d'un coup ?
Aucune idée. Multiples chocs électriques envoyés par le contrôleur et/ou le backplane ? Firmwares vaseux ? 42 ? Nous ne savons pas.
Tout ce qu'on peut dire :
- Nos 10 SSD, répartis en RAID 5 de 4 SSD + 1 spare dans 2 serveurs, proviennent de la même série : ils ont été achetés en même temps chez le même revendeur et leurs numéros de série se suivent même s'il y a quelques trous plus ou moins longs dans les séquences ;
- Aucune erreur n'a été remontée par SMART (avec un smartd configuré ainsi : https://wiki.arn-fai.net/technique:smartd ) ;
- mdadm a sorti plusieurs fois un des SSD de la grappe RAID en janvier 2017, le 18/05/2017 puis le 02/06/2017. À chaque fois, impossible de le faire détecter à nouveau par Linux avec un classique
echo 0 - 0 > /sys/class/scsi_host/hostX/scan
, il fallait rebooter. Ces événements ne nous inquiétaient pas outre mesure : un contrôleur SATA qui part en vrille et qui ignore un de ses ports, c'pas nouveau, c'était même parfaitement connu du support de Dell à une époque… De même, mdadm qui sort un disque d'une grappe parce que y'a eu un pet de mouche tout près, ça s'est déjà vu plusieurs fois ;
- Sauf que le 02/06/2017, ça re-foire 15 minutes après que nous ayons réintégré le disque dans la grappe RAID. On se dit qu'on va changer le SSD de slot et lala. Sauf que le disque n'apparaîtra jamais aux yeux du contrôleur depuis son nouveau slot. Idem si l'on le met dans un laptop. Même le BIOS n'affiche aucune info. Ce dernier met juste 3 plombes à effectuer le POST (car il voit une tension électrique différente sur le port SATA ? Ce qui pourrait signifier que tout le contrôleur à l'intérieur du SSD n'a pas grillé ?) sans pour autant réussir à initialiser le SSD ;
- À ce moment-là, on s'est dit que bon bah en fait ça n'a jamais été le slot qui foirait mais le SSD qui était aux portes de la mort. Donc on déplace un des SSDs restants dans le slot du SSD mort. Il n'apparaîtra jamais. Y compris sur le laptop ;
- Il reste donc 3 SSD, juste de quoi relancer la grappe RAID sans déplorer une perte de données. On transvase donc les SSDs dans un autre serveur que l'on n'a jamais utilisé en prod' (mais que l'on a testé vite-fait à l'achat, en 2015). Évidemment, en chemin on met les SSD dans le laptop : 2 OK, 1 mort. On boote quand même le serveur : 2 morts, 1 OK. Mort confirmée par le laptop. Nos SSD étaient tellement en souffrance que le simple fait de les mettre sous tension les fusillent ? ;
- Les 4 morts seront confirmées ultérieurement sur deux desktops. On a essayé de flasher un firmware, rien à faire. On a fait jouer la garantie 10 ans Samsung ;
- Nous sommes 2 mois plus tard et aucun des SSD utilisés dans notre autre serveur n'est tombé en panne donc la loi des séries ouaaaaaaais mais bon… ;
- Nous n'avions pas de supports de stockage à sacrifier pour vérifier notre hypothèse du contrôleur SATA ou du backplane qui envoie des châtaignes électriques. Notre contrôleur SATA est intégré à la carte mère (le « i » dans HP P410i, sa référence) donc impossible de le changer. Le format de chaque backplane étant différent, c'est particulièrement relou d'en trouver un. Donc nous n'avons pas creusé plus loin.