Ça fait déjà plusieurs mois que l’utilitaire 3dm2 qui surveille les volumes RAID de mon serveur proxmox m’envoie des alarmes de temps en temps pour indiquer qu’un de mes disques (toujours le même) commence à avoir des secteurs difficiles à lire. Dernièrement j’ai reçu une nouvelle alarme de ce genre, avec cette fois-ci plusieurs secteurs d’un coup, signe que le disque commence vraiment à fatiguer. Dans ce genre de situation, la solution est simple : remplacer le disque par un nouveau de même taille, et reconstruire le volume RAID dessus. Ici, je vais plutôt en profiter pour faire une double manipulation, dont le but sera le remplacement des disques système de mon hyperviseur proxmox et le passage à des SSD.
Tout ceci à chaud, sans aucune interruption de production.
Le volume système de mon serveur repose sur un volume RAID1 de 1To, constitué de deux disques durs mécaniques de 1To chacun. C’est l’un deux qui menace de tomber en panne et que je dois remplacer.
Identification physique du disque à remplacer et extraction de celui-ci
Les deux disques de ce volume sont installés dans des tiroirs hotplug à l’intérieur d’un boitier logé dans les emplacements 5 1/4 en façade de mon serveur. Je pense savoir lequel est dans quel tiroir, mais sans absolue certitude, je vais m’abstenir d’arracher sauvagement au hasard celui que je pense malade.
Le disque à remplacer est la sous-unité 0, branchée sur le port n°4 de ma carte RAID. Je pourrais suivre les câbles SATA dans mon serveur, mais j’avoue que j’ai la flemme de le faire.
Je vais plutôt retirer administrativement le disque de mon volume RAID. Une fois cette opération effectuée, je verrai bien en façade de mon serveur quelle diode d’activité ne clignote plus ce qui m’indiquera quel tiroir extraire.
Évidemment, là, il ne faut pas se rater…
Je précise qu’avant toute chose, j’ai sauvegardé l’intégralité de mes VMs, ainsi que la configuration de mon serveur; si je me loupe, je serais bon pour une réinstallation complète, et une restauration de la conf et de mes VMs.
Une dois le disque retiré administrativement du volume RAID, je génère de l’IO disque en démarrant par une exemple machine virtuelle sur le volume de stockage reposant sur le disque RAID. Le tiroir dont la led d’activité ne clignote pas contient le disque à retirer, tout simplement.
Remplacement du disque HS par un SSD, de taille plus importante que le disque d’origine et reconstruction du volume RAID1
L’idée ici, est premièrement de remplacer le disque mécanique par un SSD (dont je profiterai des performances plus tard), mais aussi d’utiliser un disque de taille plus importante que le disque d’origine (ici, je passe de 1To à 2To).
Bien entendu, le volume RAID1 fera toujours 1To après reconstruction, et une partie du nouveau disque ne sera virtuellement pas utilisée.
Le SSD de 2To est monté dans un adaptateur 3,5 pouces pour pouvoir être inséré dans le boîtier rack en façade du serveur.
Après insertion dans le rack, il faut procéder au rescan du bus SAS/SATA de la carte contrôleur pour détecter la présence du nouveau disque. Dès le nouveau disque détecté, il a été automatiquement intégré au volume RAID, et la reconstruction a commencé car le contrôleur est configuré en auto rebuild.
La reconstruction du RAID est toujours une étape délicate, car elle stress les disques et la panne d’un de ceux-ci en cours d’opération aboutirait dans mon cas à une perte totale du volume RAID et de ses données. Heureusement ici, ça s’est bien passé, et le volume était de nouveau pleinement opérationnel après 3 heures de reconstruction.
Remplacement du 2e disque dur mécanique par un SSD et nouvelle reconstruction du volume RAID1
Rien de bien nouveau dans cette deuxième étape. J’extrais le dernier disque mécanique après l’avoir déconnecté administrativement du volume RAID, puis je le remplace par le deuxième SSD.
Une nouvelle fois le volume se reconstruit automatiquement.
Cette fois-ci, la reconstruction n’a pris qu’un peu moins de deux heures, le fait d’être à présent en full SSD aidant.
Un fail : impossible d’augmenter la taille du volume RAID1
En effet, j’espérais pouvoir augmenter la taille de mon volume RAID en effectuant une migration de celui-ci. Toutefois, d’après la documentation de ma carte contrôleur, une migration n’est faisable que lorsqu’on change de niveau de RAID, ou de taille de stripe. Ce qui n’est pas mon cas.
Je vais donc devoir rester pour l’instant sur la taille initiale de mon volume système.
Cependant, c’est un mal pour un bien : pour profiter de mes 2To, il va falloir que je casse ce disque RAID, et que j’en reconstruise un tout neuf de 2To. Ce qui implique une réinstallation de mon hyperviseur. Hors ça va bientôt faire 2 ans que je procrastine en ne le mettant pas à jour, et il commence vraiment à dater : voilà une bonne motivation pour le faire.
o/