alarmes 3dm2

Remplacement des disques système de mon hyperviseur proxmox

Ça fait déjà plusieurs mois que  l’utilitaire 3dm2 qui surveille les volumes RAID de mon serveur proxmox m’envoie des alarmes de temps en temps pour indiquer qu’un de mes disques (toujours le même) commence à avoir des secteurs difficiles à lire. Dernièrement j’ai reçu une nouvelle alarme de ce genre, avec cette fois-ci plusieurs secteurs d’un coup, signe que le disque commence vraiment à fatiguer. Dans ce genre de situation, la solution est simple : remplacer le disque par un nouveau de même taille, et reconstruire le volume RAID dessus. Ici, je vais plutôt en profiter pour faire une double manipulation, dont le but sera le remplacement des disques système de mon hyperviseur proxmox et le passage à des SSD.

Tout ceci à chaud, sans aucune interruption de production.

Le volume système de mon serveur repose sur un volume RAID1 de 1To, constitué de deux disques durs mécaniques de 1To chacun. C’est l’un deux qui menace de tomber en panne et que je dois remplacer.

alarmes 3dm2
Une nouvelle rafale de secteurs illisibles sur mon disque en train de rendre l’âme.

Navigation

Identification physique du disque à remplacer et extraction de celui-ci

Les deux disques de ce volume sont installés dans des tiroirs hotplug à l’intérieur d’un boitier logé dans les emplacements 5 1/4 en façade de mon serveur. Je pense savoir lequel est dans quel tiroir, mais sans absolue certitude, je vais m’abstenir d’arracher sauvagement au hasard celui que je pense malade.

disques de l'unité RAID1 n°0

Le disque à remplacer est la sous-unité 0, branchée sur le port n°4 de ma carte RAID. Je pourrais suivre les câbles SATA dans mon serveur, mais j’avoue que j’ai la flemme de le faire.

Je vais plutôt retirer administrativement le disque de mon volume RAID. Une fois cette opération effectuée, je verrai bien en façade de mon serveur quelle diode d’activité ne clignote plus ce qui m’indiquera quel tiroir extraire.

Évidemment, là, il ne faut pas se rater…

retrait administratif disque HS
Retrait administratif du disque HS.

Je précise qu’avant toute chose, j’ai sauvegardé l’intégralité de mes VMs, ainsi que la configuration de mon serveur; si je me loupe, je serais bon pour une réinstallation complète, et une restauration de la conf et de mes VMs.

Une dois le disque retiré administrativement du volume RAID, je génère de l’IO disque en démarrant par une exemple machine virtuelle sur le volume de stockage reposant sur le disque RAID. Le tiroir dont la led d’activité ne clignote pas contient le disque à retirer, tout simplement.

volume RAID dégradé après retrait du disque
Le volume RAID1 est dans un état dégradé après extraction du disque défectueux.

Remplacement du disque HS par un SSD, de taille plus importante que le disque d’origine et reconstruction du volume RAID1

L’idée ici, est premièrement de remplacer le disque mécanique par un SSD (dont je profiterai des performances plus tard), mais aussi d’utiliser un disque de taille plus importante que le disque d’origine (ici, je passe de 1To à 2To).

Bien entendu, le volume RAID1 fera toujours 1To après reconstruction, et une partie du nouveau disque ne sera virtuellement pas utilisée.

Le SSD de 2To est monté dans un adaptateur 3,5 pouces pour pouvoir être inséré dans le boîtier rack en façade du serveur.

SSD dans le rack
Le SSD de 2To monté sur un adaptateur 3,5 pouces, lui-même monté dans un tiroir du rack de disques durs.

Après insertion dans le rack, il faut procéder au rescan du bus SAS/SATA de la carte contrôleur pour détecter la présence du nouveau disque. Dès le nouveau disque détecté, il a été automatiquement intégré au volume RAID, et la reconstruction a commencé car le contrôleur est configuré en auto rebuild.

auto rebuild

La reconstruction du RAID est toujours une étape délicate, car elle stress les disques et la panne d’un de ceux-ci en cours d’opération aboutirait dans mon cas à une perte totale du volume RAID et de ses données. Heureusement ici, ça s’est bien passé, et le volume était de nouveau pleinement opérationnel après 3 heures de reconstruction.

premiere reconstruction ok

 

Remplacement du 2e disque dur mécanique par un SSD et nouvelle reconstruction du volume RAID1

Rien de bien nouveau dans cette deuxième étape. J’extrais le dernier disque mécanique après l’avoir déconnecté administrativement du volume RAID, puis je le remplace par le deuxième SSD.

Une nouvelle fois le volume se reconstruit automatiquement.

Cette fois-ci, la reconstruction n’a pris qu’un peu moins de deux heures, le fait d’être à présent en full SSD aidant.

temps 2e reconstruction

Un fail : impossible d’augmenter la taille du volume RAID1

En effet, j’espérais pouvoir augmenter la taille de mon volume RAID en effectuant une migration de celui-ci. Toutefois, d’après la documentation de ma carte contrôleur, une migration n’est faisable que lorsqu’on change de niveau de RAID, ou de taille de stripe. Ce qui n’est pas mon cas.

Je vais donc devoir rester pour l’instant sur la taille initiale de mon volume système.

Cependant, c’est un mal pour un bien : pour profiter de mes 2To, il va falloir que je casse ce disque RAID, et que j’en reconstruise un tout neuf de 2To. Ce qui implique une réinstallation de mon hyperviseur. Hors ça va bientôt faire 2 ans que je procrastine en ne le mettant pas à jour, et il commence vraiment à dater : voilà une bonne motivation pour le faire.

o/

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *