TGBT

INCIDENT ÉLECTRIQUE : CONTRÔLER LA REPRISE DE L’ALIMENTATION EN SALLE

Les interruptions électriques intempestives en salle informatique sont de plus en plus rares, notamment grâce à la diffusion et à la mise en application des bonnes pratiques de double-adduction et de distribution du courant fort. Elles n’ont toutefois pas totalement disparues du paysage des pannes opérationnelles dont certaines font régulièrement la une des journaux, et les causes sont multiples : erreur humaine (plus d’un arrêt énergétique non prévu sur trois), facteurs exogènes affectant les fournisseurs régionaux d’énergie, évolution inadéquate des chaînes d’alimentation au regard de la rapidité et de la complexité des changements IT… . Nul ne peut en pratique garantir que telle ou telle salle informatique, in-house ou en Centre de Données, ne subira jamais une quelconque interruption électrique totale ou partielle.

Se préparer à la gestion de la reprise de la production informatique après un incident électrique majeur permet de conférer efficacité et efficience au pilotage de cette situation de crise. L’un des objectifs importants de cette manœuvre consiste à éviter les arrêts électriques à répétition peu après le rétablissement du courant, car ils aggravent considérablement l’impact des incidents. C’est pourquoi, tant que les spécialistes électriciens dûment habilités n’ont pas identifié avec certitude la cause de l’interruption puis assuré de la stabilité et de la pérennité d’une reprise, le périmètre IT touché par la panne devraient avant tout être mis hors tension grâce aux procédés prévus pour ce faire : désactivation de ports sur les unités de distribution d’énergie (PDU) ou exploitation des possibilités offertes par la segmentation de la disjonction.

La remise sous-tension du périmètre IT ne signifie pas non plus que le périmètre IT doive redémarrer automatiquement, sauf rares exceptions de sites locaux dont le séquencement au démarrage peut être totalement programmé. Certains équipements, telles que certaines baies de stockage, exigent des procédures de démarrage séquencées impliquant des manipulations matérielles intermédiaires. Des démarrages non contrôlés peuvent interférer négativement avec des PRI/PCI en cours d’expression, et des processus de traitement initiés alors que certains composants ne sont pas prêts. La gestion de la reprise informatique implique de tenir compte de l’organisation en couches du SI et de la complexité des interactions des composants applicatifs, notamment pour accorder la priorité aux fonctions les plus critiques.

Pour se former :

cellaconsilium-logo

Conception de Salle Technique – Data Center

Energie – Data Center