Tolérance aux pannes
Tolérance aux pannes
Puisqu'il est impossible d'empêcher totalement les pannes, une solution consiste à mettre en place des mécanismes de redondance, en dupliquant les ressources critiques.
La capacité d'un système à fonctionner malgré une défaillance d'une de ses composantes est appelée tolérance aux pannes (parfois nommée tolérance aux fautes », en anglais fault tolerance).
Lorsqu'une des ressources tombe en panne, les autres ressources prennent le relais afin de laisser le temps aux administrateurs du système de remédier à l'avarie. En anglais le terme de « Fail-Over Service » (noté FOS) est ainsi utilisé.
Idéalement, dans le cas d'une panne matérielles, les éléments matériels fautifs
devront pouvoir être « extractibles à chaud » (en anglais
« hot swappable »), c'est-à-dire pouvoir être extraits puis remplacés, sans
interruption de service.