フォールトトレラントシステムとは、システムを構成する一部が故障しても正常に処理を続行するシステムである。
RAS はコンピュータシステムに関する代表的な指標の頭文字をとったものである。
安定して期待される役割を果たすことのできる能力。 代表的な評価指標に MTBF (= Mean Time Between Failure, 平均故障間隔) がある。
要求された機能が保持される、または修復される能力。 代表的な評価指標に MTTR (= Mean Time To Repair, 平均修復時間) がある。
システムが継続して稼働できる能力。代表的な評価指標に稼働率があり、以下に示す式で求められる。
A=\frac{\text{MTBF}}{\text{MTBF}+\text{MTTR}RAS に完全性 (Integrity) と 機密性 (Security) を加えた RASIS というものも存在するが、ここでは解説しない。
高い可用性を実現するには、1 つの構成要素の障害でシステム全体が停止しないように各構成要素を冗長化し、SPoF (= Single Point of Failure, 単一障害点) をなくす必要がある。
同じ処理を 2 つのシステムで行い、処理結果を照合しながら処理を進行していく。
2 つのシステムを主系と待機系に分けるアクティブ/スタンバイ (active/standby) 構成をとる。 待機系をいつでも動作可能な状態で待機させるホットスタンバイと、主系の障害発生時に待機系が処理を引き継ぐコールドスタンバイがある。
電力を蓄積する装置を内蔵し、停電などによって電力が断たれた場合にも一定時間電力を供給し続ける電源装置
RAID (Redundant Arrays of Inexpensive Disks) は複数台のハードディスクをあかたも 1 台のハードディスクとして運用し、冗長性を向上させる技術のことである。
RAID におけるハードディスクの管理方法には以下の 2 つが存在する。
コントローラカードやディスクアレイユニットにディスクの管理を任せる
ハードディスクにデータを書き込む方法は以下の 2 つがある。
データを分割し、複数台のハードディスクに分散配置 (インターリーブ, interleave) する。 → 高速化
RAID 0 はストライピング、RAID 1 はミラーリングを行い、RAID 01 (10) はストライピングとミラーリングを組み合わせる。
RAID 2 以降は 3 台以上のハードディスクで構成される。 データを複数のハードディスクに分散配置しつつ、それらの誤り訂正符号を別のハードディスクに書き込む。 → 高速化と冗長化
バックアップは問題発生時の復旧 (リストア) に備え、システムのデータや状態を複製したもの、あるいは複製することをいう。
最後のバックアップ (種類は問わない) から追加/変更されたデータのみを複製
増分バックアップは、最後のバックアップ時から追加/変更されたデータのみを複製するため、バックアップにかかる時間は短い。 その反面、復旧には最終フルバックアップ以降のすべての増分データを要する。
障害発生時に自動で冗長な待機系システムに切り替えること、またはその機能