よんログ

フォールトトレラントシステム

フォールトトレラントシステムとは、システムを構成する一部が故障しても正常に処理を続行するシステムである。

RAS

RAS はコンピュータシステムに関する代表的な指標の頭文字をとったものである。

信頼性 (Reliability)

安定して期待される役割を果たすことのできる能力。 代表的な評価指標に MTBF (= Mean Time Between Failure, 平均故障間隔) がある。

保守性 (Serviceability, maintainability)

要求された機能が保持される、または修復される能力。 代表的な評価指標に MTTR (= Mean Time To Repair, 平均修復時間) がある。

可用性 (Availability)

システムが継続して稼働できる能力。代表的な評価指標に稼働率があり、以下に示す式で求められる。

A=\frac{\text{MTBF}}{\text{MTBF}+\text{MTTR}

RAS に完全性 (Integrity) と 機密性 (Security) を加えた RASIS というものも存在するが、ここでは解説しない。

冗長性 (redundancy)

高い可用性を実現するには、1 つの構成要素の障害でシステム全体が停止しないように各構成要素を冗長化し、SPoF (= Single Point of Failure, 単一障害点) をなくす必要がある。

システム全体の冗長化

デュアルシステム (dual system)

同じ処理を 2 つのシステムで行い、処理結果を照合しながら処理を進行していく。

デュプレックスシステム (duplex system)

2 つのシステムを主系と待機系に分けるアクティブ/スタンバイ (active/standby) 構成をとる。 待機系をいつでも動作可能な状態で待機させるホットスタンバイと、主系の障害発生時に待機系が処理を引き継ぐコールドスタンバイがある。

電源装置の冗長化

UPS (Uninterruptible Power Supply, 無停電電源装置)

電力を蓄積する装置を内蔵し、停電などによって電力が断たれた場合にも一定時間電力を供給し続ける電源装置

データの冗長化

RAID

RAID (Redundant Arrays of Inexpensive Disks) は複数台のハードディスクをあかたも 1 台のハードディスクとして運用し、冗長性を向上させる技術のことである。

RAID におけるハードディスクの管理方法には以下の 2 つが存在する。

ハードウェア方式

コントローラカードディスクアレイユニットにディスクの管理を任せる

ソフトウェア方式
ソフトウェアで I/O アクセスをコントロールする

ハードディスクにデータを書き込む方法は以下の 2 つがある。

ストライピング

データを分割し、複数台のハードディスクに分散配置 (インターリーブ, interleave) する。 → 高速化

ミラーリング
同じデータを複数台のハードディスクに同時に書き込む。 → 冗長化

RAID 0 はストライピング、RAID 1 はミラーリングを行い、RAID 01 (10) はストライピングとミラーリングを組み合わせる。

RAID 2 以降は 3 台以上のハードディスクで構成される。 データを複数のハードディスクに分散配置しつつ、それらの誤り訂正符号を別のハードディスクに書き込む。 → 高速化冗長化

バックアップ

バックアップは問題発生時の復旧 (リストア) に備え、システムのデータや状態を複製したもの、あるいは複製することをいう。

フルバックアップ
必要なすべてのデータを複製
差分バックアップ
最後のフルバックアップから追加/変更されたデータのみを複製
増分バックアップ

最後のバックアップ (種類は問わない) から追加/変更されたデータのみを複製


増分バックアップは、最後のバックアップ時から追加/変更されたデータのみを複製するため、バックアップにかかる時間は短い。 その反面、復旧には最終フルバックアップ以降のすべての増分データを要する。

障害復旧 (crash recovery)

フェイルオーバー

障害発生時に自動で冗長な待機系システムに切り替えること、またはその機能

参考文献