ANAシステム障害の原因判明

2016/03/31

雑記

t f B! P L
公式HPでも書いてあるが、
こっちのほうがわかりやすいw

原因は「Ciscoスイッチの世界初のバグでしたー。ゴメンチャイ」というものですた。

以前に俺が書いた記事が如何にいい加減だったかwwwwwwwwwwww
サーバは一切関係ありませんでしたーwwwwwwwwwwwwwwwww


特に新しい機種でもなく2010年6月販売開始の製品なのにで、
6年間同様のバグが見つからなくて
ANAの旅客システムという超重要な基幹システムが初めてのバグとか
本当に運が悪いというかなんというか・・・。

操作ミスで被害が拡大したんじゃなくてヨカッター。
というか、機器のバグのせいにできてヨカッタんじゃね?w
損害賠償云々とか後味悪すぎる結果にならないし。

こういう機器のバグって障害テストをした時に検知できなかったのかなー?とは思うけど、
障害テストの障害って擬似的というか意図的に発生させるものなので、
本来の障害とは異なるものなんだよねー。
テストの時に機器を本当にぶっ壊すわけにもいかないしw
電源ケーブルを抜くとか、LANケーブルを抜くとかぐらいしかできない。

だから「未然に検知できなかったのか?」と言われると 「無理じゃボケ」と答えるしかないw
そんな本音を言っちゃうとアレなので、
「機器を本当に故障させることは難しいので擬似的に障害を発生させました」
というのが模範的な回答。

絶対に止まらないシステムを作ることは不可能なので、
(稼働率100%を謳っているSaaSとかIaaSとかないでしょ)
システムはいきなり止まるものということを見越した上で
障害時にどれだけシステムを素早く復旧させるか、止まりにくくするか(=可用性)を
考えるのが非常に重要、
なんだけど、やっぱりどんだけ高可用な構成にしたとしても
機器のバグにやられたらなんか虚しいものがあるよねw

人の操作ミスとか、設計のミスとかだと
誰かのせいになるのでちょっと嫌なんだけど、
機器のバグのせいにすると誰も責任を取らなくて済むから
メーカーやベンダーは機器のバグにしたがる。
(今回のようなケースはトップが責任を取っているけどw)

「システムはいつかは止まる」ということを世間一般に知らしめたであろう?
非常に興味あるニュースだったなぁ、と。


検索

Blog Archive

Popular Posts

About Me

自分の写真
性別:男
年齢:ついに40over
趣味:Snowboard、パソコン、iPhone、子育て

仕事:ユー子の社内SEとしてサーバ、NW等のインフラ全般をやってます

日々生活していく中で思ったことなどをつらつらと書いていきます。

どうぞよろしく!

ブログランキング

ブログランキング・にほんブログ村へ

QooQ