【まとめ】IT – Networking – 線を直す仕事(故障対応)
ネットワークエンジニアの仕事の1つ
線を直す仕事(故障対応)について
ネットワークエンジニア
故障対応の基本的な流れ
まずは超概要 故障対応ライフサイクル (incident lifecycle)
①発生 (occurrence)
②切り分け (trouble-shooting)
③回復 (recovery / restoration)
④調査 (investigation)
⑤原因 (reason / reason for outage (RFO))
⑥再発防止策 ( preventive measure )
⑦終了 (close)
とりあえず、こんな感じでネットワークの故障対応は進んでいきます。
もう少し細かい
ネットワークエンジニアの故障対応
もう少し細かくします。
⓪契機 (Trigger)
①発生 (occurrence)
②検知 (detection)
③切り分け (trouble-shooting)
④回復 (recovery / restoration)
⑤原因調査 (investigation)
⑥原因 (reason / reason for outage (RFO))
⑦根本原因調査 (root cause analysis (RCA))
⑧根本原因 (root cause (RC))
⑨再発防止策 ( preventive measure )
⑩終了 (close)
この粒度で、流れをイメージしてみます。
⓪契機 (Trigger)
繋がらなくなってしまった「きっかけ」です。
初動で、ここを想像し、仮説を立て、ユーザーに適切な”問い”をするのが大事です。
実際は、ちょーバタバタしてそれどころじゃないのですが。
①発生 / occurrence 「なんか繋がんない」
②検知 (Detection)
A ユーザー検知
B 監視装置検知
検知の方法は2つあります。
A ユーザー検知は、ユーザーが気づいて連絡が来るパターンです。
B 監視装置検知は、監視装置が検知して連絡が来るパターンです。
ユーザー検知は、ユーザーが遅いなと思ったり繋がらなかったときに連絡がきます。
監視装置検知は、監視装置の閾値(しきいち / threshold)が超えた時に通知がきます。
例えば通信がぷっつり切れてしまった場合は、AとBが両方同時に発生します。
Bの閾値が死活監視っぽいだけの場合は、Aだけ発生する時も多いと思います。
色んなパターンがありますが、AもBも単独で起きる場合はこんな感じです。
A ユーザー検知が単独で発生
遅延、権限関係、設定不備、アプリのみ問題、PCの問題
B 監視装置検知が単独で発生
ユーザー営業時間外、単純にユーザーが問合せしない、計画作業が延長された
各種故障対応
- ネットワークに繋がらない!をざっくり対応
- PCの故障対応(ネットワーク絡み)
- アプリケーションの故障対応(ネットワーク絡み)
- ネットワークスイッチの故障対応
- Access Pointの故障対応