ネットワークエンジニアの仕事の1つ
線を直す仕事(故障対応)について

ネットワークエンジニア
故障対応の基本的な流れ

まずは超概要 故障対応ライフサイクル (incident lifecycle)

①発生 (occurrence)
②切り分け (trouble-shooting)
③回復 (recovery / restoration)
④調査 (investigation)
⑤原因 (reason / reason for outage (RFO))
⑥再発防止策 ( preventive measure )
⑦終了 (close)

とりあえず、こんな感じでネットワークの故障対応は進んでいきます。

もう少し細かい
ネットワークエンジニアの故障対応

もう少し細かくします。

⓪契機 (Trigger)
①発生 (occurrence)
②検知 (detection)
③切り分け (trouble-shooting)
④回復 (recovery / restoration)
⑤原因調査 (investigation)
⑥原因 (reason / reason for outage (RFO))
⑦根本原因調査 (root cause analysis (RCA))
⑧根本原因 (root cause (RC))
⑨再発防止策 ( preventive measure )
⑩終了 (close)

この粒度で、流れをイメージしてみます。

⓪契機 (Trigger)

繋がらなくなってしまった「きっかけ」です。
初動で、ここを想像し、仮説を立て、ユーザーに適切な”問い”をするのが大事です。
実際は、ちょーバタバタしてそれどころじゃないのですが。

①発生 / occurrence 「なんか繋がんない」

糸電話のイラスト | かわいいフリー素材集 いらすとや
繋がっていたものが
糸電話で通話中 - 2020年10月03日のイラストのボケ[85584503] - ボケて(bokete)
繋がらなくなる

②検知 (Detection)
 A ユーザー検知
 B 監視装置検知

検知の方法は2つあります。

インターネットがつながらない人のイラスト | かわいいフリー素材集 いらすとや
A ユーザー検知(ユーザーが気づいて連絡が来る)
セキュリティ監視のイラスト | フリー、無料で使えるイラストカット.com
B 監視装置が検知して連絡がくる

A ユーザー検知は、ユーザーが気づいて連絡が来るパターンです。
B 監視装置検知は、監視装置が検知して連絡が来るパターンです。

ユーザー検知は、ユーザーが遅いなと思ったり繋がらなかったときに連絡がきます。
監視装置検知は、監視装置の閾値(しきいち / threshold)が超えた時に通知がきます。
例えば通信がぷっつり切れてしまった場合は、AとBが両方同時に発生します。
Bの閾値が死活監視っぽいだけの場合は、Aだけ発生する時も多いと思います。

色んなパターンがありますが、AもBも単独で起きる場合はこんな感じです。
 A ユーザー検知が単独で発生
  遅延、権限関係、設定不備、アプリのみ問題、PCの問題
 B 監視装置検知が単独で発生
  ユーザー営業時間外、単純にユーザーが問合せしない、計画作業が延長された

各種故障対応

  • ネットワークに繋がらない!をざっくり対応
  • PCの故障対応(ネットワーク絡み)
  • アプリケーションの故障対応(ネットワーク絡み)
  • ネットワークスイッチの故障対応
  • Access Pointの故障対応