【まとめ】IT – Networking – 線を直す仕事（故障対応）

Posted on2021年7月9日 Edit on2022年3月24日投稿者: バイリンガルネットワークエンジニア　のぽた

ネットワークエンジニア
故障対応の基本的な流れ

まずは超概要　故障対応ライフサイクル (incident lifecycle)

①発生 (occurrence)
②切り分け (trouble-shooting)
③回復 (recovery / restoration)
④調査 (investigation)
⑤原因 (reason / reason for outage (RFO))
⑥再発防止策 ( preventive measure )
⑦終了 (close)

とりあえず、こんな感じでネットワークの故障対応は進んでいきます。

もう少し細かい
ネットワークエンジニアの故障対応

もう少し細かくします。

⓪契機 (Trigger)
①発生 (occurrence)
②検知 (detection)
③切り分け (trouble-shooting)
④回復 (recovery / restoration)
⑤原因調査 (investigation)
⑥原因 (reason / reason for outage (RFO))
⑦根本原因調査 (root cause analysis (RCA))
⑧根本原因 (root cause (RC))
⑨再発防止策 ( preventive measure )
⑩終了 (close)

この粒度で、流れをイメージしてみます。

⓪契機 (Trigger)

繋がらなくなってしまった「きっかけ」です。
初動で、ここを想像し、仮説を立て、ユーザーに適切な”問い”をするのが大事です。
実際は、ちょーバタバタしてそれどころじゃないのですが。

①発生 / occurrence　「なんか繋がんない」

糸電話で通話中 - 2020年10月03日のイラストのボケ[85584503] - ボケて（bokete） — 繋がらなくなる

②検知 (Detection)
　A ユーザー検知
　B 監視装置検知

検知の方法は2つあります。

インターネットがつながらない人のイラスト | かわいいフリー素材集いらすとや — A　ユーザー検知（ユーザーが気づいて連絡が来る）

セキュリティ監視のイラスト | フリー、無料で使えるイラストカット.com — B　監視装置が検知して連絡がくる

A　ユーザー検知は、ユーザーが気づいて連絡が来るパターンです。
B　監視装置検知は、監視装置が検知して連絡が来るパターンです。

ユーザー検知は、ユーザーが遅いなと思ったり繋がらなかったときに連絡がきます。
監視装置検知は、監視装置の閾値(しきいち / threshold)が超えた時に通知がきます。
例えば通信がぷっつり切れてしまった場合は、AとBが両方同時に発生します。
Bの閾値が死活監視っぽいだけの場合は、Aだけ発生する時も多いと思います。

色んなパターンがありますが、AもBも単独で起きる場合はこんな感じです。
　A　ユーザー検知が単独で発生
　　遅延、権限関係、設定不備、アプリのみ問題、PCの問題
　B　監視装置検知が単独で発生
　　ユーザー営業時間外、単純にユーザーが問合せしない、計画作業が延長された

各種故障対応

ネットワークに繋がらない！をざっくり対応
PCの故障対応（ネットワーク絡み）
アプリケーションの故障対応（ネットワーク絡み）
ネットワークスイッチの故障対応
Access Pointの故障対応

ネットワークエンジニア故障対応の基本的な流れ

もう少し細かいネットワークエンジニアの故障対応