質問

2015年08月10日 17時13分
  • 特定店舗のネットワークが突然遅くなり数時間後なぜか復旧..

情シスのオープンナレッジ『Syszo』サービス終了のお知らせ

質問

7月に入ってからある店舗で通信障害が発生して困っています。
なにか、ヒントでもいただければありがたいです。

店舗は本社とipsec VPNでつながっている。(機器、ネットワーク込みでアウトソーシング)
たいていは、朝から本社のサーバーにアクセスするアプリケーションの接続が切れたり、時間がとてもかかるような現象が発生。
アプリケーションは複数。
VPNルーターから出ていく社外のホームページ閲覧に支障は起きない。
たいていは、社員が外出して出払う昼ごろになると自然に収束。
この現象が週に一回程度発生するが曜日は一定していない。

まずはセンターのスイッチを交換するが再発。
ルーターがひどく熱かったので扇風機を当て続ける運用を行うが再発。
WANのアウトソーシング先から各PCのDNS設定を指摘され修正するが再発。

現在、次の対策としてルーターの交換をアウトソーシング先に要請、それでだめなら各島のスイッチの交換を検討しています。

11件の回答があります

回答

こんにちは。
店舗から社外へのアクセスは正常で、VPNで本社と接続する際のみ不具合を起こし、社員が外出すると正常に戻るのですね?

上記の認識だと、社員のPCが本社へ接続する際に、不具合が発生していると思われますので、まずはルーターのルーティング情報の見直しを行い、その後アプリケーションの通信動作の確認を行ってみてはどうでしょうか?

そもそも「7月に入ってから」ということなので、6月から7月に掛けて、何らかの変更があったのならば、それが原因かもしれません。。。

2015年08月10日 17時39分
Nov

回答

こういう犯人捜し?大変ですが、楽しいのと勉強になりますね。

ネットワークは運用まで含めて外注でしょうか?
外注先がしっかりみてくれているとして、基本的な通信は問題ない、と考えますと
まずは、各機器のログをみて、状況を把握してもらってはどうでしょうか?
基本的なL3レベルぐらいまでは調査を外注先にお任せしましょう。

思った内容を羅列します。
・コンフィグ変更してないなら、機器はハードウェア故障ぐらいを疑う。

・他の拠点は問題ないならセンタールーターの熱は関係なさそう。

・インターネットもVPNも同じ回線なら、ルーターより先は問題なさそう。

・インターネットはつながってっても遅くなっていて、社内アプリがタイムアウトしてない?(速度の問題?)

・単なるトラフィック量の問題?

・現象発生前後で何か変更・追加してないか?の確認(システム、アプリなども含む)

・発生する時間帯が決まっているなら、ウィルス対策ソフトのアップデート時間?社内システムのバッチ処理?などのアプリ層を疑う

・社員がいなくなったら大丈夫?っていうことは、何か持ち込みPCなどが不正通信している?

・(上記に関連して)賢いルーターなどでしたら、不正アクセスが多いと一時的に通信を止めてる?

・端末がたくさんあり、DHCPが足りていない?

などなど。

障害が出ている店舗に限定して
レイヤーごとに切り分けていけるとよいですね。

う〜ん、とても興味あります。近くだったら店舗へ調べに行きたくなりますね。

何か人為的なことも匂いますが、頑張ってください。
乱文になりましたが、ご参考になりましたら。

2015年08月10日 17時56分

回答

皆様いろいろとご意見いただきましてありがとうございます。

補足事項ですが、障害が発生しているPCに本社からVNCで接続して現地の利用者と話をしたりしたのですがVNCがタイムアウトを起こしたり画面の動きがにぶいということはまったくありませんでした。
でもVNCの画面にはマウスの先がグルグル回っているだけで一向に遷移しないアプリの状態が写っているのです。

2015年08月10日 18時38分

回答

機器、ネットワーク込みでアウトソーシングしているのであれば、
もう少し、プッシュしても良さそうですね。
お金を払っているのにもったいない気がします。

1,2の方が思いつくことをコメント入れているので、深堀させてください。

>朝から本社のサーバーにアクセスするアプリケーションの接続が切れたり、
>時間がとてもかかるような現象が発生。

通信不具合が出ているのは、対象拠点から本社のサーバにアクセスをする際でよろしいでしょうか。

※影響範囲の特定

>VPNルータから出ていく社外のホームページ閲覧に支障は起きない

拠点側のVPNルータでよろしいでしょうか。
※各拠点は、社内システムを利用する際にVPNを利用、その他の通信は各拠点からインターネットへ接続でよろしいでしょうか。

※拠点間ネットワークの基本設計の確認

>この現象が週に一回程度発生するが曜日は一定していない。
7月からですと障害発生は、6回程度でしょうか

※障害発生の頻度の確認
(実際何回、どのくらいの時間発生しているかを把握するのも重要です)
 それによって、費用の算段を決裁者とつけやすくなるため)

>センターのスイッチを交換するが再発。
センターのスイッチとは、店舗側のメインスイッチのことでしょうか。
※単一拠点との通信不具合(多拠点影響なし)なので、店舗側と想定していますが、確認です。

>ルーターがひどく熱かったので扇風機を当て続ける運用を行うが再発。
店舗側のルータとの認識でよろしいでしょうか。
通常の温度とどの程度異なっているのでしょうか。

※通常と違うところをコメントするときは、どのくらい違うのかが必要ですよね(普段と同じかもしれないので、確認してみました)

>WANのアウトソーシング先から各PCのDNS設定を指摘され修正するが再発。
各PCとは、店舗側のPCでしょうか。
各アプリケーションはIPアドレスを用いて通信しているので、プロバイダーの
DNSを利用するようになったということでしょうか。(ADに参加している端末であれば、ないかな。。。)

※指摘されて修正したということは、設定間違えがあったのでしょうか。
 6月末にネットワークの変更あったんですかね。

>それでだめなら各島のスイッチの交換を検討しています。
ネットワーク障害であれば、下流から上流に遡っていくのが一般的だと思います。

障害発生している端末は、複数の島に点在しているのでしょうか。

追記>VNCの画面にはマウスの先がグルグル回っているだけで一向に遷移しないアプリの状態が写っている

PCが考え中になっているといことは、通信不具合ではなく、端末のアプリケーション処理に時間が掛かっているだけに思えてしまいます。
※例えば、上記端末(VPNルーターから出ていく社外のホームページ閲覧に支障は起きない。)と障害発生している端末が異なっているとか。

情報整理を行うのも情報システム担当者の仕事だと思います。
利用者は、”みんな障害が起きてる”というけれど、問題は一人だけだったりしますし。。。

長くなりましたが、ヒントになれば幸いです。

2015年08月10日 20時02分

回答

この手の遠隔拠点のサポートに必要なアプローチは何をおいても「可視化」に尽きます。

理想を言えばパケットキャプチャをとって、結果ごとベンダに投げるのが一番ですが、難しければSNMPなどで流量や負荷などを可視化するのが一般的です。Zabbix,CactiなどのOSSを使うと良いでしょう。

アプリケーションがWEBであればChromeやFirefoxに標準装備されている開発者ツールを使うのもいいと思います。
timelineという機能を使ってどの処理に時間がかかっているかを可視化できます。
設定を何も変えていないのに不定期に遅くなる現象は流量もしくは特定の端末に問題があるように思います。
P2PソフトのフラッディングがVPNルータのUDPポートを枯渇させているかもしれません。ベンダでも当然見ていると思いますが、VPNルータのFWログもチェックポイントです。

2015年08月10日 20時59分
csp

回答

感覚的な話しになっちゃいますが、なんだかアプローチ方がズレているような...

・「ある店舗で通信障害が発生」という事はその店舗は1箇所なのですよね。だったら「センターのスイッチを交換する」は的外れの気がします。

・その店舗は1箇所ならば、そこを徹底的に追求すべきでしょう。

・「週に一回程度発生するが曜日は一定していない。」ですが間隔は一定ではないのでしょうか 例えば「何十時間ごと」とか「嘱託不定期出勤のAさんが出勤してきたら」とか「だれか個人でときどき行っているデータのバックアップ」とか

・他の方も言われているように「アウトソーシング先をもっと追求」してもようのではないですか。「B店舗のパケットの再送が頻繁にある」「B店舗内でLANのループがある」とか「調査のためのツールを仕込みさせていただきます」とか

2015年08月11日 08時06分

回答

こちら追加ですが、障害は
・一つの拠点内で
・特定のPCから発生(発生しないPCもある)
ということですか?

やはりなんとなく、人為的になにかやってる感じですね。

2015年08月11日 10時13分

回答

同様の事象があり、原因はバカHUBが一台混じっていたためでした・・・

2015年08月14日 17時25分

回答

sa

2015年08月25日 15時25分

回答

以前書き込んだ不具合収束報告がリニューアルで消えたしまったので再度書き込んでみました。
現在通信障害は収束しておりここ三週間ほどは安定稼働しています。
アウトソーシング先の某プロパイダからはまだ最終報告は受けていないのですが口頭での話によれば
以下のような状況でした。

原因
NTTフレッツ回線とプロパイダとの接続部部分?で通信の混雑?が発生し遅延が起きた事が直接的な原因。

対応
ルーターの設定を該当の店舗と本社が直接通信する設定する方式から別の店舗を経由して通信する設定に変更した。

原因も対応もなにか釈然としない回答ではありますが、まずは復旧している状況です。
最終報告は今週末に届きますので皆さんの参考になるような情報がありましたらまた報告します。

2015年09月07日 08時48分

回答

本日、アウトソーシング先のプロパイダから報告書の提出と説明がありました。
特異な現象ではありましたが何かの参考になれば...

・ネットワークはNTT西日本エリアはインターネット網に出ずNGN-VPNにて繋がっている。
・NTT東日本エリアはそれぞれプロパイダ経由でインターネットVPNでNTT西日本エリアの本社に接続される。
・障害の起きた店舗の地域で、フレッツ網とプロパイダ網をつなぐ網終端装置付近?で通信の混雑が発生し障害が発生した。
・現象を回避する為に、NTT東日本エリアでもプロパイダを経由しないNGN-VPNを構築したうえでネットワーク的に混雑が少ない店舗からプロパイダ経由でインターネットVPNでNTT西日本エリアの本社に接続するようにした。
・現象は収束。

プロパイダの提示した今後の対策。
・設備投資を行い、混雑の緩和をはかる。
・正確な情報の入手と障害の切り分けをがんばって行う。

2015年09月10日 16時53分