1. お知らせ
  2. サービスにアクセスできない障害発生のご報告 【調査報告追記】

サービスにアクセスできない障害発生のご報告 【調査報告追記】

サービスにアクセスできない障害発生のご報告 【調査報告追記】

codecheck ご利用企業の皆様

お世話になっております。 codecheck チームです。
先週末(10月21日)にサービスにアクセスできない障害が発生しておりましたので、ご報告させていただきます。

障害の内容

  • サービスにアクセスしてもページが表示されない。
  • ページが表示されるまでに数十秒といった長さで待たされる。

障害の発生期間

10月21日 1:00 ~ 13:00 (24時間表記)

  • 10月21日
    • 1:00 サーバーに負荷がかかり、問題が受験できない状態が発生
      • サーバー内部で大量のバッチプロセスが発生したため
    • 10:00頃よりページアクセスできない状態が発生
      • この時点でメモリ使用量が100%を越えた為
    • 12:30頃にチームで障害の発生を検知、調査開始
    • 13:00頃に不具合の発生原因がバッチプロセスによるメモリ使用量の超過である事を確認
      • サーバーの再起動を実施、障害から復帰
      • 障害再発を防止するため、問題のバッチ処理を一時的に停止
    • 現在発生原因を調査中

現状報告

現状はエラー無くサーバーにアクセス出来る状態となっております。
また、上記の対応により障害の再発も防げております。

現在開発チームにてメモリ使用量の超過が発生した原因の調査とその修正、影響範囲の確認を行っております。

今後の対応

1週間ほどで原因箇所の特定、改修の計画及び実施を行う予定です。

詳細が分かり次第、こちらのお知らせを更新すると共に、
影響のあった可能性がある企業様には個別にてご連絡させていただきます。

皆さまへのご報告が遅くなってしまい、大変失礼致しました。
また、度重なる不具合でご不便、ご迷惑をおかけしてしまったこと、深くお詫び申し上げます。

codecheck チーム一同、この度の失敗を真摯に受け止め、品質の向上とサービスの改善に努めてまいります。

codecheck チーム


以下追記: 2017/10/26 19:00

サービスにアクセス出来ない不具合に関する調査のご報告

不具合の原因

今回の不具合は「新機能リリースにおいて、想定外の数のバッチ処理が同時に実行された事」が本来の原因であると、調査の結果判明しました。
「大量のテスト実行によるメモリ使用量の超過」が原因の詳細となります。
先の報告において「メモリリークがあった」と報告を致しましたが、実際には「大量のプロセスの実行によるメモリ使用量超過」であり、「メモリリーク」はありませんでした。お詫びして訂正いたします。

今後の対応

先のご報告でもお伝えしました通り、現状は対応を施し、現在は不具合なくページにアクセスできるようになっております。

今後の対応としては以下の3点を行う予定です

  • 想定外の処理の原因となった不要なデータの削除:対応済
  • リリースプロセスの改善:対応済
  • バッチプロセス処理のキューイングの修正:今月中に修正予定

また当障害発生時においてで受験ができなかった受験者からの報告があった場合は誠にお手数ではございますが、support@code-check.io までご連絡頂ますよう、よろしくお願いいたします。

改めて、ご不便ご心配をおかけしました事、深くお詫び申し上げます。

codecheck チーム