renueが提案する自律監視システムの全貌とその利点
業務のデジタルトランスフォーメーション(DX)が進む中、企業では日々様々なバックグラウンドジョブが稼働しています。このような状況下、株式会社renueでは、それらのジョブを効果的に監視・管理するための「統合モニタリングシステム」を開発しました。このシステムの目指すところや導入によって得られる利点、未来展望について詳しく解説します。
開発の背景
近年の企業におけるDX推進に伴い、バックグラウンドジョブの数は急速に増え、その運用負荷が深刻化しています。renueでも同様に、AzureやAWS、GC上で数十種類のバッチジョブが日々稼働しており、これらは財務データ自動同期やマーケティングデータの集計、ECプラットフォームの注文データ同期といった重要な業務を支えています。しかし、これらのジョブはそれぞれ異なるスケジュールや依存関係を持ち、ひとつのジョブでも停止することでデータ欠損や業務遅延に繋がります。
従来の監視手法の限界
従来の監視手法では、Slackへのエラー通知に過度に依存しており、ジョブの数が増加するにつれて問題が顕在化してきました。具体的には、次のような課題がありました:
- - エラー通知の洪水:ジョブのエラーが続くと、重要な通知が埋もれてしまう。
- - サイレント・フェイラー:予期しない形でプロセスが終了し、気づかれないまま放置されるケースも。
- - 原因特定が属人的:ジュニアエンジニアには複雑で時間がかかる。これにより、復旧対応も遅延してしまいます。
このような背景から、社内エンジニアからは「監視体制の刷新が必要」という声が上がりました。
システム設計の基本方針
renueの新しいシステムは、監視の効率化のために以下の3つの基本方針で設計されています。まず一つ目は、「監視のための監視に時間を取られないこと」です。二つ目は、「ジョブ追加時の監視設定を個別に行う必要がないこと」、つまりゼロコンフィグの設計です。そして三つ目は、「障害の検知から復旧までのプロセスをできる限り自動化すること」です。
システム全体像
この新しい統合モニタリングシステムは、以下の4つの機能を持ち、リアルタイムでのジョブ管理を実現します。
1.
統合ジョブ監視ダッシュボード - リアルタイムに全ジョブの状態を一元管理。
2.
自動ログ記録ライブラリ - 出力時の問題も含め、全ジョブの実行イベントを自動的にDBに記録。
3.
障害検知機能 - 異常を漏れなく捉える三層構造を導入。
4.
AIを用いた障害分析 - 検知された障害に対応するプロセスを自動化。
このシステムを使うことで、障害発生があった際の影響を最小限に抑えることができます。
導入成果
renueのこのシステムは、実際に導入した企業に対し、多くの成果をもたらしています。具体的には、サイレント・フェイラーの発生件数がゼロに抑えられ、障害検知から初動対応までの平均所要時間も大幅に短縮されました。この結果、企業は業務の効率を高め、リソースをより生産的な方向に振り向けることが可能になっています。
未来展望
renueはこの統合モニタリングシステムをさらなる進化へと導くために、AIを活用した自動復旧機能の拡充や障害予測機能など、より高次元の機能追加を計画しています。また、同様の運用に悩む他企業へのソリューション展開も視野に入れています。
私たちの目指すところは、障害発生に関してよりプロアクティブに対処できるシステムの実現です。AIが蓄積した知識を活用し、未来に向けた更なる進化を追求し続けます。これにより、エンジニアが創造的な業務に集中できる環境の構築を図っていきます。