L’Atelier Animation インタビュー

Prometheusユーザーインタビューシリーズの続きとして、L’Atelier AnimationのPhilippe Panaite氏とBarthelemy Stevens氏が、アニメーションスタジオの監視システムをNagios、Graphite、InfluxDBの組み合わせからPrometheusに移行した経緯について語ります。

自己紹介とL’Atelier Animationの事業内容について教えていただけますか?

L’Atelier Animationは、カナダの美しい都市モントリオールに拠点を置く3Dアニメーションスタジオです。長編映画第1作目である"バレリーナ"(別名「Leap」)は2017年に世界中で公開され、米国公開は今年後半を予定しています。

現在、アニメーションテレビシリーズと長編映画第2作目の制作に力を入れています。インフラストラクチャは、約300台のレンダリングブレード、150台のワークステーション、20台の各種サーバーで構成されています。Macを数台除いて、すべてLinux(CentOS)上で動作しており、Windowsマシンは一台もありません。

 

Prometheus導入前の監視環境について教えていただけますか?

最初はNagiosGraphiteInfluxDBを組み合わせたシステムを使用していました。最初の設定は「まあまあ」でしたが、特別なものではなく、複雑すぎました(可動部分がが多すぎる)。

Prometheusを検討することにした理由は何ですか?

すべてのサービスをCentOS 7に移行した際に、新しい監視ソリューションを検討し、Prometheusが多くの理由から候補となりましたが、最も重要なのは以下の点です。

  • Node Exporter:カスタマイズ機能により、クライアントから任意のデータを取得できます。
  • SNMPサポート:サードパーティのSNMPサービスが不要になります。
  • アラートシステム:Nagiosとお別れです。
  • Grafanaサポート

移行プロセスについて教えていただけますか?

最初の映画の制作が完了した際に、少しダウンタイムがあったため、IT部門にとって大規模な変更を行う絶好の機会となりました。既存の監視システムは期待どおりではなかったので、全面的に刷新することにしました。

ネットワーク機器の監視は最も重要な部分の一つであるため、まずsnmp_exporterを設定して、スイッチの1台からデータを取得することから始めました。Exporterが行うNetSNMPへの呼び出しはCentOSでは異なるため、一部のバイナリを再コンパイルする必要がありました。いくつか小さな問題が発生しましたが、Robust PerceptionのBrian Brazil氏の助けを借りて、迅速にすべて解決することができました。snmp_exporterが動作するようになると、新しいデバイスを簡単に追加してSNMPデータを取得できるようになりました。現在、コアネットワーク(スイッチ13台、VLAN 10個を含む)をGrafanaで監視しています。

Switch metrics from SNMP data

その後、ワークステーション、レンダリングブレード、サーバーの分析が必要だったため、node_exporterを設定しました。私たちの分野では、CPUが100%稼働していないことは問題であり、可能な限りすべての能力を活用したいと考えているため、最終的には温度の方が重要になります。さらに、可能な限り高いアップタイムが必要なため、すべてのステーションにPrometheusのAlertmanagerを介してメールアラートを設定し、何かがダウンしたときに認識できるようにしています。

Dashboard for one workstation

具体的なニーズとして、クライアントからのカスタムデータの監視が必要ですが、node_exporterのtextfile collector機能を使用することで簡単に実現できます。cronジョブは、任意のツールから特定のデータをPrometheusが読み取れる形式で事前フォーマットされたテキストファイルに出力します。

すべてのデータはHTTPプロトコルを介して利用できるため、Prometheusからデータを取得するPythonスクリプトを作成しました。それをMySQLデータベースに保存し、Webアプリケーションを介してアクセスすることで、ライブフロアマップを作成しています。これにより、マウスオーバーするだけで、どのユーザーがどこにどのようなハードウェアで着席しているかが簡単にわかります。ユーザーの写真と部署情報を表示するページも作成しました。これは、新しい従業員が隣人が誰かを知るのに役立ちます。ウェブサイトはまだ進行中のプロジェクトなので、見た目はご容赦ください。私たちはシステム管理者であり、ウェブデザイナーではないので :-)

Floormap with workstation detail

移行後の改善点は何ですか?

スタジオ内のすべての監視方法を変更する機会が得られ、Prometheusから最初に取得したすべてのデータを含む新しいカスタムフロアマップを作成するきっかけとなりました。この設定は、すべてを管理する単一のサービスで、はるかにシンプルになりました。

L’Atelier AnimationとPrometheusの将来についてどう考えていますか?

現在、ソフトウェアライセンスの使用状況をPrometheusに統合するプロセスを進めています。この情報は、アーティストが誰が何をどこで使用しているかを把握するのに役立ちます。

ユーザーからの要求に応じて、Prometheusをカスタマイズして新しい機能を追加し続けます。アーティストと仕事をしているため、多くの要求があることはわかっています :-) SNMPとnode_exporterのカスタムテキストファイル入力を使用することで、可能性は無限です…