L’Atelier Animation インタビュー
2017年6月14日筆者: Brian Brazil
Prometheus ユーザーへのインタビューシリーズを継続し、L’Atelier Animation の Philippe Panaite と Barthelemy Stevens が、Nagios、Graphite、InfluxDB の混在環境から Prometheus へどのように移行したかについて語ります。
自己紹介と L’Atelier Animation について教えていただけますか?
L’Atelier Animation は、カナダの美しい都市モントリオールを拠点とする 3D アニメーションスタジオです。私たちの最初の長編映画である 「Ballerina」(「Leap」としても知られています)は 2017 年に全世界で公開され、米国での公開は今年後半に予定されています。
現在、アニメTVシリーズとセカンド長編映画の制作に精力的に取り組んでいます。インフラストラクチャは、約 300 台のレンダーブレード、150 台のワークステーション、および 20 台のさまざまなサーバーで構成されています。数台のマックを除き、すべて Linux(CentOS)で動作しており、Windows マシンは一切使用していません。
Prometheus導入前のモニタリング経験について教えてください。
最初は Nagios、Graphite、および InfluxDB の組み合わせを使用しました。当初のセットアップは「まあまあ」でしたが、特に優れているわけではなく、複雑すぎました(多くの連携部品があったため)。
Prometheusを検討することにした理由は何ですか?
すべてのサービスを CentOS 7 に移行した際、新しい監視ソリューションを検討し、Prometheus が多くの理由で浮上しました。しかし、最も重要なのは
- Node Exporter: カスタマイズ機能により、クライアントからあらゆるデータを取得できます。
- SNMP サポート: サードパーティの SNMP サービスが不要になります。
- アラートシステム: Nagios にさようなら。
- Grafana サポート。
どのように移行しましたか?
最初の映画が完成した際、一時的なダウンタイムがあったため、IT部門にとって大きな変更を加える絶好の機会となりました。期待していたほど良くなかった監視システム全体を刷新することにしました。
最も重要な部分の 1 つは、ネットワーク機器の監視であるため、まず snmp_exporter を設定して、スイッチの 1 つからデータを取得するようにしました。Exporter が行う NetSNMP への呼び出しは CentOS では異なるため、一部のバイナリを再コンパイルする必要がありましたが、Robust Perception の Brian Brazil の助けを借りて、すべてを迅速に解決しました。snmp_exporter が機能するようになると、新しいデバイスを簡単に追加し、SNMP データを取得できるようになりました。現在、コアネットワークは Grafana で監視されており(13 台のスイッチ、10 の VLAN を含む)。

その後、ワークステーション、レンダーブレード、サーバーの分析が必要となったため、node_exporter を設定しました。私たちの分野では、CPU が 100% でないのは問題であり、利用可能なすべてのパワーを使いたいので、結局、温度がより重要になります。さらに、可能な限り多くのアップタイムが必要なため、すべてのステーションで Prometheus の Alertmanager 経由でメールアラートが設定されており、何かダウンしたときにすぐにわかるようになっています。

私たちの特定のニーズでは、クライアントからのカスタムデータを監視する必要があります。これは、node_exporter の textfile collector 機能を使用して容易に実現されます。cronジョブは、指定されたツールの特定のデータを、Prometheus が読み取れる事前フォーマットされたテキストファイルに出力します。
すべてのデータが HTTP プロトコル経由で利用可能であるため、Prometheus からデータを取得するための Python スクリプトを記述しました。Web アプリケーション経由でアクセスされる MySQL データベースに格納し、ライブフロアマップを作成しています。これにより、マウスオーバーするだけで、どのユーザーがどのようなハードウェアを使用しているかがわかります。ユーザーの写真と部署情報を含む別のページも作成しました。これは新入社員が近所の人を知るのに役立ちます。ウェブサイトはまだ進行中のプロジェクトなので、見た目はご容赦ください。私たちは結局システム管理者であり、ウェブデザイナーではありません :-)

切り替え以降、どのような改善が見られましたか?
スタジオのすべての監視方法を変更する機会が得られ、Prometheus によって最初に取得されたすべてのデータを含む新しいカスタムフロアマップを作成するインスピレーションを得ました。セットアップは、すべてのサービスを管理する 1 つのサービスで、はるかにシンプルになりました。
L’Atelier Animation と Prometheus の将来について、どのようにお考えですか?
現在、ソフトウェアライセンスの使用状況を Prometheus に統合するプロセスを進めています。この情報は、アーティストが誰が何を使用しており、どこで使用しているかを把握するのに役立ちます。
ユーザーの要望に応じて、Prometheus をカスタマイズし、新しい機能を追加し続けていきます。アーティストと仕事をしているので、 plenty になることはわかっています :-) SNMP と node_exporter のカスタムテキストファイル入力により、可能性は無限です。