arrow-up icon

Fixstars AIBooster

オンラインデモ

ウェブブラウザ上で、AIBoosterの可視化機能をお試しいただけます

1.コスト分析ビューとは?
デモを開始

コスト分析ビューは、AIBoosterが収集した各種パフォーマンス情報を、オペレーションコストに責任を持つ事業リーダー向けに可視化したダッシュボードです。

このデモではFixstars社内のGPUサーバー(NVIDIA H100 x 4)にインストールされたAIBoosterのコスト分析ビューを、お使いのブラウザで実際に閲覧いただけます。

このデモで体験できること:

  • Llama3 8Bの教師ありファインチューニングを実行した際の、コスト分析ビューを閲覧
  • 観測期間中のシステム全体のコスト(トータルコスト)、GPU未使用にもかかわらず発生してしまっているコスト(アイドリング時コスト)、最適化等によりGPUを効率よく使えている時間を金額に換算したもの(Boost Bonus)、などの指標を確認
  • 時間範囲を指定することで、特定時間の上記指標の変化を分析
2.GPU稼働コストの可視化
デモを開始

コスト分析ビューの上段左のパネルでは、観測期間中にシステムを稼働させた際に発生したコストの総額を表示しています。表示されているコストは、一般的なクラウドサービスのレートを元に算出されています。製品版では、ユーザー自身が実環境に合わせたコスト計算式を設定可能です。

上段中央のパネルは、GPUが全く使用されていない時間に発生してしまっているコストを示したものです。GPUを常に100%使うのは難しいですが、GPUを有効活用するために、この「アイドリング時コスト」の削減を一つの指標にしてください。

上段右のパネルは、GPUを一般的な基準よりも高効率に活用した際にその価値を金額換算したものです。簡単にいえば、この「Boost Bonus」分だけ、「お得」にGPUを活用できていることになります。Boost Bonusは、GPU内部の計算コアが30%活用されている状態を基準値として、そこからの増分に対して時間単価を掛けて算出しています。この指標はAIBooster のPI(Performance Intelligence)の機能で改善可能です。

3.GPU稼働状況の可視化
デモを開始

コスト表示に続くパネルでは、

  • 観測期間中にシステム上で動作したGPUの平均稼働率の時系列変化(左図)
  • 観測期間中にシステム上で動作したGPU SMの平均稼働率の時系列変化(右図)

が表示されます。SMはStreaming Multiprocessorの略です。1つのGPUは多数のSMで構成されており、右のパネルはSMレベルでの使用率を表示します。GPUが100%近く稼働していても、SMレベルでは十分に使われていない可能性があります。この指標はAIBoosterのPI(Performance Intelligence)の機能で改善可能です。

4.表示データの観測対象期間の変更
デモを開始
5.では表示してみましょう!
  1. 「デモを開始」ボタンをクリックします
  2. ブラウザでPerformance Observability(PO)のコスト分析ビューが表示されます
  3. 各パネルを自由に閲覧してください

※製品版では各パネルの大きさ、グラフの種類、表示するデータ、などを自由にカスタマイズできます。

1.パフォーマンス分析ビューとは?
デモを開始

パフォーマンス分析ビューは、AIBoosterが収集した各種パフォーマンス情報を、AI開発者向けに可視化したダッシュボードです。

このデモではFixstars社内のGPUサーバー(NVIDIA H100 x 4)にインストールされたAIBoosterのパフォーマンス分析ビューを、お使いのブラウザで実際に閲覧いただけます。

このデモで体験できること:

  • パフォーマンス分析ビューを閲覧
  • GPU利用状況、CPU利用状況など、様々なパフォーマンス指標を時系列グラフで確認
  • ソフトウェア内部のどの関数やライブラリがどのぐらい時間がかかっているのか判別
  • 時間範囲を指定することで、特定時間の上記指標の変化を分析
2.GPU稼働状況の可視化
デモを開始

パフォーマンス分析ビューの一番上では、観測期間中にシステム上で動作したワークロード全体の”GPU Utilization”(左パネル:GPUの稼働率)が表示されます。また、右のパネルにおいて、SMはStreaming Multiprocessorの略です。1つのGPUは多数のSMで構成されており、このパネルではSMレベルでの稼働率を表示します。どちらも100%に近い値であれば、GPUが効率的に使用されていることになります。

3.パフォーマンス指標を時系列で表示
デモを開始

続くパネルでは、以下の8種のパフォーマンス指標を時系列グラフとして表示しています。

  • GPU Utilization
  • CPU Utilization
  • CPU L2 Cache Hit Ratio
  • Interconnect Send Bandwidth
  • Storage Read Bandwidth
  • GPU SM Activity
  • Memory Bandwidth
  • CPU L3 Cache Hit Ratio
  • Interconnect Recv Bandwidth
  • Storage Write Bandwidth
4.フレームグラフの表示
デモを開始

フレームグラフとは、ソフトウェアの処理にかかった時間を視覚化したもので、どの関数やライブラリがどれだけの時間を消費しているかを直感的に表します。縦軸は処理の階層、横軸は実行時間の割合を示し、長いバーほど時間を多く使っていることを意味します。性能改善やボトルネックの特定に役立ちます。

5.表示データの観測対象期間の変更
デモを開始
6.では表示してみましょう!
  1. 「デモを開始」ボタンをクリックします
  2. ブラウザでPerformance Observability(PO)のパフォーマンス分析ビューが表示されます
  3. 各パネルを自由に閲覧してください

※製品版では各パネルの大きさ、グラフの種類、表示するデータ、などを自由にカスタマイズできます。