パフォーマンスエンジニアリングプラットフォーム

Fixstars AIBoosterとは

GPUサーバーにインストールすることで、実行中のAI処理のパフォーマンスデータを収集し、処理のボトルネックを可視化。取得したデータを活用して、パフォーマンスを改善します。

Performance Observability

パフォーマンス観測機能

AI学習や推論などのパフォーマンス情報を常に監視・保存
性能の劣化や処理のボトルネックなどを可視化

Performance Intelligence

パフォーマンス改善機能

パフォーマンス観測で収集されたデータをもとに、自動で高速化するためのツール群を提供
Performance Observabilityが提供するデータをもとに、ユーザーが手動で高速化することで、更なるパフォーマンス改善が可能

処理速度最大

0.0

アップ（当社実績）

GPU利用コスト最大

削減（当社実績）

Performance Observability

パフォーマンス観測機能

ハードウェアの使用状況の可視化
GPU、CPU、メモリ、NIC、PCIe、
ストレージなどの情報を集約して時系列で管理
AI処理の実行内容の可視化
関数やスレッドレベルでAI処理をサンプリングして
時系列で管理

ハードウェアの使用状況とAI処理の実行内容を監視・保存

時系列データとして継続的に保存

GPU、CPU、メモリ、NIC、PCIe、ストレージなどの情報を集約して時系列で管理
オーバーヘッドを極力抑え、システムに常駐してパフォーマンスデータを継続して取得

マルチプラットフォーム対応

クラウド（AWS、Microsoft Azure、Google Cloud Platform、さくらインターネットなど）からオンプレミスまで、異なるアーキテクチャーのシステムを一括で監視可能

GPU Utilization GPU SM Activity Network Send Bandwidth Network Recv Bandwidth Storage Write Bandwidth Storage Read Bandwidth CPU Utilization Memory Bandwidth L2 Cache Hit Ratio L3 Cache Hit Ratio

実行中のアプリケーションのプロファイリング

フレームグラフを継続的に保存

実行しているアプリケーションの処理時間を100として、アプリケーション内部の処理の内訳をブレイクダウンして可視化
プログラムのうちのどの関数、どのライブラリがボトルネックになっているか
ハードウェアの利用状況が良い場合・悪い場合に、アプリケーション構成の違いはあるか

無料ダウンロード

Performance Intelligence

パフォーマンス改善機能

ワークフロー

1

分析
POビューワーを確認し、CPU/GPU 利用率・I/O 帯域・メモリ消費・フレームグラフなどからパフォーマンスの課題を特定。
2
高速化
- 分析結果をもとに、自動で高速化するためのツール群を提供
- 高速化に必要なドキュメントを提供。これを利用して、ユーザーが手動で高速化を実現可能
+α

パフォーマンスエンジニアリングサービス（要問い合わせ）
さらなる高速化が必要な場合、AIBoosterの分析データを元に、Fixstarsの高速化エキスパートがお客様の開発環境やご要望に応じたパフォーマンス改善を行います。

学習高速化の例

ハイパーパラメータチューン（詳しく見る）
モデル軽量化
AIモデルの適切な並列化手法の適用
通信ライブラリのパラメータ最適化
再計算によるメモリバンドの効率改善

推論高速化の例

全自動推論高速化（詳しく見る）
自動混合精度量子化

全自動推論高速化ツール（AcuiRT）

深層学習モデルの推論をNVIDIA GPU向けに高速化する際の課題

複雑なモデル構造：最新AIモデルは巨大で複雑な構造
手動最適化の限界：全パターンの手動変換は工数が膨大で現実的でない
専門知識の必要性：GPUやTensorRTの深い技術知識と経験が必要

PyTorchで構築されたAIモデルを完全自動でTensorRT化。専門知識不要で、開発工数を劇的に短縮しながら推論速度を向上します。

AcuiRTについて詳しく見る

自動最適化プロセス

PyTorchモデル
複雑なマルチモジュール構造
自動構造解析
モジュール構造を自動把握
段階的最適化
完全自動で最適化を実行
最適化済みモデル
すぐに利用可能

パフォーマンス改善サイクル

パフォーマンスは不変ではなく、新しいモデルの利用、パラメータの変更、インフラの仕様変更、など、日々の開発活動の中で変化していきます。パフォーマンス改善サイクルを継続的に回すことで、性能劣化を未然に防ぎ、常に最高のパフォーマンスを得ることができます。

パフォーマンス劣化の要因

新モデル／新手法の採用
Transformerアーキテクチャの更新やマルチモーダル化などにより、計算パターンが変わり、GPU 利用率やメモリ帯域のバランスが崩れる
ハードウェア構成・クラウドプランの変更
インスタンスタイプのサイズ変更、価格改定、リージョン移行などにより、コスト最適だった構成が陳腐化し、過剰リソースや性能不足を招く
ライブラリ／フレームワークのアップデート
CUDA・cuDNN・PyTorch などのバージョンアップなどにより、内部アルゴリズムやメモリ管理が変わり、想定外のレイテンシ増大やメモリフットプリント悪化が発生

継続的なパフォーマンス改善ループを組み込むことで
常に最高のパフォーマンスを得ることができます。

Fixstars AIBoosterによる高速化実績

放送会社様・LLM70Bモデル継続事前学習

通信会社様・LLM70Bモデル継続事前学習

LLM7Bモデル学習

LLMシングルバッチ推論

LLMマルチバッチ推論

※Fixstars AIBoosterの自動高速化と、取得したパフォーマンスデータを元にした手動高速化の両方の結果を含む

無料ダウンロード

システム構成

AIBoosterは、次の2つのコンポーネントで構成されます。

AIBooster Agent
AgentはLinux OS上で動作するアプリケーションです。お客様が管理するGPU搭載計算ノードにインストールしていただきます。Agentは、各計算ノードのパフォーマンスデータを収集し、Serverへ送信します。計算ノード自体がクラウド上にあるか、オンプレミスかは問いません。

AIBooster Server
Serverは受信したデータを保存するとともに、データをわかりやすく可視化したダッシュボードを提供します。お客様はダッシュボードにブラウザからアクセスするだけで、各計算ノードのパフォーマンスを観測できます。

AIBoosterは、マルチクラウド環境や、複数拠点に分散したサーバー群にも対応しています。管理下のシステム全体の状態と、ノード毎の詳細情報、さらに計算ジョブ毎の詳細情報まで、一つのダッシュボードから把握できます。

よくある質問

Q. Fixstars AIBoosterのオーバーヘッドはどのぐらいですか?

Linuxデーモンのように、システムに常駐しますので、オーバーヘッドはゼロではありませんが、システムリソースを極力消費しないように設計しています。我々は、”Near-Zeroオーバーヘッド”と呼んでいます。

Q. 動作環境を教えてください

Debian系のLinux環境で動作します。弊社で動作確認をしているディストリビューションはUbuntu 22.04 LTSです。NVIDIA GPUがない環境でも動作可能ですが、取得できる情報や機能が限られます。

Q. どこまでが無償でしょうか?

現在配布されているFixstars AIBoosterは無償でご利用可能です。ただし、パフォーマンス・インテリジェンス（PI）に関する機能は利用開始後、1ヶ月間は無償で、その後有償となります。詳細な利用規約については、Fixstars AIBoosterエンドユーザーライセンス契約を参照ください。

Q. Fixstars側が取得しているデータはありませんか?

Fixstarsは、ユーザーのアプリケーション情報、POによる分析結果など、ユーザー固有のデータを取得していません。プロダクトの改善のために、プロダクトの利用状況に関するデータのみ取得しています。詳細はお問い合わせください。

Q. 他のパフォーマンス観測ツールとの違いは何ですか?

DataDog, NewRelicなど、従来のパフォーマンス観測ツールでも、ハードウェアの利用状況等を見ることはできますが、Fixstars AIBoosterの場合、AI処理の詳細も取得・可視化しています。さらに、得られたデータから、パフォーマンスのボトルネックを分析・改善します。

Q. どうやってパフォーマンス改善しているのですか?

パフォーマンス観測（PO）の結果を元に、利用しているインフラの構成を変更したり、処理の際のパラメーターを変えたり、GPUの性能を最大限引き出すソースコードに変更するなど、様々な高速化手法を組み合わせて改善します。ただし現時点では、自動で改善される項目は限られます。

Q. 他のプロファイリングツールとの違いは何ですか?

NVIDIA Nsightなどのプロファイリングツールは、特定のコマンドをトリガーとして、処理の詳細の”スナップショット” を取得するものです。AIBoosterは、システムで実行された処理の詳細を常時取得しています。これにより、性能劣化の原因を過去に遡って調査・分析可能です。また、パフォーマンス改善の提案や自動適用は、他にはないAIBoosterならではの機能です。

Q. 生成AIやLLM以外でも利用できますか?

はい、できます。基本的な技術は大きく変わらないため、他のAIやGPU処理も、Fixstars AIBoosterによって速くなることが期待できます。具体的な効果については処理内容によって変わりますので、お問い合わせください。

他にご質問はございますか？お問い合わせください

パフォーマンスエンジニアリング
プラットフォーム

Fixstars AIBooster

Fixstars AIBoosterとは

パフォーマンス観測機能