パフォーマンスエンジニアリング
プラットフォーム

Fixstars AIBooster

GPUサーバーにインストールするだけで、実行中のAI処理を分析し、ボトルネックを可視化。自動でパフォーマンスを改善します。収集した性能データを元に、手動で更なる高速化も可能です。

Fixstars AIBoosterとは

GPUサーバーにインストールすることで、実行中のAI処理のパフォーマンスデータを収集し、処理のボトルネックを可視化。取得したデータを活用して、パフォーマンスを改善します。

Performance Observability
パフォーマンス観測機能
  • AI学習や推論などのパフォーマンス情報を常に監視・保存
  • 性能の劣化や処理のボトルネックなどを可視化
Performance Intelligence
パフォーマンス改善機能
  • パフォーマンス観測で収集されたデータをもとに、自動で高速化するためのツール群を提供
  • Performance Observabilityが提供するデータをもとに、ユーザーが手動で高速化することで、更なるパフォーマンス改善が可能

処理速度 最大
x5.0
アップ(当社実績)
GPU利用コスト 最大
80%
削減(当社実績)
Performance Observability

パフォーマンス観測機能

Performance Intelligence

パフォーマンス改善機能

ワークフロー
1

分析

POビューワーを確認し、CPU/GPU 利用率・I/O 帯域・メモリ消費・フレームグラフなどからパフォーマンスの課題を特定。

2

高速化

  • 分析結果をもとに、自動で高速化するためのツール群を提供
  • 高速化に必要なドキュメントを提供。これを利用して、ユーザーが手動で高速化を実現可能

パフォーマンスエンジニアリングサービス(要問い合わせ)

さらなる高速化が必要な場合、AIBoosterの分析データを元に、Fixstarsの高速化エキスパートがお客様の開発環境やご要望に応じたパフォーマンス改善を行います。

学習高速化の例
  • ハイパーパラメータチューン(詳しく見る
  • モデル軽量化
  • AIモデルの適切な並列化手法の適用
  • 通信ライブラリのパラメータ最適化
  • 再計算によるメモリバンドの効率改善
推論高速化の例
  • 全自動推論高速化(詳しく見る
  • 自動混合精度量子化
ハイパーパラメータチューニングツール(ZenithTune)

アプリケーションの潜在能力を最大限に引き出し、ユーザーのコーディングを最小限に抑えながら最高の性能を実現するライブラリ「ZenithTune」を提供しています。

ZenithTuneについて詳しく見る
最適化履歴プロット
全自動推論高速化ツール(AcuiRT)

深層学習モデルの推論をNVIDIA GPU向けに高速化する際の課題

  • 複雑なモデル構造:最新AIモデルは巨大で複雑な構造
  • 手動最適化の限界:全パターンの手動変換は工数が膨大で現実的でない
  • 専門知識の必要性:GPUやTensorRTの深い技術知識と経験が必要

PyTorchで構築されたAIモデルを完全自動でTensorRT化。専門知識不要で、開発工数を劇的に短縮しながら推論速度を向上します。

AcuiRTについて詳しく見る
自動最適化プロセス
PyTorchモデル
複雑なマルチモジュール構造
自動構造解析
モジュール構造を自動把握
段階的最適化
完全自動で最適化を実行
最適化済みモデル
すぐに利用可能

パフォーマンス改善サイクル

パフォーマンスは不変ではなく、新しいモデルの利用、パラメータの変更、インフラの仕様変更、など、日々の開発活動の中で変化していきます。パフォーマンス改善サイクルを継続的に回すことで、性能劣化を未然に防ぎ、常に最高のパフォーマンスを得ることができます。

パフォーマンス劣化の要因
  • 新モデル/新手法の採用
    Transformerアーキテクチャの更新やマルチモーダル化などにより、計算パターンが変わり、GPU利用率やメモリ帯域のバランスが崩れる
  • ハードウェア構成・クラウドプランの変更
    インスタンスタイプのサイズ変更、価格改定、リージョン移行などにより、コスト最適だった構成が陳腐化し、過剰リソースや性能不足を招く
  • ライブラリ/フレームワークのアップデート
    CUDA・cuDNN・PyTorchなどのバージョンアップなどにより、内部アルゴリズムやメモリ管理が変わり、想定外のレイテンシ増大やメモリフットプリント悪化が発生
継続的なパフォーマンス改善ループを組み込むことで常に最高のパフォーマンスを得ることができます。

Fixstars AIBoosterによる高速化実績

  • 放送会社様・LLM70Bモデル継続事前学習
  • 通信会社様・LLM70Bモデル継続事前学習
  • LLM7Bモデル学習
  • LLMシングルバッチ推論
  • LLMマルチバッチ推論

※Fixstars AIBoosterの自動高速化と、取得したパフォーマンスデータを元にした手動高速化の両方の結果を含む

システム構成

AIBoosterは、次の2つのコンポーネントで構成されます。

AIBooster Agent
AgentはLinux OS上で動作するアプリケーションです。お客様が管理するGPU搭載計算ノードにインストールしていただきます。Agentは、各計算ノードのパフォーマンスデータを収集し、Serverへ送信します。計算ノード自体がクラウド上にあるか、オンプレミスかは問いません。

AIBooster Server
Serverは受信したデータを保存するとともに、データをわかりやすく可視化したダッシュボードを提供します。お客様はダッシュボードにブラウザからアクセスするだけで、各計算ノードのパフォーマンスを観測できます。

AIBoosterは、マルチクラウド環境や、複数拠点に分散したサーバー群にも対応しています。管理下のシステム全体の状態と、ノード毎の詳細情報、さらに計算ジョブ毎の詳細情報まで、一つのダッシュボードから把握できます。

よくある質問

Linuxデーモンのように、システムに常駐しますので、オーバーヘッドはゼロではありませんが、システムリソースを極力消費しないように設計しています。我々は、”Near-Zeroオーバーヘッド”と呼んでいます。

他にご質問はございますか?お問い合わせください

Fixstars AIBoosterで
パフォーマンスエンジニアリング

見えないボトルネックを発見し自動で高速化
取得したパフォーマンスデータを活用して、手動で更なる高速化を実現