arrow-up icon

パフォーマンスエンジニアリング
プラットフォーム

パフォーマンスエンジニアリング
プラットフォーム

Fixstars AIBooster

GPUサーバーにインストールするだけで、実行中のAI処理を分析し、 ボトルネックを可視化。自動でパフォーマンスを改善します。 収集した性能データを元に、手動で更なる高速化も可能です。

Fixstars AIBoosterとは

クラウド・オンプレミスを問わず、GPUサーバーにインストールすることで、実行中のAI処理のパフォーマンスデータを収集し、処理のボトルネックを可視化。取得したデータを活用して、パフォーマンスを改善します。

Performance Observability
パフォーマンス観測機能
  • Checkmark icon
    AI学習や推論などのパフォーマンス情報を常に監視・保存
  • Checkmark icon
    性能の劣化や処理のボトルネックなどを可視化
Performance Intelligence
パフォーマンス改善機能
  • Checkmark icon
    パフォーマンス観測で収集されたデータをもとに、自動で高速化するためのツール群を提供
  • Checkmark icon
    Performance Observabilityが提供するデータをもとに、ユーザーが手動で高速化することで、更なるパフォーマンス改善が可能

処理速度 最大
0.0
アップ(当社実績)
GPU利用コスト 最大
0
削減(当社実績)
Performance Observability

パフォーマンス観測機能

ハードウェアの使用状況とAI処理の実行内容を監視・保存
時系列データとして継続的に保存
  • GPU、CPU、メモリ、NIC、PCIe、ストレージなどの情報を集約して時系列で管理
  • オーバーヘッドを極力抑え、システムに常駐してパフォーマンスデータを継続して取得
マルチプラットフォーム対応
  • クラウド(AWS、Microsoft Azure、Google Cloud Platform、さくらインターネットなど)からオンプレミスまで、異なるアーキテクチャーのシステムを一括で監視可能
実行中のアプリケーションのプロファイリング
フレームグラフを継続的に保存
  • 実行しているアプリケーションの処理時間を100として、アプリケーション内部の処理の内訳をブレイクダウンして可視化
  • プログラムのうちのどの関数、どのライブラリがボトルネックになっているか
  • ハードウェアの利用状況が良い場合・悪い場合に、アプリケーション構成の違いはあるか
Performance Intelligence

パフォーマンス改善機能

ワークフロー
  • 1
    分析
    POビューワーを確認し、CPU/GPU 利用率・I/O 帯域・メモリ消費・フレームグラフなどからパフォーマンスの課題を特定。
  • 2
    高速化
    • 分析結果をもとに、自動で高速化するためのツール群を提供
    • 高速化に必要なドキュメントを提供。これを利用して、ユーザーが手動で高速化を実現可能
  • パフォーマンスエンジニアリングサービス(要問い合わせ)
    さらなる高速化が必要な場合、AIBoosterの分析データを元に、Fixstarsの高速化エキスパートがお客様の開発環境やご要望に応じたパフォーマンス改善を行います。
学習高速化の例
  • ハイパーパラメータチューン(詳しく見る
  • モデル軽量化
  • AIモデルの適切な並列化手法の適用
  • 通信ライブラリのパラメータ最適化
  • 再計算によるメモリバンドの効率改善
推論高速化の例
  • 全自動推論高速化(詳しく見る
  • 自動混合精度量子化
ハイパーパラメータチューニングツール(ZenithTune)

アプリケーションの潜在能力を最大限に引き出し、ユーザーのコーディングを最小限に抑えながら最高の性能を実現するライブラリ「ZenithTune」を提供しています。

ZenithTuneについて詳しく見る

最適化履歴プロット
全自動推論高速化ツール(AcuiRT)

深層学習モデルの推論をNVIDIA GPU向けに高速化する際の課題

  • 複雑なモデル構造:最新AIモデルは巨大で複雑な構造
  • 手動最適化の限界:全パターンの手動変換は工数が膨大で現実的でない
  • 専門知識の必要性:GPUやTensorRTの深い技術知識と経験が必要

PyTorchで構築されたAIモデルを完全自動でTensorRT化。専門知識不要で、開発工数を劇的に短縮しながら推論速度を向上します。

AcuiRTについて詳しく見る

自動最適化プロセス
  • PyTorchモデル
    複雑なマルチモジュール構造
  • 自動構造解析
    モジュール構造を自動把握
  • 段階的最適化
    完全自動で最適化を実行
  • 最適化済みモデル
    すぐに利用可能

パフォーマンス改善サイクル

パフォーマンスは不変ではなく、新しいモデルの利用、パラメータの変更、インフラの仕様変更、など、日々の開発活動の中で変化していきます。パフォーマンス改善サイクルを継続的に回すことで、性能劣化を未然に防ぎ、常に最高のパフォーマンスを得ることができます。

パフォーマンス劣化の要因
  • decoration
    新モデル/新手法の採用
    Transformerアーキテクチャの更新やマルチモーダル化などにより、計算パターンが変わり、GPU 利用率やメモリ帯域のバランスが崩れる
  • decoration
    ハードウェア構成・クラウドプランの変更
    インスタンスタイプのサイズ変更、価格改定、リージョン移行などにより、コスト最適だった構成が陳腐化し、過剰リソースや性能不足を招く
  • decoration
    ライブラリ/フレームワークのアップデート
    CUDA・cuDNN・PyTorch などのバージョンアップなどにより、内部アルゴリズムやメモリ管理が変わり、想定外のレイテンシ増大やメモリフットプリント悪化が発生
継続的なパフォーマンス改善ループを組み込むことで
常に最高のパフォーマンスを得ることができます。

Fixstars AIBoosterによる高速化実績

放送会社様・LLM70Bモデル継続事前学習
通信会社様・LLM70Bモデル継続事前学習
LLM7Bモデル学習
LLMシングルバッチ推論
LLMマルチバッチ推論

※Fixstars AIBoosterの自動高速化と、取得したパフォーマンスデータを元にした手動高速化の両方の結果を含む

システム構成

AIBoosterは、次の2つのコンポーネントで構成されます。

AIBooster Agent
AgentはLinux OS上で動作するアプリケーションです。お客様が管理するGPU搭載計算ノードにインストールしていただきます。Agentは、各計算ノードのパフォーマンスデータを収集し、Serverへ送信します。計算ノード自体がクラウド上にあるか、オンプレミスかは問いません。

AIBooster Server
Serverは受信したデータを保存するとともに、データをわかりやすく可視化したダッシュボードを提供します。お客様はダッシュボードにブラウザからアクセスするだけで、各計算ノードのパフォーマンスを観測できます。

AIBooster Server を利用する手段は2通りあります。

  1. 当社が管理するクラウド上でAIBooster Server を利用する。
    インストール不要で、すぐにお使いいただけます。お客様毎に専用のログイン画面を提供いたします。
  2. お客様が管理するLinux サーバーにインストールし、利用する。
    AIBooster Serverをお客様が管理するオンプレミス環境で運用することも可能です。
    詳細はお問い合わせください。

AIBoosterは、マルチクラウド環境や、複数拠点に分散したサーバー群にも対応しています。管理下のシステム全体の状態と、ノード毎の詳細情報、さらに計算ジョブ毎の詳細情報まで、一つのダッシュボードから把握できます。

システム構成例

管理サーバー側のインストール不要・簡単に今すぐ始めたい方向け

各GPU計算ノードにAIBooster Agentをインストールします。
Fixstarsが管理するクラウド上からWebアプリとして提供される管理画面で、アカウント作成とユーザー情報の入力をしていただきます。
ユーザー専用のURLが発行されますので、そちらにブラウザからアクセスし、ダッシュボードを閲覧します。

全てをオンプレミス環境で構築・セキュリティ上、外部のサービスを利用できない方向け

管理ノードを一台決めていただき、AI Booster Server をインストールします。各GPU計算ノードにはAIBooster Agentをインストールします。
ユーザーは個人のPCからブラウザを通じて、管理ノードが提供するダッシュボードをTCP通信の3000番ポート経由で閲覧します。
多くのGPUクラスタサーバーシステムで推奨される構成です。

よくある質問

Q. Fixstars AIBoosterのオーバーヘッドはどのぐらいですか? plus interface icon

Linuxデーモンのように、システムに常駐しますので、オーバーヘッドはゼロではありませんが、システムリソースを極力消費しないように設計しています。我々は、”Near-Zeroオーバーヘッド”と呼んでいます。

Debian系のLinux環境で動作します。弊社で動作確認をしているディストリビューションはUbuntu 22.04 LTSです。NVIDIA GPUがない環境でも動作可能ですが、取得できる情報や機能が限られます。

現在配布されているFixstars AIBoosterは無償でご利用可能です。ただし、パフォーマンス・インテリジェンス(PI)に関する機能は利用開始後、1ヶ月間は無償で、その後有償となります。詳細な利用規約については、Fixstars AIBoosterエンドユーザーライセンス契約を参照ください。

Fixstarsは、ユーザーのアプリケーション情報、POによる分析結果など、ユーザー固有のデータを取得していません。プロダクトの改善のために、プロダクトの利用状況に関するデータのみ取得しています。詳細はお問い合わせください。

DataDog, NewRelicなど、従来のパフォーマンス観測ツールでも、ハードウェアの利用状況等を見ることはできますが、Fixstars AIBoosterの場合、AI処理の詳細も取得・可視化しています。さらに、得られたデータから、パフォーマンスのボトルネックを分析・改善します。

パフォーマンス観測(PO)の結果を元に、利用しているインフラの構成を変更したり、処理の際のパラメーターを変えたり、GPUの性能を最大限引き出すソースコードに変更するなど、様々な高速化手法を組み合わせて改善します。ただし現時点では、自動で改善される項目は限られます。

NVIDIA Nsightなどのプロファイリングツールは、特定のコマンドをトリガーとして、処理の詳細の”スナップショット” を取得するものです。AIBoosterは、システムで実行された処理の詳細を常時取得しています。これにより、性能劣化の原因を過去に遡って調査・分析可能です。また、パフォーマンス改善の提案や自動適用は、他にはないAIBoosterならではの機能です。

はい、できます。基本的な技術は大きく変わらないため、他のAIやGPU処理も、Fixstars AIBoosterによって速くなることが期待できます。具体的な効果については処理内容によって変わりますので、お問い合わせください。

他にご質問はございますか?お問い合わせください

Fixstars AIBoosterで
パフォーマンスエンジニアリング

見えないボトルネックを発見し自動で高速化
取得したパフォーマンスデータを活用して、手動で更なる高速化を実現

無料ダウンロード decoration