Huawei「SuperPoD」電撃発表の衝撃：AI計算の地殻変動は“オープン化”で加速する

2025年09月21日

ぶっちゃけ「知識」が必要なのではなく、今すぐ結果が欲しい!という方へ

人工知能(LLM)を駆使した広告運用マシンをα版につき大幅割引でご提供します＊α版につき、定員に達し次第締め切ります。

宣伝失礼しました。本編に移ります。

上海発のニュースバースト：何が、いつ、どこで起きたのか

中国・上海で開催されたHUAWEI CONNECT 2025において、HuaweiはAI計算基盤「SuperPoD」を中核とする新インフラ群を一挙に公開し、業界関係者の視線を一身に集めました。本件のキモは二つございます。第一に、複数のAI計算ノードを“単一の巨大な論理サーバ”として扱う設計思想を前面に押し出したこと。第二に、Atlas 950/960といった具体プロダクトと、その上位に位置づけられる大規模「SuperCluster」構想を明確化したことです。これにより、GPU単体の世代交代に依存しない形で演算総量を引き上げる、いわば“数と結合の勝負”へパラダイムがシフトいたしました。さらに、ソフトウェア層のオープン化（CANN等）をロードマップに組み込み、開発者・パートナーを巻き込むエコシステム戦略に舵を切った点も見逃せません。世界最大級の計算供給力を掲げるプレイヤーが、クローズドからオープンへ重心を移す――この一手は、NVIDIA中心の業界地図に異なる重力を発生させる可能性がございます。

イベント年表（概念図）

2025/03  Atlas 900 A3 SuperPoD 稼働      ──►  384 NPU級（クラウド実装）
2025/09  Atlas 950/960 SuperPoD 公開   ──►  8,192 / 15,488 NPU構成
2025/09  950/960 SuperCluster 構想     ──►  50万～100万NPU級
2025/12  CANN オープン化計画 目標日    ──►  ソフト基盤の開放・拡張

SuperPoDの骨子：分散を“一枚岩”に変える思想と設計

SuperPoDは多数のAIアクセラレータとサーバ群を、高帯域・低遅延の結合で束ね、アプリケーション側からは統一的に扱える“巨大な論理マシン”として提供する設計でございます。クラスター拡張時に生じがちなスケール不経済（ノード間通信の輻輳、同期オーバーヘッド、資源断片化）を、統一アドレッシングと高速ファブリックで最小化し、実効性能の線形スケールを狙うのがポイントです。一般的に、単体チップのTOPS/TFLOPS差は世代遅れを招きますが、SuperPoDは“総接続能力”と“運用時の均質性”で総合力を引き上げるため、モデル学習・推論の両局面で安定性と再現性を確保しやすい構造になっております。

「単一の巨大サーバ」に見せる抽象化（概念図）

[App/Framework]
        │         統一メモリアドレス/通信
        ▼
+-------------------- SuperPoD --------------------+
|   Logic Server = { Node1, Node2, ... NodeN }    |
|   高帯域/低遅延   スケジューラ   共有メモリ階層   |
+-------------------------------------------------+
        ▲
        │         単一ターゲットとして実行
[Developer]

要となるインターコネクト：UnifiedBus・UBoE・UB-Meshの役割

今回の計算基盤を支える要諦はインターコネクトでございます。HuaweiはUnifiedBusという思想を掲げ、ノード内外の多様な結線を統一的プロトコルで運用する方向性を示しました。データセンターネットワーク側ではRoCE（Ethernet上のRDMA）を併用しつつ、UBoE（UnifiedBus over Ethernet）を推奨パスとして位置づけ、静的レイテンシやMTBFの改善、配線・装置要件の簡素化を狙います。さらに、UB-Meshでは“プロトコルの一本化”を目標に掲げ、PCIeからTCP/IPまで“分断された島”を跨いできた既存手法を置換する長期青写真を示しました。これが実装とエコシステムの両輪で進めば、スケール時の複雑性コストを削減し、クラスターの信頼性・運用性を同時に底上げできる可能性がございます。

接続方式の比較イメージ

従来： NVLink/IB + Ethernet + PCIe + TCP/IP ...
       └─ 異種プロトコルの変換点が遅延・複雑性を増大

提案： UnifiedBus（UBoE/UB-Mesh）
       └─ 単一思想でノード内外を貫通、変換点を最小化

プロダクトの全貌：Atlas 900 A3から950/960、そしてSuperClusterへ

今年前半に稼働が明らかにされたAtlas 900 A3 SuperPoDは、384基のAscend 910Cを束ねる構成で実効300PF級の性能を公称し、クラウドの実装事例（CloudMatrix 384）も登場いたしました。今回の発表で一段跳躍したのがAtlas 950/960で、単一SuperPoDあたりのアクセラレータ搭載数は8,192（950）および15,488（960）という桁違いの規模感です。さらに、64基のAtlas 950 SuperPoDを結んだ「Atlas 950 SuperCluster」は、推論でZetta級（FP4換算）、学習で多数のExa級（FP8換算）に達する演算力を目指し、物理フットプリントはサッカー場多数分に匹敵するスケールが示されました。次段階としては、Atlas 960を母体とする100万NPU級のSuperCluster構想も表明され、2026～2027年にかけたロードマップが俯瞰可能になっております。

ロードマップ概念図（数値はメーカー公表・報道ベース）

A900 A3  ─ 384 NPU ─ 約300 PF           [2025稼働]
A950     ─ 8,192 NPU                    [出荷計画]
A960     ─ 15,488 NPU                   [上位機]
SC-950   ─ 64×A950 ≒ 52万超 NPU         [SuperCluster]
SC-960   ─ 100万超 NPU                  [将来構想]

オープン化の矛先：CANNとMindSporeが担う“参加入口”

HuaweiはAIソフトスタックのオープン化を明確に掲げました。開発者向け低層の計算基盤であるCANN（Compute Architecture for Neural Networks）は、年内（2025年12月末）を目処にオープンアクセスおよびオープンソースを拡張する計画が示され、将来バージョンについても製品投入と歩調を合わせる旨が公表されています。自社の収益ドライバーをハード側に置く方針を同時に強調した点は戦略的で、ソフトは“開くことで普及を加速し、ハードで回収する”モデルを志向していると読み解けます。また、フレームワーク層のMindSporeはダウンロード規模とコミュニティ規模を拡大し、中国新規導入市場で一定比率を確保したとの説明もあり、教育・研究機関との連携幅が増しています。すなわち、開発環境の“敷居を下げる”ことでAscend/Atlas系の採用障壁を取り除き、SuperPoDへの流入を促す設計でございます。

ソフトウェア層の整理（概念）

[応用/LLM/推論サービング]  ── MindSpore / 互換層
             │
[最適化/ランタイム/カーネル] ── CANN（OSS化へ）
             │
[Ascend/Atlas ハード群]      ── SuperPoD/Cluster

「数」で押し切る超大規模：50万～100万NPU級SuperClusterの意味

SuperCluster構想は、SuperPoDを“タイル”として並べ、広域で演算・帯域・メモリを総動員する発想です。Atlas 950 SuperClusterは64基のA950を束ねる設計が紹介され、総チップ数は50万超級に達します。さらに、Atlas 960 SuperClusterは100万超NPUという、かつてない規模へ踏み込む計画が言及されました。物理的には数万平方メートル規模、電力・冷却・配線の整合性を含む総合アーキテクチャの勝負であり、単なる“台数の多さ”を超えて、運用・信頼性・可用性の包括設計力が競争力の本体になります。モデル側でも、数千億～兆パラメータ級の学習・推論を現実的なSLAで回すため、通信効率・スケジューリング・障害分離の総合最適が不可欠です。

SuperClusterのレイヤー（概念）

[アプリ/LLM群] 
      │
[Orchestrator/調停]──[XCCL等通信ライブラリ]──[耐障害]
      │
[A950/A960 SuperPoD × 多数]───[UBoE/RoCEバックプレーン]

競合比較：NVIDIA/AMD/Googleとの“勝ち筋”はどこにあるのか

最大の比較対象はNVIDIAでございます。単体GPU性能と開発者エコシステムの厚みでは依然として優位ですが、HuaweiはSuperPoD/Clusterで“総結合力”を前面に押し出し、インターコネクトの一本化思想（UnifiedBus、UBoE/UB-Mesh）で規模拡大時の効率低下を抑えにいきます。AMDはROCmなどOSS寄りの布陣で追撃し、GoogleはTPU系で垂直統合の効率を突き詰めています。Huaweiの差別化は、国産サプライチェーンの統合力と通信・サーバ技術の長年の蓄積、そして“ハードで稼ぎ、ソフトは開く”という明瞭なモネタイズの切り分けにあります。加えて、中国市場の大需要を背景に、導入のスピードと学習曲線の短縮が期待できる点も実務的なアドバンテージになり得ます。

比較テーブル（要旨）

項目        | Huawei(Ascend/SuperPoD) | NVIDIA(DGX/NVL/NVLink) | AMD(Instinct/ROCm) | Google(TPU)
拡張思想    | 統一Busで“数×結合”       | 単体性能＋NVLink        | OSS路線で追随       | 垂直統合
ソフト戦略  | CANN/MindSpore開放       | CUDA中心で堅牢         | ROCmオープン        | 限定公開
強み        | 供給統合/国内需要        | エコシステム成熟       | コスト/供給多様性   | 自社サービス密結合

初期実績と“走りながら強くなる”循環：現場の温度感

Atlas 900 A3 SuperPoDの投入以降、通信、インターネット、製造など複数業種に向けて複数百台規模の出荷が進んだとの発表があり、国内需要を起点にした“実装→改善→再実装”の高速ループが回り始めております。クラウド側でもSuperPoD構成をベースにした大規模推論・サービングの研究報告が現れ、ディスアグリゲーテッドな推論実行モデルや、モジュール単位でのスケール分離など、超大規模に特化した運用知見が蓄積されつつあります。オンプレ、クラウド、ハイブリッドを横断して設計が再利用できるのは、開発側にとっても学習コストを圧縮する重要なメリットでございます。

現場での循環モデル（概念）

需要（業界課題）→ 導入（PoD/クラウド）→ 運用データ → 最適化
     ↑───────────────────────────────┘

地政学と規制の影：国外の受け止めとハードル

今回の発表は、米中対立の只中でNVIDIA製品の中国市場への制約が強まるタイミングに重なり、国外メディアは“国内代替の加速”という文脈で報じています。供給網や検証環境の国境越え展開に制約があるため、グローバルでの急速な普及には摩擦が伴うでしょう。他方で、オープンなプロトコルやソフトの開放が進めば、海外パートナーが段階的に参加できる余地は広がります。短期には採用の地域差が顕在化し、中長期では相互運用性・標準化の進み具合が採用速度を左右する見立てでございます。

採用見通し（地域イメージ）

高採用圏：国内/一部新興国
中立圏： 中東/アジアの一部
慎重圏： 北米/日欧（規制・安全保障）

技術的な肝：レイテンシ、帯域、可用性、そして電力

超大規模化の成否を分けるのは、①静的・動的レイテンシの抑制、②ノード間の持続帯域、③MTBF（平均故障間隔）と故障分離、④電力・冷却・床面という物理制約の四点です。UnifiedBus系の実装がもたらす配線と装置要件の簡素化は、スケール時の“隠れコスト”を削り、可用性の底上げに効きます。とはいえ、100万NPU級では運用オペレーションそのものが“製品”です。計画停止を前提としたロールアップデート、故障局所化、ホットパスの縮退動作など、システム工学の総力戦が求められます。モデル側もMoEや重み分散など通信パターンに敏感で、ファブリック最適とアルゴリズム最適の協調設計が不可避です。

ボトルネックの分解（概念）

[モデル/アルゴリズム]──通信パターン──[ネットワーク/Bus]
             │                     │
           計算密度            帯域/遅延/信頼性

ビジネスの勝ち筋：誰が、いつ、何を採るべきか

短期は“国内→周辺地域”の順で導入が進み、開発者コミュニティの厚みが実用事例を押し上げます。中期は、オープン化されたソフトウェアの成熟度（ツール群、ドライバ、最適化ライブラリ、サービング基盤）が、TCOの確度を決める分岐点になります。長期は、標準化とマルチベンダー運用のしやすさが、調達リスクの平準化とベンダーロック回避に寄与し、CIO/CDOの意思決定を後押しするでしょう。特に、“学習はクラスタ、推論はリージョン分散”という二段構えの運用を採る企業には、SuperPoD/Clusterの一貫設計は分かりやすい選択肢となります。

意思決定フロー（簡易）

要件定義 → PoC（互換/性能/電力） → 運用計画 → 拡張/多拠点展開

開発者視点の“入口”設計：移行の現実解

現行のワークロードがPyTorch/TensorFlow中心であっても、バックエンドのランタイムやカーネルを抽象化することで、段階的な移行パスは描けます。CANNの開放と最適化ツールチェーンの整備、MindSpore側のサンプル・教育資産の拡充は、“最初の一歩”を軽くします。重要なのは、①既存コードの互換層による吸収、②ビルド/CIの差分最小化、③運用監視・ロギングの共通化です。“まず推論から”という現実的な順序で採り、学習は段階的に拡張するアプローチが、リスクと成果のバランスに優れます。

段階移行プラン（例）

Step1: 推論移行（互換層） → Step2: 一部学習 → Step3: 本格学習/大規模化

リスクと限界の見取り図：誇張と現実の峻別

計画上のスペックは雄弁ですが、実環境のSLAやアプリ特性で有効性能が左右されるのは普遍の真理でございます。特に、複雑なMoEや長文コンテキストを扱う生成モデルでは、スパース通信やオールトゥオール通信が詰まりどころになります。Huaweiはインターコネクトの一本化と運用の均質化でこの壁を低くすると述べますが、外部の大規模商用検証で同傾向のデータが積み上がるまで、過剰な一般化は避けるのが賢明です。導入側としては、①自社モデルの通信プロファイルを可視化し、②PoCで縮退時のSLAを測り、③拡張フェーズの増分コストを織り込む、という三手を堅実に踏むことを推奨いたします。

検証の三点セット

通信プロファイル化 ─ SLA計測（正常/縮退） ─ 増分コスト算定

総括：クローズドの牙城に“オープン×スケール”で挑む

SuperPoDは、“単体の強さ”に対する“結合の強さ”という対抗軸を示しました。そして、CANNやプロトコルの開放で“参加人口”の拡大を狙い、Atlas 950/960からSuperClusterに至るスケール設計で“供給量”の上限を押し上げる。クローズドな強者に対して、オープンな裾野とスケールの上限という二正面で挑む構図です。意思決定者にとっては、競争力の源泉が“単体GPUのスペック表”から“総接続力と運用工学”へ移りつつある現実を、冷静に捉える好機でございます。地政学、規制、標準化の行方はなお不確実ではありますが、少なくとも本件は“計算の民主化”を掲げた本気の布陣であり、AIインフラの重力圏が静かに、しかし確実に移動し始めたことを告げています。

結論の図解（要旨）

[オープン化] × [結合スケール] ＝ [導入裾野の拡大] ＋ [供給上限の上振れ]

当社では、AI超特化型・自立進化広告運用マシン「NovaSphere」を提供しています。もしこの記事を読んで
・理屈はわかったけど自社でやるとなると不安
・自社のアカウントや商品でオーダーメイドでやっておいてほしい
・記事に書いてない問題点が発生している
・記事を読んでもよくわからなかった
など思った方は、ぜひ下記のページをご覧ください。手っ取り早く解消しましょう

▼AI超特化型・自立進化広告運用マシンNovaSphere▼