<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:media="http://search.yahoo.com/mrss/"><channel><title>コンピューティング</title><link>https://cloud.google.com/blog/ja/products/compute/</link><description>コンピューティング</description><atom:link href="https://cloudblog.withgoogle.com/blog/ja/products/compute/rss/" rel="self"></atom:link><language>ja</language><lastBuildDate>Mon, 20 Apr 2026 05:30:16 +0000</lastBuildDate><image><url>https://cloud.google.com/blog/ja/products/compute/static/blog/images/google.a51985becaa6.png</url><title>コンピューティング</title><link>https://cloud.google.com/blog/ja/products/compute/</link></image><item><title>AI インフラストラクチャの効率: Ironwood TPU で炭素効率が 3.7 倍向上</title><link>https://cloud.google.com/blog/ja/topics/systems/ironwood-tpus-deliver-37x-carbon-efficiency-gains/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 7 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/topics/systems/ironwood-tpus-deliver-37x-carbon-efficiency-gains?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/topics/sustainability/tpus-improved-carbon-efficiency-of-ai-workloads-by-3x?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI インフラストラクチャが環境に与える影響について透明性を確保&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;することに尽力しており、チップの製造からデータセンターでのチップの稼働まで、チップのライフサイクル全体における排出量の指標を公開しています。このたび、Google は第 7 世代 TPU である Ironwood の指標を更新します。Ironwood は、前世代のパフォーマンス最適化 TPU である TPU v5p と比較して、コンピューティング二酸化炭素排出原単位（CCI）が約 3.7 倍改善されています&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;つまり、AI が追加のコンピューティング リソースの需要を促進しているのは事実ですが、AI ハードウェアを最適化するための Google の継続的な取り組みは、AI ワークロードのエネルギー消費量と排出量の改善に役立っています。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;AI アクセラレータの効率を測定: コンピューティング二酸化炭素排出原単位（CCI）&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI ワークロードの環境への影響を管理するために、Google は AI アクセラレータ ハードウェアのコンピューティング二酸化炭素排出原単位（CCI）をモニタリングしています。CCI は、&lt;/span&gt;&lt;a href="https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=11097303" rel="noopener" target="_blank"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;An Introduction to Life-Cycle Emissions of Artificial Intelligence Hardware&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;2&lt;/span&gt;&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;で、利用される浮動小数点演算ごとに排出される CO2 換算量（CO2e / FLOP）の推定値として定義されています。この指標は、製造、輸送、データセンターの建設に関連する体化排出量（スコープ 3）と、データセンターでのチップの運用に関連する運用排出量（スコープ 1 と 2）の両方を含めることで、チップレベルの全体像を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Ironwood のメリット: 高パフォーマンス、低フットプリント&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の TPU CCI は、チップの世代ごとに改善され続けています。2026 年 1 月に測定された実証データによると、Ironwood は TPU v5p と比較して CCI が 3.7 倍も改善されています。これにより、TPU v4 と比較して TPU v5p の CCI が 1.2 倍向上し、Google のパフォーマンス最適化された TPU アーキテクチャの継続的な炭素効率の最適化が実証されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この効率性の向上は、マシンのエネルギー消費量と製造時の排出量の増加に比べて、TPU の世代間のコンピューティング パフォーマンスの向上が大きかったことによるものです。実際、TPU v5p から Ironwood までの全世代にわたるフリート全体の測定では、利用できる FLOP 数が 5 倍向上しています&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;3&lt;/span&gt;&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;。CCI の式（CO2e / FLOP）のパフォーマンス分母が排出量よりも速くスケールされるため、新しいチップごとに 1 オペレーションあたりの純炭素コストが大幅に低下します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Oan2vLj.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;図 1: 2026 年 1 月のワークロードにおいて、Google のパフォーマンス最適化 TPU コホートで測定された Ironwood の CCI 改善の加速&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;4&lt;/span&gt;&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Google の TPU フリートの運用効率がさらに向上&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU CCI 指標が更新されたことで、2025 年に公開された測定値との直接比較も可能にしました。具体的には、2024 年 10 月から 2026 年 1 月にかけて、Google の汎用 TPU コホートは、以前の報告よりも効率的に動作しました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;TPU v5e では、15 か月間で CCI の合計が 43% 削減され、228 gCO2e / EFLOP になりました。これは、平均使用率が 72% 増加したことによるものです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;第 6 世代の TPU である Trillium では、同じ期間に CCI の合計が 20% 削減され、排出原単位は 125 gCO2e / EFLOP になりました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_HRjRsFh.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;図 2: Google の汎用 TPU コホートは、2024 年 10 月から 2026 年 1 月までの同じ TPU 世代におけるデプロイ効率の向上を示しています&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;5&lt;/span&gt;&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;。&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの結果は、Google が AI インフラストラクチャの炭素効率を継続的に改善していることを示しています。AI に対する大規模な需要により、大量の電力が必要とされ、その量は増え続けていますが、Google のイノベーションにより、消費電力の単位あたりで大幅に高いコンピューティング パフォーマンスを実現できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;エネルギーと排出量をパフォーマンスから切り離す&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの改善は、何に起因すると考えられるでしょうか。Ironwood のハードウェアの基本性能に加え、Google のインフラストラクチャ全体にわたるソフトウェアとシステムレベルの綿密な最適化によって、CCI の向上はさらに促進されています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ソフトウェアの効率（MoE）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Mixture of Experts（MoE）などのスパース アーキテクチャが広く採用されることで、必要なパラメータにのみ計算がルーティングされます。これにより、モデルの容量や品質を犠牲にすることなく、推論やトレーニングのステップごとに必要なアクティブな FLOP を大幅に削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;低精度演算（FP8）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 8 ビット浮動小数点（FP8）形式を多用することで、16 ビット形式と比較して、コンピューティング スループットを 2 倍に高め、メモリ帯域幅の要件を半分に削減しています。これは、数学演算あたりのエネルギー コストを指数関数的に削減しながら、出力品質を維持できることを示しています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ワークロードのミックスとインテリジェントなスケジューリング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 高度なフリート オーケストレーションにより、インフラストラクチャ全体でワークロードのミックスが継続的にバランス調整されます。タスクをインテリジェントにスケジューリングすることで、継続的な使用率を高く保ち、デューティ サイクルを最適化し、アイドル電力消費による二酸化炭素排出量を最小限に抑えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Cloud でサステナブルにスケーリング&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI の発展には、二酸化炭素排出量を同程度に急増させることなく、指数関数的にスケールできるインフラストラクチャが必要です。TPU v5p から Ironwood で炭素効率が 3.7 倍向上したことは、ハードウェアとソフトウェアの慎重な共同設計を通じて、エネルギーと環境フットプリントの増加を最小限に抑えながら、より高いコンピューティング密度を実現できることを示しています。Ironwood の詳細と利用方法については、&lt;/span&gt;&lt;a href="https://cloud.google.com/resources/ironwood-tpu-interest?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちらのフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;からご登録ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;1. &lt;/span&gt;&lt;a href="https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=11097303" rel="noopener" target="_blank"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;2025 年 8 月の技術レポート&lt;/span&gt;&lt;/a&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;で公開された手法に従い、2026 年 1 月時点の Google の各世代の TPU を対象として、TPU ハードウェアのライフサイクル全体の排出量を特定時点のスナップショットとして定量化しました。この調査の機能単位は、データセンターにデプロイされた 1 台の AI コンピュータです。これには、1 つのホストトレイ（つまり、コンピューティング サーバー）に接続された 1 つ以上のアクセラレータ トレイ（TPU を含む）が含まれます。トレイ以外の周辺コンポーネント（ラック、棚、ネットワーク機器など）と補助的なコンピューティング リソースおよびストレージ リソースは、体化排出量と運用排出量の計算から除外されます。データセンターの冷却に使用される電力は、運用排出量に含まれます。ワークロード実行の電力消費に伴う運用上の排出量を推定するために、TPU フリート全体のマシン電力データを観測して 1 か月分のサンプルを用意し、Google の 2024 年のフリート全体の二酸化炭素排出原単位の平均を適用しました。製造、輸送、廃棄に由来する体化排出量を推定するために、ハードウェアのライフサイクル評価を実施しました。データセンターの建設に伴う排出量は、Google が開示した 2024 年の温室効果ガス排出量に基づき推定されました。これらの調査結果は、モデルレベルの排出量を表しているわけではありません。また、AI に関連する Google の排出を完全に定量化したものでもありません。TPU のロケーションに応じて、特定のワークロードに対応する CCI の結果が変わる可能性があります。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;2. この論文の共同執筆者の Ian Schneider、Hui Xu、Stephan Benecke、Parthasarathy Ranganathan、Cooper Elsworth に対して、これらの結果を可能にするために多大な協力をしてくれたことに、著者一同から感謝を申し上げたいと思います。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;3. この比較では、2026 年 1 月に Google のフリートにデプロイされた TPU v5p チップと Ironwood チップの間で利用される FLOPS（BF16）を考慮しています。この傾向は、v5p（459 FLOPS）と Ironwood（2,307 FLOPS）の間のピーク FLOPS（BF16）の改善と一致しています。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;4. GHG プロトコルは、運用排出量について 2 つの会計基準を提供しています。ここで示す結果は、カーボンフリー エネルギーの購入による影響を含む、市場ベースの排出量を考慮したものです。カーボンフリー エネルギーの購入を除外するロケーション ベースの会計では、運用 CCI はそれぞれ 793、712、195 gCO2e/EFLOP に上昇します。CCI の改善の割合は同程度で、Ironwood の体化 CCI は合計 CCI の 23% から 8% に減少します。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;5. さまざまな TPU 使用率で公平に比較できるように、この分析では &lt;/span&gt;&lt;a href="https://ieeexplore.ieee.org/iel8/40/11236092/11097303.pdf" rel="noopener" target="_blank"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;2025 年 8 月の技術レポート&lt;/span&gt;&lt;/a&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;の傾向スコア加重手法を再現し、2026 年 1 月の結果を 2025 年に公開された結果と比較しています。この統計手法では、デューティ サイクルの変動を調整して、特定の期間における TPU の比較のバランスを取ります。この経験的な手法により、計算された CCI の時間的期間間の変動が小さくなり、グローバル インフラストラクチャ全体での実際のエネルギー消費量とハードウェア使用率の変動が反映されます。&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google シニア データ サイエンティスト、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Keguo（Tim）Huang&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google 上級エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;David Patterson&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 20 Apr 2026 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/topics/systems/ironwood-tpus-deliver-37x-carbon-efficiency-gains/</guid><category>Compute</category><category>Sustainability</category><category>TPUs</category><category>Systems</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>AI インフラストラクチャの効率: Ironwood TPU で炭素効率が 3.7 倍向上</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/topics/systems/ironwood-tpus-deliver-37x-carbon-efficiency-gains/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Keguo (Tim) Huang</name><title>Senior Data Scientist, Google</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>David Patterson</name><title>Google Distinguished Engineer, Google</title><department></department><company></company></author></item><item><title>Ironwood TPU を使用したトレーニングに関するデベロッパー ガイド</title><link>https://cloud.google.com/blog/ja/products/compute/training-large-models-on-ironwood-tpus/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 24 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/training-large-models-on-ironwood-tpus?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;数兆単位のパラメータを扱う AI モデルへの移行により、演算リソースの需要が急激に高まり、従来のインフラストラクチャの限界が試されています。第 7 世代の Ironwood TPU は、Google がカスタム設計した AI インフラストラクチャです。チップ間相互接続（ICI）、光回路スイッチ（OCS）、データセンター ネットワーク（DCN）、および大規模な集約型高帯域幅メモリ（HBM）容量を組み合わせることで、最大 9,216 個のチップを格納できる Pod に対応する包括的なシステムとしてスケールできるように設計されています。さらに、Ironwood はハードウェア アーキテクチャとソフトウェアの統合された共同設計を特徴としており、コンパイラ中心の XLA、および Pallas や Mosaic などの Python ネイティブ カーネルといったイノベーションが導入されています。組織はこれらの機能を組み合わせることで、高度なフロンティア モデルをトレーニングおよび提供する能力を大幅に高め、AI ライフサイクル全体を最適化し、高いパフォーマンスを維持できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_YpVMWLp.max-1000x1000.jpg"
        
          alt="image1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この技術概要では、Ironwood ハードウェア上でのトレーニング効率の向上と、卓越したパフォーマンスの実現を目指して設計された、JAX および MaxText エコシステムにおける具体的な手法とツールについて説明します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Ironwood の主な最適化戦略&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. MaxText によるネイティブ FP8 の活用&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood は、行列乗算ユニット（MXU）で 8 ビット浮動小数点（FP8）をネイティブにサポートする最初の TPU 世代です。重み、アクティベーション、勾配に FP8 精度を利用することで、ユーザーは理論上、スループットを Brain Floating Point 16（BF16）の 2 倍に高められます。FP8 レシピを正しく構成すると、モデルの品質を損なうことなく効率を向上させることができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの FP8 トレーニング レシピを実装するには、&lt;/span&gt;&lt;a href="https://github.com/google/qwix" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Qwix&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; ライブラリから始めます。この機能は、MaxText 構成内で関連するフラグを指定すると有効になります。,  &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;詳しくは、Google デベロッパー フォーラムのブログ投稿 &lt;/span&gt;&lt;a href="https://discuss.google.dev/t/inside-the-optimization-of-fp8-training-on-ironwood/336681" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ironwood での FP8 トレーニングの最適化について&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. Tokamax カーネルによる加速&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://github.com/openxla/tokamax/tree/main" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Tokamax&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、TPU 向けに最適化された高パフォーマンスの JAX カーネルのライブラリです。これらのカーネルは、次のメカニズムを通じて特定のボトルネックを軽減するように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Splash Attention&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: このメカニズムは、標準的なアテンション プロセスに内在する I/O の制限に対処します。オンチップ SRAM 内で計算を維持することで、メモリ帯域幅が制約になることが多い長いコンテキストの処理に特に効果を発揮します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Megablox グループ化行列乗算（GMM）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: これは、混合エキスパート（MoE）モデルでよく見られる「不規則な」なテンソルを管理します。GMM を利用すると、システムは非効率的なパディングを回避し、MXU の使用率を高められます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;カーネル チューニング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Tokamax ライブラリには、ハイパーパラメータを最適化するための&lt;/span&gt;&lt;a href="https://github.com/openxla/tokamax/blob/main/tokamax/experimental/utils/tuning/tpu/README.md" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ユーティリティ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;が含まれています。これらのツールを使用すると、Ironwood TPU の特定のメモリ階層に合わせて、タイルサイズやその他の構成を調整できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;3. SparseCore への集団のオフロード&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood の第 4 世代 SparseCore は、不規則なメモリアクセス パターンを管理するために特別に設計されたプロセッサです。ユーザーは、特定の &lt;/span&gt;&lt;a href="https://github.com/AI-Hypercomputer/maxtext/blob/c0abc4c0c0a98e02413d7b6c669927d013467045/benchmarks/xla_flags_library.py#L70-L116" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;XLA フラグ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用して、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;All-Gather&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Reduce-Scatter&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; などの集団通信演算を SparseCore に直接オフロードできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このオフロード メカニズムにより、TensorCore を主要なモデル計算に専念させながら、通信タスクを並行して実行できます。このような機能の重複は、通信のレイテンシを隠し、MXU へのデータ スループットを一定に保つための重要な戦略です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;4. VMEM 上でのメモリ パイプラインのファインチューニング&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU メモリ アーキテクチャの重要な部分である VMEM は、カーネルのパフォーマンスを最適化するように設計された高速なオンチップ SRAM です。現在の演算と将来の重みのプリフェッチの間で VMEM の割り当てを調整することで、実行速度を全体的に向上させることができます。たとえば、現在のスコープ用に予約されている VMEM を増やすと、カーネルで使用されるタイルサイズを大きくすることができます。これにより、潜在的なメモリストールが解消され、カーネルのパフォーマンスが向上します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU メモリ アーキテクチャの詳細については、&lt;/span&gt;&lt;a href="https://docs.jax.dev/en/latest/pallas/tpu/pipelining.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;TPU パイプライン&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;5. 最適なシャーディング戦略の選択&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最後に、MaxText は、すべての TPU で利用できるさまざまな並列処理手法をサポートしています。最適な選択は、モデルサイズ、アーキテクチャ（Dense や MoE）、シーケンス長によって異なります。適切なシャーディング戦略を選択すると、モデルのパフォーマンスを高められます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;完全にシャーディングされたデータ並列処理（FSDP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: これは、単一チップのメモリ容量を超える大規模モデルをトレーニングする場合に推奨される戦略です。FSDP は、モデルの重み、勾配、オプティマイザの状態を複数のチップにシャーディングします。デバイスごとのバッチサイズを増やし、より多くの演算を導入することで、All-Gather 演算のレイテンシを隠し、効率を向上させることができます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;テンソル並列処理（TP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 個々のテンソルをシャーディングします。Ironwood は演算密度が高いため、モデルの次元が極めて大きい場合に TP が最大の効果を発揮します。TP を 2 分割して活用すると、Ironwood のデュアル チップレット設計における高速なダイ間相互接続を利用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;エキスパート並列処理（EP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: MoE モデルでエキスパートをデバイス間で分散するのに役立ちます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;コンテキスト並列処理（CP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 非常に長いシーケンスに必要で、シーケンスの次元に沿ってアクティベーションをシャーディングします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ハイブリッド アプローチ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 大規模な実行で演算、メモリ、通信のバランスを取るには、戦略の組み合わせが必要になる場合が多いです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;上述の 2～5 の手法について詳しくは、デベロッパー フォーラムの投稿 &lt;/span&gt;&lt;a href="https://discuss.google.dev/t/optimizing-frontier-model-training-on-tpu-v7x-ironwood/336983/2" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Optimizing Frontier Model Training on TPU v7x Ironwood（TPU v7x Ironwood でのフロンティア モデル トレーニングの最適化）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Ironwood のメリット: システムレベルのパフォーマンス&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの最適化手法と、高速の 3D トーラス チップ間相互接続（ICI）や大容量 HBM などの Ironwood のアーキテクチャ上の強みを組み合わせることで、フロンティア モデルのトレーニング向け高性能プラットフォームが実現します。ハードウェア、コンパイラ（XLA）、フレームワーク（JAX、MaxText）間の緊密な共同設計により、AI インフラストラクチャから最大限のパフォーマンスを引き出すことができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI の取り組みを加速させる準備は整いましたか？以下のリソースで、各最適化手法について詳しく確認できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;関連情報&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://discuss.google.dev/t/inside-the-optimization-of-fp8-training-on-ironwood/336681" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ironwood での FP8 トレーニングの最適化について&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://discuss.google.dev/t/optimizing-frontier-model-training-on-tpu-v7x-ironwood/336983/2" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;TPU v7x Ironwood でのフロンティア モデル トレーニングの最適化&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;このブログ投稿に協力してくれた Hina Jajoo と Amanda Liang に感謝します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;プロダクト戦略およびオペレーション担当、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Lillian Yu&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google TPU 担当プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Liat Berry&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 30 Mar 2026 02:10:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/training-large-models-on-ironwood-tpus/</guid><category>AI &amp; Machine Learning</category><category>TPUs</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Ironwood TPU を使用したトレーニングに関するデベロッパー ガイド</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/training-large-models-on-ironwood-tpus/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Lillian Yu</name><title>Product Strategy &amp; Operations</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Liat Berry</name><title>Product Manager, Google TPUs</title><department></department><company></company></author></item><item><title>Google Cloud と NVIDIA が GTC 2026 で業界全体に AI イノベーションを拡大</title><link>https://cloud.google.com/blog/ja/products/compute/google-cloud-ai-infrastructure-at-nvidia-gtc-2026/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 17 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/google-cloud-ai-infrastructure-at-nvidia-gtc-2026?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント型 AI の時代により、企業インフラストラクチャのニーズは根本的に変化しています。組織が動的な推論と自律的な実行が可能なシステムを構築するにつれて、基盤となるインフラストラクチャも進化する必要があります。これらのエージェント ワークロードを大規模な混合エキスパート（MoE）アーキテクチャとともにスケールするには、細部まで最適化された共同設計のスタックが必要です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;こうした需要に応えるため、Google は AI に最適化された Infrastructure as a Service である Google Cloud AI Hypercomputer を構築しました。これは、パフォーマンスが最適化されたハードウェア、最先端のソフトウェア、オープン フレームワーク、柔軟な使用量モデルを包括的な単一システムに統合したものであり、超低レイテンシ、高スループット、費用対効果の高い推論を実現します。この統合アーキテクチャ内でお客様にさらに多くのオプションを提供するために、Google は NVIDIA とのパートナーシップを拡大しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今週開催される NVIDIA GTC 2026 で、Google Cloud と NVIDIA はパートナーシップを拡大し、共同設計した AI インフラストラクチャ基盤を紹介する一連の新しい発表を行います。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャとハードウェア&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA RTX Pro&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;™&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; 6000 Blackwell Server Edition を搭載した Google Cloud G4 VM の勢い&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA vGPU テクノロジーを使用した、柔軟な分割式 G4 VM のプレビュー版 - NVIDIA RTX Pro&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;™&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; 6000 Blackwell Server Edition では業界初&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA Vera Rubin NVL72 プラットフォームのサポート予定&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ソフトウェアとプラットフォーム&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA Dynamo と GKE Inference Gateway のインテグレーション&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Vertex AI Training と Model Garden 全体で NVIDIA のサポートを強化&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;エコシステム&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;公共部門向け AI スタートアップ アクセラレータ プログラムの開始&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;発表内容を詳しく見ていきましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;G4 VM で AI ワークロードを高速化&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA RTX Pro 6000 Blackwell Server エディション GPU を搭載した G4 VM は、高度な空間コンピューティングから完全な AI 開発ライフサイクルまで、さまざまな高パフォーマンス ワークロードを強化するために構築されています。たとえば、Otto Group One.O や WPP などの企業は、G4 を使用して物理的に正確なシミュレーションやリアルタイムの 3D レンダリングを大規模に実行しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;シミュレーション以外にも、G4 はモデルのファインチューニングと推論で優れた性能を発揮し、特に 300 億から 1,000 億以上のパラメータを持つモデルに適しています。4 ビット浮動小数点（FP4）精度と Google のピアツーピア（P2P）通信を活用することで、お客様は&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/g4-vms-p2p-fabric-boosts-multi-gpu-workloads?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;モデル提供のスループットの向上とレイテンシの大幅な削減&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を実現し、リアルタイムのマルチモーダル AI エージェントや応答性の高い生成 AI アプリケーションという新しいクラスを可能にしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;お客様がすでに G4 VM のパフォーマンスと効率性を活用して、最も要求の厳しいワークロードを高速化させている例をいくつかご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Google Cloud の G4 VM は、膨大な量のフォトリアルなシミュレーションをパイプラインで処理するために必要とされる、スケーラブルな GPU バックボーンを提供してくれます。スループットが 4 倍に向上したことで、ML チームはより迅速にイテレーションを行い、より豊富なデータでトレーニングし、モデルが実環境に導入されるよりかなり前にエッジケースを検証できるようになりました。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;– General Motors、AI / ML エンジニアリング担当ディレクター、Sony Mohapatra 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;「&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;NVIDIA Blackwell を搭載した G4 VM を使用することで、マルチモーダル モデルをさらに進化させられるようになりました。推論の高速化、信頼性の向上、言語を問わない即時応答などです。目標は変わりません。企業規模で機能する音声エージェントを、妥協せずに作成することです。今後も共同で開発を続け、お客様がこのツールをどのように活用されるかを楽しみにしています。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;– ElevenLabs、共同創業者、Mati Staniszewski 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Google Cloud G4 VM は、当社のロボット連携レイヤの計算バックボーンを提供し、物流センター全体で自律型フリートをミリ秒単位の精度で同期できるようにします。忠実度の高いデジタルツインで複雑な倉庫環境をシミュレートすることで、サプライ チェーン全体を仮想的に最適化してから、ロボットに床を移動させることができます。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; - Otto Group One.O、CEO、Stefan Borsutzky 博士&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「G4 VM に移行したところ、Terraform スクリプトを更新するだけで、処理レイテンシが 50% 削減され、スループットが 6 倍に向上しました。運用オーバーヘッドを追加することなく、コア ワークロードのパフォーマンスをこれほど向上させることはめったにありません。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;– Imgix、エンジニアリング責任者、Alfonso Acosta 氏&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;分割式 G4 VM の導入&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、AI およびグラフィック ワークロード向けの非常に効率的で費用対効果の高いエントリー ポイントとなる、分割式 G4 VM のプレビュー版がリリースされました。NVIDIA 仮想 GPU（vGPU）テクノロジーを使用したこれらの新しい構成により、NVIDIA RTX PRO 6000 Blackwell Server エディション GPU のパワーを柔軟かつ小規模な単位で活用できるため、アプリケーションの特定の需要に合わせてインフラストラクチャを適切なサイズに調整できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「企業は、複雑なエージェント型 AI ワークロードをスケールするために、前例のないほどの柔軟性を必要としています。NVIDIA は Google Cloud とともに、NVIDIA RTX PRO 6000 を搭載した分割式 G4 VM を導入し、お客様が GPU 容量のサイズを適正化して ROI を最大化できるようにしました。Vertex AI 上の NVIDIA NeMo から GKE の NVIDIA Dynamo まで、共同設計されたスタックにより、次世代の推論モデルと MoE モデル向けのオープンで高性能なプラットフォームを提供します。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;- NVIDIA、ハイパースケール / HPC 担当バイス プレジデント兼ゼネラル マネージャー、Ian Buck 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;高度なハードウェアへのアクセスをより細かく制御できるため、分割式 G4 VM はパフォーマンスを犠牲にすることなく、リソース割り当てを最適化してオーバーヘッドを削減できます。特定のニーズに合わせて、追加の GPU スライスサイズから選択できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;1/2 GPU:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; LLM 推論、ロボット センサー シミュレーション、高忠実度 3D レンダリングなど、より負荷の高いタスクに最適です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;1/4 GPU:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 中程度のクリエイティブ デザイン、動画のコード変換、リアルタイムのデータ可視化など、主流のワークロード向けに最適化されています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;1/8 GPU:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; リモート デスクトップ、生産性向上ツール、エントリーレベルのストリーミング サービスなどの軽量アプリケーションに最適です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの柔軟な G4 サイズ ポートフォリオにより、次のことが可能です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャの適切なサイジング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 軽量なリモート デスクトップから集中的なデータ処理まで、GPU 容量をアプリケーションの需要に正確に一致させます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;費用効率を最大化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 特定のタスクに必要な分割 GPU リソースのみを利用して料金を支払うことで、運用オーバーヘッドを削減します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;多様なワークロードをスケール:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 高忠実度のクリエイティブ デザインやストリーミングから、複雑なロボット シミュレーションやリアルタイム推論まで、幅広いイノベーションを推進します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの部分的な G4 VM は Google Kubernetes Engine（GKE）で管理できるため、開発者は高度なコンテナ ビンパッキングを使用して、さらに高い費用対効果とリソース使用率を実現できます。Dynamic Workload Scheduler を使用して管理する場合、分割スライスにフォールバックの優先順位を設定できます。これにより、スケジューラが各ワークロードで利用可能な GPU 構成を自動的に検出できるようになるため、取得可能性が大幅に向上します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「G4 vGPU の柔軟なサイズ設定により、各分子シミュレーションの規模に合わせてコンピューティング リソースを正確に調整できるため、創薬パイプライン全体で最大限の効率を確保できます。このきめ細かい制御により、研究者は固定されたハードウェア構成に制約されることなく、小規模なワークフローと大規模な並列処理の間をシームレスに切り替えられます。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;– Schrödinger、EVP、CIO、Shane Brauner 氏&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA Vera Rubin NVL72 で AI Hypercomputer をスケーリング&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA との緊密なエンジニアリング パートナーシップを基盤として、Google は NVIDIA Blackwell アーキテクチャの後継である、先日発表された NVIDIA Vera Rubin プラットフォームをサポートできることを誇りに思います。Google は 2026 年下半期に NVIDIA Vera Rubin NVL72 ラック規模システムをいち早く提供するクラウド プロバイダとなる予定です。このシステムを Google の AI Hypercomputer アーキテクチャに統合し、次世代の推論 AI とエージェント型 AI を強化します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;AI インフラストラクチャ スタック全体で効率性を実現&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、完全にオープンなエコシステムへの取り組みの一環として、Dynamo と GKE &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Inference Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; のインテグレーションを発表いたしました。これにより、アプリケーション レイヤとハードウェア全体にわたってモジュール式のオープンソース コントロール プレーンが提供されます。Dynamo と GKE の Inference Gateway を組み合わせることで、チームはインフラストラクチャを正確なニーズに合わせて調整し、アクセラレータから最大限の費用対効果を引き出し、新しい AI モデルの市場投入までの時間を短縮し、デプロイを将来にわたって保証できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X VM（NVIDIA GB200 NVL72 と Dynamo を搭載）向けの新しい&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;高度なスケーリング レシピ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を通じて、大規模な MoE アーキテクチャのパフォーマンスを最大化する方法を学ぶことができます。これらの構成は、AI Hypercomputer で AI 推論ワークロードを実行する際に、メモリとインターコネクトのボトルネックを克服する方法を示しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;また、Dynamic Workload Scheduler を通じてリソースの取得可能性を高めています。A4X および A4X Max（NVIDIA GB300 NVL72 搭載）の Calendar モードと Flex Start、および G4 VM の新しい Flex Start サポートが提供されます。Dynamic Workload Scheduler を使用すると、必要な容量を正確に予約したり、柔軟な開始ウィンドウを使用したりできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud の長年の顧客である Snap は、主要なデータ処理パイプライン 2 つを NVIDIA L4 Tensor コア GPU を搭載した Google Cloud G2 VM に移行することで、大幅な費用削減を実現しました。これは、GKE 上の Spark と NVIDIA の新しい cuDF ライブラリを活用することで実現しました。cuDF ライブラリは、シャッフルを多用するワークロードの最適化を自動化し、GPU の効率を最大限に高めます。&lt;/span&gt;&lt;a href="https://www.nvidia.com/gtc/session-catalog/sessions/gtc26-s81678/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;詳しくは、GTC セッション S81678 をご覧ください。&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Vertex AI のトレーニングと Model Garden の進化&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/vertex-ai/docs/training/training-clusters/overview"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Vertex AI トレーニング クラスタ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;の 2 つの主要なインフラストラクチャの進歩により、次世代 AI の需要に対応しています。まず、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;A4X VM ドメイン&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;のサポートにより、Vertex AI のマネージド インフラストラクチャとフレームワーク機能を活用して、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA GB200 NVL72&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ラック スケール システムで大規模なトレーニングを行うことができます。これらの集中的なワークロードが中断されないようにするため、新しいハードウェアの復元機能により、構成可能な事前対応型の障害検出スキャンを適用できます。これにより、潜在的なハードウェアの問題を特定して軽減し、重要な「ヒーロー」トレーニングの実行が中断されるのを防ぎます。これらの機能により、グッドプットが向上し、数週間にわたるトレーニング ジョブが費用のかかる再起動なしで順調に進むようになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「私たちは Google および NVIDIA とともに、高性能で一貫性があり、正確で応答性の高い AI エージェントを提供するという、エージェント型エンタープライズの新たな基準を打ち立てています。NVIDIA GB200 NVL72 上の Vertex AI トレーニング クラスタを活用して Agentforce 360 プラットフォームを強化することで、インフラストラクチャのボトルネックを解消し、GPU を完全に飽和状態に保つことができました。この高パフォーマンスで復元力のあるアーキテクチャにより、研究者は大規模なイノベーションに集中でき、最も複雑な推論ワークロードで大きな成果を上げています。」- &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;Salesforce、最高科学責任者、Silvio Savarese 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;同時に、&lt;/span&gt;&lt;a href="https://console.cloud.google.com/vertex-ai/publishers/nvidia/model-garden/nemotron-3-super"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA の Nemotron 3&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; ファミリーのオープンモデルのサポートにより、Vertex AI Model Garden の範囲を拡大し続けています。たとえば、Nemotron 3 Nano はワンクリックでデプロイできるため、プライベート VPC への統合が簡単です。また、カタログを拡大し、NVIDIA Nemotron 3 Super 120B モデルを追加しました。これにより、高性能な大規模推論にすぐにアクセスできます。これらのモデルの価値を最大限に高めるため、Google は NVIDIA の最新のパフォーマンス ライブラリを Vertex AI に直接統合し、NVIDIA TensorRT-LLM で一般的なオープンソース モデルを最適化しました。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;公共部門向けの AI スタートアップを支援&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エコシステム内の継続的なイノベーションを促進するため、Google Public Sector と NVIDIA は AI スタートアップ アクセラレータ プログラムを開始します。この 1 年間のイニシアチブでは、公共部門向けのソリューションを構築する、AI に重点を置いた独立系ソフトウェア ベンダー（ISV）の選抜されたコホートをサポートします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;参加者は、NVIDIA Inception と Google Cloud の ISV アクセラレータ リソースの両方にアクセスできます。GTC で開始され、Google Cloud Next まで続くこの共同プログラムでは、ミッション クリティカルな公共部門アプリケーションをスケールするために必要な、共同設計されたインフラストラクチャ、技術ガイダンス、市場開拓サポートを、新興テクノロジーのリーダーに提供します。プログラムについて詳しくは、&lt;/span&gt;&lt;a href="https://docs.google.com/forms/d/e/1FAIpQLSci71lEfkHJKb9wVN2UmXVGaOk3DeB84mW5dve8ulo9kl60pg/viewform" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;お問い合わせフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;にご記入ください。今後、他のコホートも選出され、発表される予定です。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;共同エンジニアリングのコラボレーションが AI スタックのあらゆるレイヤを強化&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;複雑なエージェント型 AI への移行には、単なるコンピューティング能力以上のものが求められます。完全に最適化された共同設計のスタックが必要です。Google は、分割式 G4 インスタンスや今後リリースされる Vera Rubin プラットフォームなどの柔軟なハードウェアを AI Hypercomputer アーキテクチャに統合し、ソフトウェアの緊密な共同エンジニアリングと組み合わせることで、最も野心的な AI ビジョンを現実に変えるために必要なスケール、レジリエンス、効率性を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GTC に参加されますか？ブース番号 513 にぜひお立ち寄りください。詳細をご覧いただき、Google のチームと直接お話いただけます。Google と NVIDIA のコラボレーションの詳細については、&lt;/span&gt;&lt;a href="http://cloud.google.com/NVIDIA"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;cloud.google.com/NVIDIA&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt; &lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-AI およびコンピューティング インフラストラクチャ担当バイス プレジデント兼ゼネラル マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mark Lohmeyer&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 24 Mar 2026 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/google-cloud-ai-infrastructure-at-nvidia-gtc-2026/</guid><category>AI &amp; Machine Learning</category><category>Partners</category><category>Compute</category><media:content height="540" url="https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_Cloud_NVIDIA_Hero_Image_for_GTC26_Blo.max-600x600.jpg" width="540"></media:content><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Google Cloud と NVIDIA が GTC 2026 で業界全体に AI イノベーションを拡大</title><description></description><image>https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_Cloud_NVIDIA_Hero_Image_for_GTC26_Blo.max-600x600.jpg</image><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/google-cloud-ai-infrastructure-at-nvidia-gtc-2026/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mark Lohmeyer</name><title>VP and GM, AI and Computing Infrastructure</title><department></department><company></company></author></item><item><title>H4D VM の一般提供開始: HPC ワークロード向けに卓越したパフォーマンスとスケーリングを実現</title><link>https://cloud.google.com/blog/ja/products/compute/h4d-vms-now-ga/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 5 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/h4d-vms-now-ga?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、第 5 世代 AMD EPYC™ プロセッサを搭載した、最新のハイ パフォーマンス コンピューティング（HPC）向け最適化 VM である &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;H4D VM の一般提供&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を開始しました。H4D VM は、製造、ヘルスケアとライフ サイエンス、天気予報、電子設計自動化（EDA）などの業界に、優れたパフォーマンス、スケーラビリティ、価値を提供します。H4D は、Slurm を使用した Cluster Toolkit によるオーケストレーションと、Google Kubernetes Engine（GKE）によるオーケストレーションをサポートしています。どちらのアプローチでも、要求の厳しいワークロードをほぼ瞬時にデプロイしてスケールできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud の CPU ポートフォリオで、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Cloud Remote Direct Memory Access（RDMA）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を備えた VM ファミリーが登場するのは今回が初めてです。H4D の RDMA は &lt;/span&gt;&lt;a href="https://cloud.google.com/titanium"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Titanium ネットワーク アダプタ&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;上にあり、シングルノードの H4D パフォーマンスを複数のノードにスケールして、大規模な本番環境ワークロードを高速化できます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ドメインや規模を問わず、解決までの時間を短縮&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;第 5 世代 AMD EPYC CPU の高コア密度と、Google の革新的な低レイテンシ &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/topics/systems/introducing-falcon-a-reliable-low-latency-hardware-transport?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Falcon ハードウェア トランスポート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を搭載した H4D VM により、これまで以上に迅速なイテレーションと検出が可能になります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;業界標準のベンチマークを複数使用して H4D のパフォーマンスを実証し、さまざまなドメインと問題サイズにおける H4D の能力を示しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;医療とライフ サイエンス&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;医療とライフ サイエンス（HCLS）の研究者にとって、H4D VM は科学的発見に不可欠な複雑な分子シミュレーションを加速します。以前の C2D VM と比較して、H4D VM は 96 VM で LAMMPS（LJ ベンチマーク）を実行する際の速度が最大 4.3 倍向上し、18,000 コアで 95% の並列効率を実現します。創薬では、32 台の VM で GROMACS（water_33m）を使用し、6,000 個のコアで 72% の並列効率を実現して、5.8 倍の高速化を実証しました。H4D はスケーラビリティも向上しており、192 台の VM（約 37,000 コア）で LAMMPS LJ ベンチマークを実行し、92% の並列効率を維持することが実証されました（図 3 を参照）。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_JTLuwUW.max-1000x1000.jpg"
        
          alt="1-Figuer1&amp;amp;2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--medium
      
      
        h-c-grid__col
        
        h-c-grid__col--4 h-c-grid__col--offset-4
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2_RA1vjLg.jpg"
        
          alt="2-Figuer3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;製造&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;製造業では、H4D VM はミッション クリティカルなコンピュータ支援エンジニアリング（CAE）ワークフローのパフォーマンスを大幅に向上させることで、エンジニアが設計サイクルを短縮し、より大規模なシミュレーションを実行して、より迅速にイテレーションできるようにします。複雑な数値流体力学（CFD）シミュレーションを実行した際、以前の C2D VM と比較して、H4D VM は 32 個の VM で Ansys Fluent（F1_RaceCar_140m ベンチマーク）を 85% の並列効率で実行し、4.1 倍の高速化を実現しました。オープンソースの OpenFOAM（Motorbike_100m）を実行した際、C2D と比較して、16 個の VM を使用して 5.2 倍の高速化を実現し、122% の超線形並列効率を達成しました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3_9YSJuty.jpg"
        
          alt="3-Figuer4&amp;amp;5"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;HPC のコスト パフォーマンスの新たな基準&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;H4D VM は、優れたパフォーマンスと柔軟な使用量モデルを組み合わせることで、Google Cloud 上の HPC ワークロードに最適なコスト パフォーマンスを提供するように設計されています。H4D は Dynamic Workload Scheduler（DWS）をサポートしており、DWS は、ジャストインタイムの容量に対応する Flex Start モードと、予約を保証する Calendar モードでワークフローに適応します。これにより、長期契約なしで、コア時間あたり 3 セントという低料金でコンピューティングを利用できます。前世代の VM と比較したパフォーマンスと費用効率の結果は、図 6 と図 7 に詳しく示されています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/4_VFxG3YM.jpg"
        
          alt="4-Figuer6"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/5_FKrLh4Z.jpg"
        
          alt="5-Figuer7"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;包括的な HPC 管理&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;H4D VM の大規模で高密度のクラスタを管理、デプロイするには、Google Cloud の &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/ai-hypercomputer/docs/cluster-capabilities"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Cluster Director&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を活用できます。Cluster Director は、高度なメンテナンス機能（プレビュー版に&lt;/span&gt;&lt;a href="https://forms.gle/dppWNms5DF44gCwV9" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;から登録できます）と、ターンキー システム ブループリントによる迅速なクラスタ デプロイのための &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/cluster-toolkit/docs/overview"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Cluster Toolkit&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を提供します。ジョブとワークロードの管理については、H4D VM は Google Cloud のフルマネージド クラウドネイティブ サービスである &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/batch/docs/get-started"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Batch&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と統合されており、Batch によってキューイング、スケジューリング、リソース プロビジョニングが処理されます。さらに、&lt;/span&gt;&lt;a href="https://cloud.google.com/products/dws/pricing?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;DWS&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; もサポートされています。これは、将来の予約のための Calendar モードと、時間制限付きのオンデマンド使用のための Flex Start モードの両方で使用できます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;お客様とパートナー様の声&lt;/strong&gt;&lt;/h4&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/jump.max-1000x1000.jpg"
        
          alt="jump"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="ciutv"&gt;&lt;i&gt;「&lt;/i&gt;&lt;a href="https://www.jumptrading.com/"&gt;&lt;i&gt;Jump Trading&lt;/i&gt;&lt;/a&gt;&lt;i&gt;は早期アクセスで H4D プラットフォームをテストしましたが、その結果に非常に感銘を受けました。テストプロセスが成功したことで、H4D が要求の厳しい大量のオペレーションに必要なパフォーマンス、安定性、効率性を備えていることが実証されました。前世代のマシンと比較してコスト パフォーマンスが最大 50% 向上しており、現在、Google Cloud 上の重要なグリッド ワークロードとの統合を加速させています。」&lt;/i&gt;&lt;b&gt;- Jump Trading、最高技術責任者 Alex Davies 氏、HPC Linux エンジニアリング部門、Benjamin Stromski 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/hmx_labs.max-1000x1000.jpg"
        
          alt="hmx labs"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="ciutv"&gt;&lt;i&gt;「特に大規模でコンピューティング負荷の高い分野では、最速のシステムはオンプレミスで構築し、ベアメタル ハードウェアで実行するしかないという考え方が根強く残っています。ベアメタルで運用する正当な理由として、「ハイパーバイザ税」といった用語がよく使われます。しかし、私たちが行ったテストでは異なる結果が出ています。Google H4D VM は、当社の財務リスク ベンチマークにおいて、同世代の最上位 AMD CPU のベアメタルよりも優れたパフォーマンスを発揮します。」&lt;/i&gt;&lt;b&gt;- HMxLabs、CEO、Hamza Mian 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/totalcare.max-1000x1000.jpg"
        
          alt="totalcare"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="ciutv"&gt;&lt;i&gt;「要求の厳しい CAE および製造分野向けにマネージド HPC ソリューションを提供する大手プロバイダとして、H4D プラットフォームに対する当社の評価は、お客様の最大規模で最も密結合なシミュレーション ワークロードを処理できる能力に重点を置きました。その結果には非常に感銘を受けました。テストでは、基盤となる RDMA ファブリックが、大規模な並列処理に必要な優れた低レイテンシと高帯域幅のパフォーマンスを発揮することが確認されました。このレベルの相互接続効率は、衝突試験や CFD などの重要な製造シミュレーションを高速化するために不可欠です。H4D は、高スループットのエンジニアリング ワークロードの真のアクセラレータであることを自ら証明しました。当社は、エンジニアリング業界における HPC のパフォーマンス上限を再定義する可能性に期待しています。」&lt;/i&gt;&lt;b&gt;- TotalCAE、社長、Rodney Mach 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Google.max-1000x1000.jpg"
        
          alt="Google"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="ciutv"&gt;&lt;b&gt;&lt;i&gt;「&lt;/i&gt;&lt;/b&gt;&lt;i&gt;新しい H4D インスタンスは、当社の要求の厳しい次世代の TPU シミュレーション ワークロードにとって大きな前進です。C2D と比較して、さまざまな EDA ベンチマークにわたって 30% のパフォーマンス向上を確認しており、H4D の強力なシングルコア パフォーマンスが証明されました。これは、開発サイクルの高速化に直接つながり、エンジニアリング チームがより迅速にイテレーションできるようになります。」&lt;/i&gt;&lt;b&gt;- Google Cloud、チップ設計手法テクニカル リード、Trevor Switkowski&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;今すぐ H4D を体験&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;H4D は現在、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;us-central1-a（アイオワ）、europe-west4-b（オランダ）、asia-southeast1-a（シンガポール）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;でご利用可能で、追加のリージョンも近日中に提供予定です。&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/regions-zones#available"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;リージョンとゾーンのページ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;でリージョン別の提供状況をご確認のうえ、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/create-vm-with-rdma"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud RDMA&lt;/span&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;を活用して、特に要件の厳しい HPC ワークロードをデプロイしてください。&lt;/strong&gt;&lt;/p&gt;
&lt;hr/&gt;
&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;上述のベンチマークでは、次の構成が実行されました。LAMMPS バージョン 20250722、GROMACS バージョン 2023.1、OpenFOAM バージョン 2312、Ansys Fluent バージョン 2024R1。すべての実行で IntelMPI 2021.17.2 が使用されました。C2D / C3D / C4D は TCP を使用し、H4D は RXM と SAR_LIMIT=2G で RDMA を使用しました。すべての実行で、各プラットフォームで利用可能な最大 ppn（ノードあたりのプロセス数）を使用しました（C2D、C3D、C4D / H4D でそれぞれ 56、180、192）。Ansys Fluent の実行では、H4D で 168 ppn、C4D で可変 ppn が使用されました。SMT はすべてオフ。コスト比較は、DWS Flex Start 料金の H4D-highmem-192 と、オンデマンド料金の c3d-standard-360 および c2d-standard-112 のシングルノード間で行われました。&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;並列効率と最適なノード数は、入力サイズと通信パターンに依存するため、ワークロードによって異なります。&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt; Aysha Keen&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニア HPC テクノロジスト、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt; Felix Schürmann&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Thu, 12 Mar 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/h4d-vms-now-ga/</guid><category>HPC</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>H4D VM の一般提供開始: HPC ワークロード向けに卓越したパフォーマンスとスケーリングを実現</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/h4d-vms-now-ga/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Aysha Keen</name><title>Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Felix Schürmann</name><title>Senior HPC Technologist</title><department></department><company></company></author></item><item><title>課金の簡素化と費用削減: 新しい費用ベースの CUD に関する FinOps ガイド</title><link>https://cloud.google.com/blog/ja/topics/cost-management/a-finops-professionals-guide-to-updated-spend-based-cuds/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 2 月 13 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/topics/cost-management/a-finops-professionals-guide-to-updated-spend-based-cuds?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;クラウド費用の最適化は FinOps における効果的な取り組みの一つであり、確約利用割引（CUD）は依然として極めて有効な手段です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、2025 年 7 月より&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-multiprice?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;新しい費用ベースの CUD モデル&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;のロールアウトを開始し、これにより、費用と節約額が把握しやすくなりました。また、カバレッジが新しい SKU（Cloud Run や H3/M シリーズ VM など）にも拡大され、柔軟性が向上しました。このアップデートは、現在すべてのお客様にご利用いただけます。この新しいモデルが FinOps の実践をどのように簡素化するのか、詳しく見ていきましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;1. 費用ベースの CUD データモデルの変更内容&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最も重要な変更は、クレジットベースのシステムから、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-multiprice#consumption-model-intro"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;使用量モデル&lt;/span&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;を使用した直接的な割引価格モデル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;に移行することです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;従来の&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;クレジット モデル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;では、1 時間あたりのオンデマンド料金に対してコミットしていました。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;節約額&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;（実際に実現した費用削減額）を把握するには、オンデマンド料金の全額、コミットメント料金、相殺されるクレジットという 3 つの異なる数値を使用する必要がありました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;1. &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;従来の計算方法:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;$10.00（オンデマンド）+ $5.50（コミットメント料金）- $10.00（クレジット）= $5.50（純費用）&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;節約額 = $10.00（オンデマンド）- $5.50（純費用）= $4.50&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-multiprice#consumption-model-intro"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;直接的な割引モデル&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;では、純費用を計算するためにこのような計算を行う必要はありません。割引後の純支出額に直接コミットします。使用量はシンプルに割引された料金で請求されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;2. &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;新しい計算方法:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;$5.50（割引後の費用）&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;節約額 = $10.00（オンデマンド）- $5.50（割引後の費用）= $4.50&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;  &lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これにより、純費用を一目で確認できるようになります。節約額の計算も、オンデマンド料金（$10.00）と新しい割引料金（$5.50）を比較するだけで済み、その差が &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;$4.50/時間&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;であることがわかります。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;2. 変更前後の節約額を検証する方法&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;統合された &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/billing/docs/how-to/analyze-cuds"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;CUD 分析ツール&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、移行を監査したり、費用を詳しく分析したりするのに最適なリソースです。新しい費用ベースの CUD モデル用の CUD 分析では、新しいモデルで得られる節約額をすぐに確認できます。また、このツールを使用して、古いモデルと新しいモデルで節約額に違いがあるかどうかを比較検証できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;節約額の検証手順は以下のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;1. 移行を実施した日付を特定します。移行日は、請求の概要ページで確認できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_jzjRx1j.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;2. CUD 分析に移動して、移行前後の節約額を検証します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;3. 移行前の費用を定量化する場合:&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;移行の 1 日前のビューをフィルタします。この例では、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;2025 年 10 月 26 日&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;CUD プロダクトを選択します（&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Cloud SQL CUD など&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;この例では、 &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; $69.12 のクレジットを得るために $50.35 の CUD 料金を支払っています。この料金をクレジットから差し引くと、実際に&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;節約できた金額は $18.77&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; になります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_2jbhCzc.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;4. 移行後の費用を検証する場合:&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;日付を &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;2025 年 10 月 28 日&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;に変更します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;新しいモデルでは、割引料金を前払いします。ダッシュボードには純費用 $50.35 が反映され、オンデマンド費用 $69.12 と比較した場合の&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;節約額が $18.77&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; であることが明確にわかります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_nQjMUwd.max-1000x1000.png"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さらに、このリリースでは&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-verify-discounts#example_cost_reports"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;費用レポート&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;の&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-verify-discounts#example_cost_reports"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;アップデート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;も行われており、「コスト削減プログラム」が追加されました。これにより、総クレジットではなく、実際の純節約額（上記の例では $18.77）が正確に反映されます。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;費用レポートで移行前後のデータを比較する際は、コミットメントの全範囲を把握するために、使用量の SKU とコミットメント料金の SKU の両方を必ず含めてください。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;3. 新しい CUD 分析の他の機能&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しいモデルのサポートに加えて、新しい &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/billing/docs/how-to/analyze-cuds"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;CUD 分析ツール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;では、CUD のカバレッジと使用状況の可視性が高められています。これにより、最大 30 日間の&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;時間単位のデータ粒度&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;で CUD を分析できるようになりました。1 日の平均値では特定の時間帯に発生する使用率の急上昇が見逃されることが多いため、これは FinOps チームに大きなメリットをもたらします。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_HLosdOT.max-1000x1000.png"
        
          alt="4"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="rirdr"&gt;CUD 分析: コンピューティング フレキシブル CUD のカバレッジの分析&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5_9A7ZjUx.max-1000x1000.png"
        
          alt="5"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="rirdr"&gt;CUD 分析: CUD 購入ごとに使用状況を可視化&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;独自のデータ分析ツールを使用する場合は、新しい&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/billing/docs/how-to/export-data-bigquery-tables/cud-export"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;費用ベースの CUD メタデータのエクスポート&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を利用することで、費用ベースの CUD をプログラムで管理できます。このエクスポートを使用して、Billing BigQuery Export データセットと結合し、すべてのコミットメント データに対して詳細なプログラム分析を実行できます。また、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/billing/docs/how-to/analyze-cuds#download_your_report"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;CUD 分析ビューから CSV をエクスポート&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;することで、BigQuery の完全なエクスポートを必要とせずに、すべてのリソースとその料金の元データを確認することもできます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;4. どの程度のコミットメントを購入すべきか&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;購入するコミットメントを決定するための主要なツールとして、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-recommender"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;CUD の推奨事項&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を利用できます。先日強化された、コンピューティング フレキシブル CUD のコミットメントに関する推奨事項では、GKE、Cloud Run、Cloud Run functions、Compute Engine のデータを含めることで、精度を向上させました。さらに、CUD シナリオのモデリングにより、これらの提案をリアルタイムで調整できます。また、カバレッジのしきい値の調整、使用量が不規則な特定の日付の除外、最長 180 日間の分析のルックバック ウィンドウの延長などを行うことで、お客様のリスク プロファイルに沿った正確なコミットメント レベルを特定できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/6_MpUcC4f.max-1000x1000.png"
        
          alt="6"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="rirdr"&gt;CUD シナリオのモデリング: 複数のオプションを試して、理想的な CUD 戦略を特定&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;5. フレキシブル CUD についての関連情報&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい費用ベースのモデルのリリースにより、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/committed-use-discounts-overview#spend_based"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;フレキシブル CUD&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と GKE / Cloud Run CUD を組み合わせて使用する場合に影響していた&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;レポートの制限&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を解消しました。これまでは、Google の分析ツールで特定のクレジットのソースを正確に特定できなかったため、節約額、カバレッジ、使用状況などの KPI 指標に不一致が生じていました。新しい費用ベースの CUD モデルでは、この制限が解消されたため、CUD 分析において Google Cloud サービスごとの正確かつ詳細な節約額を確認できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい費用ベースのモデルの利用を開始するには、課金コンソールにアクセスしてください。詳しくは、以下のドキュメントをご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/docs/cuds-multiprice"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;費用ベースの CUD プログラムの改善&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/docs/cuds-multiprice-datamodel"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;複数価格データモデルに関する分析情報&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-verify-discounts"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;移行後の節約額の確認&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Alfonso Hernandez&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Rahul Sharma&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-related_article_tout"&gt;





&lt;div class="uni-related-article-tout h-c-page"&gt;
  &lt;section class="h-c-grid"&gt;
    &lt;a href="https://cloud.google.com/blog/products/compute/expanded-coverage-for-compute-flex-cuds/"
       data-analytics='{
                       "event": "page interaction",
                       "category": "article lead",
                       "action": "related article - inline",
                       "label": "article: {slug}"
                     }'
       class="uni-related-article-tout__wrapper h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
        h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3 uni-click-tracker"&gt;
      &lt;div class="uni-related-article-tout__inner-wrapper"&gt;
        &lt;p class="uni-related-article-tout__eyebrow h-c-eyebrow"&gt;Related Article&lt;/p&gt;

        &lt;div class="uni-related-article-tout__content-wrapper"&gt;
          &lt;div class="uni-related-article-tout__image-wrapper"&gt;
            &lt;div class="uni-related-article-tout__image" style="background-image: url('')"&gt;&lt;/div&gt;
          &lt;/div&gt;
          &lt;div class="uni-related-article-tout__content"&gt;
            &lt;h4 class="uni-related-article-tout__header h-has-bottom-margin"&gt;Save more with expanded coverage for Compute Flex CUDs&lt;/h4&gt;
            &lt;p class="uni-related-article-tout__body"&gt;Compute Flexible Committed Use Discounts (Flex CUDs) now cover memory-optimized and HPC VM families and Cloud Run.&lt;/p&gt;
            &lt;div class="cta module-cta h-c-copy  uni-related-article-tout__cta muted"&gt;
              &lt;span class="nowrap"&gt;Read Article
                &lt;svg class="icon h-c-icon" role="presentation"&gt;
                  &lt;use xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="#mi-arrow-forward"&gt;&lt;/use&gt;
                &lt;/svg&gt;
              &lt;/span&gt;
            &lt;/div&gt;
          &lt;/div&gt;
        &lt;/div&gt;
      &lt;/div&gt;
    &lt;/a&gt;
  &lt;/section&gt;
&lt;/div&gt;

&lt;/div&gt;</description><pubDate>Tue, 24 Feb 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/topics/cost-management/a-finops-professionals-guide-to-updated-spend-based-cuds/</guid><category>Compute</category><category>Cost Management</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>課金の簡素化と費用削減: 新しい費用ベースの CUD に関する FinOps ガイド</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/topics/cost-management/a-finops-professionals-guide-to-updated-spend-based-cuds/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Alfonso Hernandez</name><title>Sr. Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Rahul Sharma</name><title>Sr. Product Manager</title><department></department><company></company></author></item><item><title>NVIDIA RTX PRO 6000 により、Cloud Run 上で高性能推論とサーバーレス コンピューティングが融合</title><link>https://cloud.google.com/blog/ja/products/serverless/cloud-run-supports-nvidia-rtx-6000-pro-gpus-for-ai-workloads/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 2 月 3 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/serverless/cloud-run-supports-nvidia-rtx-6000-pro-gpus-for-ai-workloads?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な推論モデルの実行には、クラスタ管理や VM の手動メンテナンスなど、運用面で大きな負担が伴うことが少なくありません。こうした負担を軽減する方法の一つが、基盤となるインフラストラクチャを意識せずに利用できるサーバーレスのコンピューティング プラットフォームを活用することです。Google はこのたび、Cloud Run で &lt;/span&gt;&lt;a href="https://www.nvidia.com/en-us/data-center/rtx-pro-6000-blackwell-server-edition/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA RTX PRO™ 6000 Blackwell Server Edition GPU&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; に対応するハイエンド推論においてサーバーレスの提供を開始いたしました。現在はプレビュー版が提供されており、Gemma 3 27B や Llama 3.1 70B といった大規模モデルも、Cloud Run でおなじみの「デプロイしたらあとは任せる」感覚でデプロイできます。予約は不要。クラスタ管理も不要。必要なのはコードだけです。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;強力な GPU プラットフォーム&lt;/strong&gt;&lt;/h4&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_qqUpivV.max-1000x1000.jpg"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA RTX PRO 6000 Blackwell GPU は、NVIDIA L4 GPU と比べて大幅な性能向上を実現しており、96 GB の vGPU メモリ、1.6 TB/秒の帯域幅に加え、FP4 および FP6 をサポートしています。これにより、基盤となるインフラストラクチャを自ら管理することなく、70B 超のパラメータを持つ大規模モデルを提供できます。Cloud Run では、NVIDIA RTX PRO 6000 Blackwell GPU を Cloud Run サービス、ジョブ、またはワーカープールに、予約不要でオンデマンドにアタッチできます。以下は、NVIDIA RTX PRO 6000 Blackwell GPU を活用してビジネスを加速できる主な活用例です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;生成 AI と推論:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; FP4 精度をサポートする NVIDIA RTX PRO 6000 Blackwell GPU の高効率な演算性能により、LLM のファインチューニングや推論を高速化できます。これにより、マルチモーダル モデルやテキストから画像を生成するモデルなど、リアルタイム性が求められる生成 AI アプリケーションを構築できます。さらに、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/services/gpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Run サービス上でモデルを実行&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;することで、迅速な起動とスケーリングのメリットも享受できます。インスタンス数が 0 の状態から、GPU ドライバがインストールされた GPU 環境を 5 秒未満で起動可能です。トラフィックが減少してリクエストがなくなると、Cloud Run は GPU インスタンスを自動的に 0 までスケールダウンします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ファインチューニングとオフライン推論&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: NVIDIA RTX PRO 6000 Blackwell GPU は、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/jobs/gpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Run ジョブ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;と組み合わせることで、モデルのファインチューニングに活用できます。第 5 世代 NVIDIA Tensor コアは AI モデルと連携し、レンダリング パイプラインの高速化やコンテンツ制作の効率向上に貢献します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;特定のワークロードに最適化されたスケーリング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/workerpools/gpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GPU 対応のワーカープール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用することで、GPU ワーカーをきめ細かく制御できます。外部のカスタム指標に基づく動的スケーリングや、複雑でステートフルな処理に対応するための「常時稼働」インスタンスの手動プロビジョニングなど、用途に応じた柔軟なスケーリングを実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cloud Run は、プロダクション レディな GPU アクセラレーテッド タスクを、最もシンプルに実行できるよう設計されています。Cloud Run の主な特長は次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟なコンピューティングを備えたマネージド GPU:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cloud Run では、必要な NVIDIA ドライバがあらかじめインストールされているため、インフラストラクチャの準備に煩わされることなく、コードの実装に集中できます。NVIDIA RTX PRO 6000 Blackwell GPU を使用する Cloud Run インスタンスでは、最大 44 vCPU と 176 GB の RAM を構成できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;本番環境レベルの信頼性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cloud Run はデフォルトでゾーン冗長性を提供しており、ゾーン停止に耐えるために十分な容量をサービスに確保できます。これは、Cloud Run で GPU を使用した場合にも適用されます。また、ゾーン冗長性をオフにして、ゾーン停止が発生した場合に GPU ワークロードのベスト エフォート フェイルオーバーを行うことにすれば、料金を低く抑えられるメリットがあります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;緊密な統合&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Cloud Run は、Google Cloud の他のサービスとネイティブに連携します。Cloud Storage バケットをローカル ボリュームとしてマウントすることで大規模なモデルの重みを読み込んだり、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/iap/docs/enabling-cloud-run"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Identity-Aware Proxy（IAP）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用して Cloud Run サービス宛てのトラフィックを安全に保護したりすることができます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;使ってみる&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA RTX PRO 6000 Blackwell GPU は、現在プレビュー版としてオンデマンドで利用可能です。対応リージョンは &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;us-central1&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; および &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;europe-west4&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; で、&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;asia-south2&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;asia-southeast1&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; では限定的に提供されています。オープンモデルを実行する最も簡単な方法の一つである &lt;/span&gt;&lt;a href="https://ollama.com/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ollama&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用すれば、NVIDIA RTX PRO 6000 GPU を有効化した Cloud Run 上に、次のコマンドで最初のサービスをデプロイできます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;gcloud beta run deploy my-service  \\\r\n--image ollama/ollama --port 11434 \\\r\n--cpu 20 --memory 80Gi \\\r\n--gpu-type nvidia-rtx-pro-6000 \\\r\n--no-gpu-zonal-redundancy \\\r\n--region us-central1&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f16d9aa2040&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;詳しくは、最新の &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/services/gpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Run ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;および &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/services/gpu-best-practices"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI 推論のベスト プラクティス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;James Ma&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-シニア エンジニアリング マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Oded Shahar&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 09 Feb 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/serverless/cloud-run-supports-nvidia-rtx-6000-pro-gpus-for-ai-workloads/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><category>Serverless</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>NVIDIA RTX PRO 6000 により、Cloud Run 上で高性能推論とサーバーレス コンピューティングが融合</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/serverless/cloud-run-supports-nvidia-rtx-6000-pro-gpus-for-ai-workloads/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>James Ma</name><title>Sr. Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Oded Shahar</name><title>Sr. Engineering Manager</title><department></department><company></company></author></item><item><title>一般提供が開始された Axion ベースの N4A VM で費用対効果が 2 倍に</title><link>https://cloud.google.com/blog/ja/products/compute/axion-based-n4a-vms-now-in-preview/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 1 月 28 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/axion-based-n4a-vms-now-in-preview?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2026 年 1 月 27 日: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;N4A の一般提供が開始されました。使用を開始するには、&lt;/span&gt;&lt;a href="http://console.cloud.google.com/compute/instancesAdd"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud コンソールから N4A をデプロイ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;してください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;昨今の意思決定者と構築者は、クラウド費用の増加を管理しながら、顧客が求めるパフォーマンスを実現するという課題に絶えず直面しています。スケールアウト マイクロサービスを使用し、増え続けるデータを処理するようにアプリケーションが進化するにつれて、組織は増大する汎用ワークロードをサポートするために、基盤となるインフラストラクチャの効率性を最大限に高める必要があります。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image5_bCjzyyQ.max-1000x1000.png"
        
          alt="image5"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このニーズに応えるため、Google は最新の Axion ベースの仮想マシン（VM）シリーズである N4A を発表しました。現在、Compute Engine、Google Kubernetes Engine（GKE）、Dataproc、Batch でプレビュー版が提供されています。Dataflow やその他のサービスでも近日中にサポートされる予定です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4A は、現行の N シリーズ VM の中で最も費用対効果が高く、同等となる現行の x86 ベースの VM と比較して&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;費用対効果が最大 2 倍であり、ワットあたりのパフォーマンスも 80% 優れています&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;。そのため、幅広い汎用ワークロードの総所有コスト（TCO）をさらに最適化しやすくなります。これは、GKE でスケールアウト ウェブサーバーとマイクロサービスを実行するクラウド ネイティブ企業、バックエンド アプリケーション サーバーや中規模データベースを管理する企業チーム、大規模な CI / CD ビルドファームを運用するエンジニアリング組織で確認されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud では、オーケストレーターからランタイムまで、スタックのあらゆるレイヤのストレージ、ネットワーキング、ソフトウェアでコンピューティング サービスを共同設計し、優れたシステムレベルのパフォーマンスと費用対効果を実現しています。N4A の画期的な費用対効果を支えているのは、Arm® Neoverse® N3 コンピューティング コアを基盤とする最新世代の Google Axion プロセッサ、Google の&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/dynamic-resource-management"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;動的リソース管理&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（DRM）テクノロジー、ネットワーキングとストレージの処理をオフロードして CPU を解放する Google Cloud のカスタム設計のハードウェアおよびソフトウェア システムである &lt;/span&gt;&lt;a href="https://cloud.google.com/titanium"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Titanium&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; です。Titanium は、Google Cloud の垂直統合型ソフトウェア スタックの一部です。このスタックは、サーバー内のカスタム シリコンから、42 のリージョンを &lt;/span&gt;&lt;a href="https://cloud.google.com/about/locations"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;775 万キロメートルの陸上および海底ファイバー ケーブル&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;でつなぐ地球規模のネットワークまで、効率を最大化し、超低レイテンシと高帯域幅をグローバル規模でお客様に提供するように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;汎用コンピューティングを再定義し、AI 推論を可能にする&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4A は汎用性を重視して設計されており、汎用ワークロードと CPU ベースの AI ワークロードをサポートする一連の機能を備えています。事前定義されたカスタム シェイプで提供され、高 CPU（vCPU あたり 2 GB のメモリ）、標準（vCPU あたり 4 GB）、高メモリ（vCPU あたり 8 GB）の構成で、vCPU は最大 64 個、DDR5 は 512 GB、インスタンス ネットワーキングは最大 50 Gbps の帯域幅に対応します。N4A VM は、最新世代の Hyperdisk ストレージ オプション（Hyperdisk Balanced、Hyperdisk Throughput、Hyperdisk ML（近日提供予定）など）をサポートしており、インスタンスあたり最大 160,000 IOPS、2.4 GB/秒のスループットを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4A は、お客様が日々実行する主要なワークロードを代表する、さまざまな業界標準ベンチマークで優れたパフォーマンスを発揮します。たとえば、現行世代の同等となる x86 ベースの VM と比較して、コンピューティング能力に制約のあるワークロードで最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;105%&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、スケールアウト ウェブサーバーで最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;90%&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、Java アプリケーションで最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;85%&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、汎用データベースで最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;20%&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 優れた費用対効果を実現します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_q9MnCJ1.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="dxvss"&gt;脚注: 2025 年 10 月現在。パフォーマンスは、一般提供されている同等の最新世代の VM 上で汎用ストレージ タイプを使って本番環境として実行された、SPECrate®2017_int_base、SPECjbb2015、MySQL Transactions/minute（RO）、Google 内部 Nginx リバース プロキシ ベンチマークの推定スコアに基づいています。費用対効果に関する情報は、Google Cloud の公開済みおよび公開予定の正規料金に基づいています。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;実際、新しい N4A インスタンスの先行ユーザーの費用対効果は大幅に向上しています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_3I8oyl8.max-1000x1000.jpg"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="59dyk"&gt;&lt;i&gt;「ZoomInfo では、効率性が最優先事項である大規模なデータ インテリジェンス プラットフォームを運用しています。お客様にタイムリーな分析情報を提供するために不可欠な当社のコアデータ処理パイプラインは、GKE の Dataflow と Java サービスで広範に実行されています。新しい N4A インスタンスのプレビューでは、x86 ベースの同等のインスタンスと比較して、これらの主要なワークロードの費用対効果が 60% 向上していることがわかりました。これにより、プラットフォームをより効率的にスケールし、より高い価値をより迅速にお客様にお届けできるようになりました。」&lt;/i&gt;- &lt;b&gt;ZoomInfo、チーフ インフラストラクチャ アーキテクト、Sergei Koren 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_nDU2gjP.max-1000x1000.jpg"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="xulw1"&gt;&lt;i&gt;「AI 時代のコンピューティング需要を満たすには、パフォーマンス、効率性、柔軟性、スケーラビリティが組織に求められます。これには、Google Cloud とのパートナーシップの中核にある緊密なコラボレーションと共同設計が必要です。N4A は費用対効果を再定義するものであり、お客様は新たなレベルでインフラストラクチャを最適化できます。企業は Arm と Google Cloud を使用して、ワークロードの要件に最適なインフラストラクチャを選択できます。」&lt;/i&gt; - &lt;b&gt;Arm、インフラストラクチャ ビジネス、サーバー エコシステム開発担当ディレクター、Bhumik Patel 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;カスタム マシンタイプと Hyperdisk によるきめ細かな制御&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の N シリーズ VM の大きな強みは、これまでも柔軟性にありましたが、N4A ではその柔軟性をさらに進化させ、Axion ファミリーとして初めて、最も広く利用されている機能の一つであるカスタム マシンタイプ（&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/instances/creating-instance-with-custom-machine-type"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;CMT&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）を提供します。事前定義された構成にワークロードを合わせるのではなく、N4A の CMT ではアプリケーション固有のニーズに合わせて vCPU とメモリの量を個別に構成できます。インスタンスのサイズを適正化できるため、使用したリソースに対してのみ料金を支払うことになり、無駄を最小限に抑えて TCO を最適化できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;特定のワークロードにリソースを適合させるというこの原則は、ストレージにも適用されます。N4A VM は、最新世代の &lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/disks/hyperdisks"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をサポートしており、アプリケーションのニーズに最適なストレージ プロファイルを選択できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk Balanced:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; N4A VM あたり最大 160,000 IOPS で、ほとんどの汎用ワークロードに対して最適なパフォーマンスとコストの組み合わせを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk Throughput:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Hadoop や Kafka など、帯域幅を大量に消費する分析ワークロードで最大 2.4 GiBps のスループットを実現し、価値の高い大容量ストレージを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk ML&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（一般提供開始）&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; AI / ML ワークロード専用に構築されており、モデルの重みやデータセットが保存された単一のディスクを最大 32 個の N4A インスタンスに同時にアタッチして、大規模な推論やトレーニングのタスクを実行できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk ストレージ プール:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 容量とパフォーマンスをボリューム単位ではなく、まとめてプロビジョニングできるため、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/cost-saving-strategies-when-migrating-to-google-cloud-compute?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;コストを最大 50 %削減&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;しながら管理を簡素化できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_ZB4gdHF.max-1000x1000.jpg"
        
          alt="4"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="7cqx3"&gt;&lt;i&gt;「Vimeo では、大規模な動画コード変換プラットフォームを効率的に管理するために、長年にわたってカスタム マシンタイプを利用してきました。新しい Axion ベースの N4A インスタンスの初期テストでは非常に有望な結果が得られ、新たなレベルの効率性が実現しています。当社の主要なコード変換ワークロードのパフォーマンスは、同等の x86 VM と比較して 30% 向上しました。これにより、運用モデルを変更することなくユニット エコノミクスを改善し、より収益性の高い方法でサービスを拡大する明確な道筋が示されました。」&lt;/i&gt; - &lt;b&gt;Vimeo、ホスティングおよび配信オペレーション担当シニア ディレクター、Joe Peled 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;お客様の選択肢を広げる Arm ベースの Axion ポートフォリオの拡大&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;C シリーズ VM は、中規模から大規模のデータベースやインメモリ キャッシュなど、一貫して高いパフォーマンスを必要とするワークロード向けに設計されています。価格とパフォーマンスのバランスが良く、柔軟性を備えた N シリーズ VM は、Compute Engine の重要な柱となっており、スケールアウト Java / GKE ワークロードなど、リソースのニーズが変動するワークロードの実行コストを削減できます。2024 年 10 月、Google は初の Axion ベースのマシンシリーズである &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/try-c4a-the-first-google-axion-processor?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4A&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をリリースしました。N4A の導入によってこの C4A が補完され、ワークロードの正確なニーズに適したさまざまな Google Axion インスタンスを提供できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さらに、GKE は Axion ベースの C4A と N4A のマシンタイプをオーケストレートすることで、費用対効果を大幅に向上させます。また、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-custom-compute-classes"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム ComputeClass&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; でこれらのマシンタイプをプロビジョニングして組み合わせ、ワークロードを適切なハードウェアにマッチさせます。この自動化された異種クラスタ管理により、チームはアプリケーション スタック全体で TCO を最適化できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さらに、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4A.metal が Axion ファミリーに加わりました&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;。これは Google Cloud 初の Axion ベアメタル インスタンスで、自動車システム開発、厳格なライセンス要件があるワークロード、Android ソフトウェア開発など、仮想化されていない環境で特殊なアプリケーションを実行するために基盤となる物理サーバーへのアクセスが必要になるユースケースに対応します。&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4A.metal はまもなくプレビュー版で利用可能になります&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Axion の導入は、広範な成熟した Arm エコシステムに支えられ、これまで以上に簡単になっています。C4A と N4A を組み合わせることで、パフォーマンスやワークロード固有の要件に妥協することなく、ビジネス運営の総費用を削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;費用最適化と柔軟性に優れた N4A:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; スケールアウト ウェブサーバー、マイクロサービス、コンテナ化されたアプリケーション、オープンソース データベース、バッチ、データ分析、開発環境、データ準備、AI / ML のテストなど、価格とパフォーマンスのバランスが求められる汎用ワークロード向けに設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;一貫して高いパフォーマンス、予測可能性、制御性を実現する C4A:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 中規模から大規模のデータベース、インメモリ キャッシュ、費用対効果の高い AI / ML 推論、トラフィックの多いゲームサーバーなど、1 マイクロ秒が重要なワークロードを強化します。ミッション クリティカルなワークロード向けの制御されたメンテナンス エクスペリエンス、最大 100 Gbps のネットワーク帯域幅、次世代の Titanium ローカル SSD ストレージを提供し、一貫したパフォーマンスを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5_m4GINGe.max-1000x1000.jpg"
        
          alt="5"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="7cqx3"&gt;&lt;i&gt;「Google Cloud の Axion ポートフォリオに移行したことで、重要な競争上の強みを得られました。C4A インスタンス（サプライサイド プラットフォーム（SSP）バックエンド サービスなど）を使用することで、低くて安定したレイテンシを維持しながら、コンピューティング使用量を 20% 削減することができました。さらに、C4A を使用することで、インスタンス サイズに関係なく、ステートフル ワークロードに必要な IOPS で Hyperdisk を活用できるようになりました。この柔軟性により、クライアントの広告オークションの落札数を増やしながら、利益率を大幅に改善できています。現在、API リレーサービスなど、最も柔軟性が必要となるいくつかの主要なワークロードを実行して、N4A ファミリーをテストしています。本番環境で実行されている複数のアプリケーションで、以前のインフラストラクチャと比較して CPU の使用量が 15% 減り、コストもさらに削減できました。同時に、必要なワークロード特性を適切なインスタンスでサポートできるようになっています。」&lt;/i&gt; - &lt;b&gt;Rise、クラウドおよびソフトウェア アーキテクト、Or Ben Dahan 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;今すぐ N4A を使ってみる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4A は、Google Cloud リージョンの us-central1（アイオワ）、us-east4（バージニア）、us-east1（サウスカロライナ）、us-west1（オレゴン）、asia-southeast1（シンガポール）、europe-west1（ベルギー）、europe-west2（ロンドン）、europe-west3（フランクフルト）、europe-west4（オランダ）でご利用いただけます。今後、さらに多くのリージョンでご利用いただけるようになる予定です。N4A の詳細については、&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/general-purpose-machines#n4a_series"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちらのドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。N4A のデプロイは&lt;/span&gt;&lt;a href="http://console.cloud.google.com/compute/instancesAdd"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;コンソール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;から実行できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Nate Baum&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- グループ プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mo Farhat&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 06 Feb 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/axion-based-n4a-vms-now-in-preview/</guid><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>一般提供が開始された Axion ベースの N4A VM で費用対効果が 2 倍に</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/axion-based-n4a-vms-now-in-preview/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Nate Baum</name><title>Senior Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mo Farhat</name><title>Group Product Manager</title><department></department><company></company></author></item><item><title>Google Cloud A4X（GB200）と NVIDIA Dynamo を使用した WideEP Mixture-of-Experts 推論のスケーリング</title><link>https://cloud.google.com/blog/ja/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 1 月 23 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;組織が標準的な LLM から DeepSeek-R1 のような&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;大規模な Mixture-of-Experts（MoE）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;アーキテクチャに移行するにつれて、主な制約は、物理的な計算密度から通信レイテンシとメモリ帯域幅へと変化しました。Google はこのたび、エージェント型 AI 時代におけるインフラストラクチャのボトルネックの解消を目指して設計された 2 つの新しい検証済みレシピをリリースいたしました。これらの新しいレシピは、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA GB200 NVL72&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA Dynamo&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; を搭載した &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;A4X マシンシリーズ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;上のスループットとレイテンシの両方を最適化するための明確な手順を提供します。これは、2025 年 9 月に公開した A3 Ultra（NVIDIA H200）VM 上の分散型推論の&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/ai-inference-recipe-using-nvidia-dynamo-with-ai-hypercomputer?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;リファレンス アーキテクチャ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を拡張したものです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud の AI インフラストラクチャの多層スケーラビリティと A4X のラックスケールのアクセラレーションを組み合わせることで、両者の利点を AI インフラストラクチャにもたらします。これらのレシピは、&lt;/span&gt;&lt;a href="https://kubernetes.io/docs/concepts/scheduling-eviction/dynamic-resource-allocation/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;動的リソース割り当て&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（DRA）や&lt;/span&gt;&lt;a href="https://gateway-api-inference-extension.sigs.k8s.io/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;推論ゲートウェイ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;などの重要な推論インフラストラクチャへの投資を含む、Google Cloud と NVIDIA の間の広範なコラボレーションの一環をなすものです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;更新されたリファレンス アーキテクチャの一部を以下にご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; NVIDIA GB200 NVL72 を搭載した Google Cloud の A4X マシンシリーズで、第 5 世代の NVIDIA NVLink で接続された 72 個の GPU による単一の計算ドメインを構築します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;サービング アーキテクチャ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; NVIDIA Dynamo は分散ランタイムとして機能し、ラックスケールのファブリック全体で KV キャッシュの状態とカーネル スケジューリングを管理します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;パフォーマンス: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;8K / 1K の入力シーケンス長（ISL）/ 出力シーケンス長（OSL）の場合、スループット最適化構成では&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;合計 6,000 トークン/秒/GPU 超のスループット&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、レイテンシ最適化構成では &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;10 ミリ秒のトークン間レイテンシ（ITL）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を達成しました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;デプロイ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google Kubernetes Engine（GKE）をオーケストレーションに使用してこのスタックを Google Cloud にデプロイするために、検証済みのリファレンス アーキテクチャが現在利用可能です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;最新の推論スタック&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エクサスケールのパフォーマンスを実現するには、推論をモノリシックなワークロードとして扱うことはできません。そのためには、特定の目標スループットとレイテンシに合わせて各レイヤが最適化されたモジュール型アーキテクチャが必要です。AI Hypercomputer の推論スタックは、以下の 3 つの異なるレイヤで構成されています。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャ レイヤ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 物理的なコンピューティング、ネットワーキング、ストレージ ファブリック（例: A4X）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;サービング レイヤ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 特定のモデル アーキテクチャと最適化された実行カーネル（例: NVIDIA Dynamo、NVIDIA TensorRT-LLM、Pax）と、リクエスト スケジューリング、KV キャッシュの状態、分散コーディネーションを管理するランタイム環境。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;オーケストレーション レイヤ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; リソースのライフサイクル管理、スケーリング、フォールト トレランスのためのコントロール プレーン（例: Kubernetes）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以下で詳述するリファレンス アーキテクチャでは、NVIDIA エコシステム向けに設計されたこのスタックの高パフォーマンス インスタンス化に焦点を当てています。インフラストラクチャ レイヤの A4X と、モデル サービング レイヤの NVIDIA&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Dynamo を組み合わせ、GKE でオーケストレートします。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャ レイヤ: A4X ラックスケール アーキテクチャ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;2025 年 2 月の &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/new-a4x-vms-powered-by-nvidia-gb200-gpus?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;A4X のリリースに関するお知らせ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;で、スケジューラが利用できるトポロジを根本的に変化させる GB200 NVL72 アーキテクチャを実装することで A4X VM が帯域幅の制約をどのように解消したかについて説明しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVLink ドメインがサーバー シャーシ（通常は 8 個の GPU）にバインドされていた旧世代とは異なり、A4X は統合ファブリックを提供します。このファブリックは、以下の特徴を備えています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;72 個の NVIDIA Blackwell GPU&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; が NVLink Switch システムで相互接続され、統合共有メモリを備えた 1 つの巨大な GPU として動作します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;130 TB/秒の総帯域幅&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;により、オンボード メモリへのアクセスに匹敵するレイテンシ プロファイル（72 個の GPU x 1.8 TB/秒/GPU）でオールツーオール通信が可能です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;NVFP4 のネイティブ サポート:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Blackwell Tensor Core は 4 ビット浮動小数点の適合率をサポートし、互換性のあるモデルレイヤの 8 ビット浮動小数点と比較してスループットを実質的に 2 倍にします。このベンチマークでは、以前に公開された結果と同じ構成で比較できるよう、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;8 ビット浮動小数点の適合率スケーリング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を使用しました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;サービング レイヤ: NVIDIA Dynamo&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この規模のハードウェアには、同期オーバーヘッドを発生させることなく分散状態を管理できるランタイムが必要です。NVIDIA Dynamo は、この分散推論ランタイムとして機能します。単純なモデル提供にとどまらず、基盤となるインフラストラクチャ全体で推論リクエストの複雑なライフサイクルを調整します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;サービング レイヤは、次のメカニズムを通じて A4X の使用率を最適化します。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Wide Expert Parallelism（WideEP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 従来の MoE サービングでは、1 つのノード（通常は 8 個の GPU）内でエキスパートをシャード化するため、特定のエキスパートが「稼働」状態になると負荷の不均衡が生じます。Google は、A4X の統合ファブリックを使用して、72 個の GPU を搭載したラック全体にエキスパートを分散します。この WideEP 構成は、大規模なコンピューティング プール全体で負荷を分散することで、バースト性の高いエキスパート活性化パターンを吸収し、単一の GPU がストラグラーになるのを防ぎます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Deep Expert Parallelism（&lt;/strong&gt;&lt;a href="https://github.com/deepseek-ai/DeepEP" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;DeepEP&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: WideEP がエキスパートを分散するのに対し、DeepEP は重要な「分離」と「結合」の通信フェーズを最適化します。DeepEP は、割り当てられたエキスパートにトークンをルーティングするために必要な高帯域幅のオールツーオール オペレーションを高速化します。このアプローチにより、大規模な MoE 推論のボトルネックとなる同期オーバーヘッドを最小限に抑えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;リクエスト処理の分離:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Dynamo は、計算依存型のプレフィル フェーズとメモリ依存型のデコード フェーズを分離します。A4X では、スケジューラがラック内の特定の GPU グループをプレフィルに割り当て（Tensor コアの飽和度を最大化）、他の GPU がデコードを処理（メモリ帯域幅の使用率を最大化）することで、リソースの競合を防止できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;グローバルな KV キャッシュ管理:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Dynamo は KV キャッシュの状態のグローバル ビューを維持します。そのルーティング ロジックは、関連するコンテキストを保持する特定の GPU にリクエストを転送し、冗長な計算とキャッシュの移行を最小限に抑えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;JIT カーネルの最適化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ランタイムは NVIDIA Blackwell 固有のカーネルを活用し、生成フェーズでジャストインタイムのオペレーション融合を実行してメモリアクセス オーバーヘッドを削減します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;オーケストレーション レイヤ: ソフトウェアとハードウェアのマッピング&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X が物理的なファブリックを提供し、Dynamo がランタイム ロジックを提供する一方で、オーケストレーション レイヤはソフトウェア要件をハードウェア トポロジにマッピングする役割を担います。GB200 NVL72 のようなラックスケール アーキテクチャでは、コンテナ オーケストレーションは標準的なスケジューリングを超えて進化する必要があります。オーケストレーターが物理的な NVLink ドメインを明示的に認識できるようにすることで、プラットフォームのパフォーマンスを最大限に引き出し、ワークロードを最適な場所に配置できるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE は、次のメカニズムを通じて、ハードウェアとソフトウェアの整合性を確保します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. ラックレベルのアトミック スケジューリング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; GB200 NVL72 では、「コンピューティングの単位」は単一の GPU や単一のノードではなく、ラック全体が高速コンピューティングの新たな基本的構成要素となります。Google は、特定のアフィニティ設定で GKE 容量予約を使用しています。これは、高密度なデプロイを保証する A4X インフラストラクチャの予約済みブロックを対象としています。この予約を使用することで、GKE は、Dynamo インスタンスを構成するすべての Pod が、NVLink ドメインを確立するために必要な特定の物理的に連続したラック ハードウェアに配置されるようにします。これにより、WideEP と DeepEP に必要なハード トポロジ保証が提供されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. GCS FUSE による低レイテンシのモデル読み込み: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な MoE モデルのサービングには、テラバイト単位の重みを高帯域幅メモリ（HBM）に読み込む必要があります。ローカル ディスクに重みをダウンロードする従来のアプローチでは、許容できない「コールド スタート」のレイテンシが発生します。&lt;/span&gt;&lt;a href="https://github.com/GoogleCloudPlatform/gcs-fuse-csi-driver" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GCS FUSE CSI ドライバ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を活用して、モデルの重みを Google Cloud Storage からローカル ファイル システムとして直接マウントします。これにより、Dynamo ランタイムはモデルを「遅延読み込み」し、データチャンクをオンデマンドで GPU メモリに直接ストリーミングできます。このアプローチでは事前ダウンロードのフェーズが不要になるため、新しい推論レプリカの準備が完了するまでの時間が大幅に短縮され、トラフィックの急増に対応した自動スケーリングがより迅速に行えるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;3. カーネル バイパス ネットワーキング（GPUDirect RDMA）: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;A4X の合計 130 TB/秒の帯域幅を最大化するには、ネットワーキング スタックで CPU と I/O の関与を最小限に抑える必要があります。Titanium ネットワーク アダプタで&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;GPUDirect RDMA&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を有効にするように GKE クラスタを構成します。特定の NCCL トポロジ構成を挿入し、コンテナで IPC_LOCK 機能を有効にすることで、アプリケーションが OS カーネルをバイパスし、GPU とネットワーク インターフェース間でダイレクト メモリ アクセス（DMA）オペレーションを実行できるようにします。この構成では、データパス管理から NVIDIA Grace CPU がオフロードされるため、高スループットのトークン生成時にネットワーク I/O がボトルネックになることはありません。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;パフォーマンスの検証&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;2 つの異なる最適化目標で SGLang を使用して DeepSeek-R1（8 ビットの浮動小数点形式）で 8K / 1K ワークロードのスケーリング特性を評価したところ、次のことがわかりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. スループットを最適化した構成&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;設定:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; DeepEP を使用する 72 個の GPU。5 ワーカー（TP8）の 10 個のプレフィル ノードと、1 ワーカー（TP32）の 8 個のデコード ノード。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;結果:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;6,000 超の合計トークン/秒/GPU&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（1,500 出力トークン/秒/GPU）を維持しました。これは、InferenceMAX が公開したパフォーマンス（&lt;/span&gt;&lt;a href="https://github.com/InferenceMAX/InferenceMAX/actions/runs/20356790608/job/58493812121" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ソース&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）と一致します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. レイテンシ最適化の構成&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;設定:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; DeepEP を使用しない 8 個の GPU（2 つのノード）。1 つのプレフィル ノードと 1 つのプレフィル ワーカー（TP4）、1 つのデコード ノードと 1 つのデコード ワーカー（TP4）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;結果:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 同時実行数 4 で、中央値 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;10 ミリ秒&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;のトークン間レイテンシ（ITL）を維持しました。これは、InferenceMAX が公開しているパフォーマンス（&lt;/span&gt;&lt;a href="https://github.com/InferenceMAX/InferenceMAX/actions/runs/20413316138/job/58653323053" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ソース&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）と一致します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;今後の対応&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;モデルが静的なチャット インターフェースから複雑なマルチターンの推論エージェントへと進化するにつれて、推論インフラストラクチャの要件は変化し続けます。Google は、AI 推論スタックの 3 つのレイヤすべてに投資してこれらの需要に対応しており、ベンチマークとレシピを積極的に更新、リリースしています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャ レイヤ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/now-shipping-a4x-max-vertex-ai-training-and-more?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;最近リリースされた A4X Max&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、単一の 72 GPU ラック構成の NVIDIA GB300 NVL72 をベースとしており、A4X と比較して 1.5 倍の NVFP4 FLOP、1.5 倍の GPU メモリ、2 倍のネットワーク帯域幅を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;サービング レイヤ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Google は、KV Block Manager と Google Cloud リモート ストレージのペアリング、Dynamo 指標の Cloud Monitoring ダッシュボードへの取り込みによるオブザーバビリティの強化、GKE カスタム コンピューティング クラス（CCC）の活用による容量と可用性の向上、FP4 適合率による新しいベースラインの設定など、NVIDIA Dynamo のコンポーネントとのより深い統合を積極的に検討しています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;オーケストレーション&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: llm-d の&lt;/span&gt;&lt;a href="https://llm-d.ai/docs/guide" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;明確なパス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;で確立された設計パターンに準拠し、インテリジェントな推論スケジューリング コンポーネントである&lt;/span&gt;&lt;a href="https://gateway-api-inference-extension.sigs.k8s.io/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;推論ゲートウェイ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;など、追加の最適化をこれらのテストに組み込む予定です。Google は、高度なトラフィック オーケストレーションのための集中型メカニズムを提供することを目指しています。このメカニズムは、ワークロードがサービング レイヤのランタイムに到達する前に、リクエストの優先順位付け、キューイング、マルチモデル ルーティングを処理します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な MoE モデルをデプロイする場合でも、次世代の推論エージェントを設計する場合でも、このスタックは、最先端の研究を本番環境で実現するために必要なエクサスケールの基盤を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;使ってみる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、お客様の AI ワークロード向けに、最もオープンで柔軟かつ高性能なインフラストラクチャを提供することに取り組んでいます。インテリジェントなルーティングとスケーリングから最新の NVIDIA AI インフラストラクチャまで、NVIDIA Dynamo スイートを完全にサポートすることで、LLM の大規模なサービングを可能にするプロダクション レディな完全ソリューションを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X マシンクラスの 2 つの具体的なレシピでデプロイ リポジトリを更新しました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://github.com/AI-Hypercomputer/gpu-recipes/blob/main/inference/a4x/disaggregated-serving/dynamo/README.md#32-sglang-deployment-with-deepep-72-gpus" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;スループット最適化のレシピ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; - DeepEP を使用した 72 個の GPU&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://github.com/AI-Hypercomputer/gpu-recipes/blob/main/inference/a4x/disaggregated-serving/dynamo/README.md#sglang-wo-deepep" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;レイテンシ最適化のレシピ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; - DeepEP を使用しない 8 個の GPU&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;皆様がどのようなものを構築されるか楽しみにしております。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Sean Horgan&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Ling Lin&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 30 Jan 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x/</guid><category>AI &amp; Machine Learning</category><category>AI Hypercomputer</category><category>GKE</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Google Cloud A4X（GB200）と NVIDIA Dynamo を使用した WideEP Mixture-of-Experts 推論のスケーリング</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Sean Horgan</name><title>Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Ling Lin</name><title>Software Engineer</title><department></department><company></company></author></item><item><title>VM OS エージェントの大規模な管理を簡素化: VM Extensions Manager のご紹介</title><link>https://cloud.google.com/blog/ja/products/compute/introducing-vm-extensions-manager/</link><description>&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_d395npc.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 1 月 6 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/introducing-vm-extensions-manager?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;IT 管理者であれば、大規模な VM インスタンス フリート全体でオペレーティング システム（OS）エージェント（Google で拡張機能と呼んでいる機能）を管理するのが複雑で面倒な作業であることをご存じでしょう。実際、拡張機能によって強力なアプリケーション レベルの機能が利用可能になるにもかかわらず、VM フリートで拡張機能ベースのサービスを採用する際にこの運用オーバーヘッドが大きな障壁となる可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この問題を解決するため、Google は &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;VM Extensions Manager のプレビュー版&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を発表しました。これは、Compute Engine API に直接統合された新しい機能で、Google 提供の拡張機能のインストールと管理を簡素化するものです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;VM Extensions Manager はポリシー主導型の一元化されたフレームワークを採用しており、VM インスタンス上の Google Cloud 拡張機能のライフサイクル全体を管理できます。手動スクリプト、起動スクリプト、その他のカスタム ソリューションに頼る代わりに、ポリシーを定義することで、既存か新規かにかかわらず、すべての VM インスタンスがポリシーに準拠するように管理可能になります。これにより、運用オーバーヘッドを数か月から数時間に短縮できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;VM Extensions Manager の使用を開始する方法&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;VM Extensions Manager は compute.googleapis.com API に直接統合されているため、新しい API を検出したり有効にしたりする必要はなく、数分で使い始めることができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. 拡張機能ポリシーを定義する&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;まず、拡張機能の望ましい状態を指定するポリシーを定義します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;プレビュー版では、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;プロジェクト レベル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;で&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ゾーンポリシー&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を作成できます。このポリシーは、単一の特定のゾーン内にある VM インスタンスを対象とします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今後数か月以内に、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;グローバル ポリシー&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;と、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;組織レベル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;および&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;フォルダレベル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;のポリシーもサポート対象に追加される予定です。これにより、優先順位を使用して柔軟なポリシー階層を構築し、単一のコントロール プレーンから企業フリートの拡張機能を管理できるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このポリシーは、Google Cloud コンソールから直接作成できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_2Dllyl3.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Cloud コンソールを使用して VM 拡張機能のポリシーを作成するデモ&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3_Bayaqjl.gif"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. 拡張機能を選択する&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;ポリシーで、管理する Google Cloud 拡張機能を選択します。プレビュー版の VM Extensions Manager では、次のような重要な Google Cloud 拡張機能がサポートされています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/logging/docs/agent/ops-agent/agent-vmem-policies"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Ops エージェント&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（ops-agent）: Compute Engine インスタンスからテレメトリーを収集する主要エージェントです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/workload-manager/docs/evaluate/set-up-agent-for-sap"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;SAP 用エージェント&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（sap-extension）: Google Cloud の SAP 用エージェントは、Compute Engine インスタンスと Bare Metal Solution サーバーで実行される SAP ワークロードのサポートとモニタリングのために Google Cloud が提供しているエージェントです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/agent-for-compute-workloads"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;コンピューティング ワークロード用エージェント&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（workload-extension）: Compute Engine で実行されているワークロードをモニタリングして評価するために使用できるエージェントです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今後数か月以内に、拡張機能ベースのサービスがさらに追加される予定です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;拡張機能の特定のバージョンを指定するか、空のまま（デフォルト）にして最新の拡張機能をインストールできます。デフォルトを選択した場合、新しいバージョンのリリースを VM Extensions Manager が自動的に処理するため、ユーザーはすぐに新機能や改善機能にアクセスできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;3. グローバル ポリシーをより細かく制御してロールアウト&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;VM Extensions Manager では、ロールアウトの速度を設定して、グローバル ポリシーの変更を複数のゾーンにわたってどのようにデプロイするかを制御することが可能です。ゾーンポリシーではロールアウト速度を設定できず、VM がオンラインになると瞬時に適用されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今後数週間以内に、まず gcloud を介してグローバル ポリシーのサポートを拡大し、関連情報をドキュメントに反映する予定です。UI の更新は今後数か月以内に行われます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;プレビュー版では、グローバル ポリシーで設定するロールアウト速度として次の 2 つから選択可能です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;SLOW（推奨）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 安全性を重視したデフォルトのオプションです。このオプションでは、Wave 間の組み込みの待ち時間を使用して、ゾーンごとのロールアウト（ポリシーの範囲内）をオーケストレートします。これにより、問題のある変更の潜在的な影響範囲を一定期間（デフォルトでは 5 日間）最小限に抑えます。このオプションは標準的なメンテナンスと更新に最適です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;FAST:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; このオプションでは、Wave 間の待ち時間がなくなり、ゾーンをまたぐフリート全体で変更が可能な限り迅速に行われます。これは、すべてのゾーンのすべての VM に、非常時特権アクセスを必要とする「ブレークグラス」緊急シナリオで重要なセキュリティ パッチをデプロイするなど、緊急のユースケースを対象としています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ポリシーを保存すると、VM Extensions Manager に処理が引き継がれます。基盤となるプログレッシブ ロールアウト エンジンによって複雑なオーケストレーションが管理され、その進行状況をモニタリングできます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;標準化と管理のための柔軟なシステム&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;VM Extensions Manager は、VM フリートの拡張機能を標準化し、制御できるように設計されています。今すぐプロジェクトにゾーンポリシーを適用して、拡張機能が正しいゾーンの VM インスタンスに正しくインストールされるようにしましょう。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Compute Engine VM インスタンスの拡張機能ポリシーの定義を開始するには、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/vm-extensions/about-vm-extension-manager?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を読んで最初のポリシーを作成してください。VM フリートの管理を標準化、保護、簡素化するために VM Extension Manager をご活用いただけますと幸いです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- プロダクト マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Omkar Suram&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- CE ディレクター、北米プラットフォーム スペシャリスト &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mike Columbus&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 20 Jan 2026 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/introducing-vm-extensions-manager/</guid><category>Management Tools</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>VM OS エージェントの大規模な管理を簡素化: VM Extensions Manager のご紹介</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/introducing-vm-extensions-manager/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Omkar Suram</name><title>Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mike Columbus</name><title>CE Director, Northam Platform Specialists</title><department></department><company></company></author></item><item><title>貴社のインフラストラクチャは AI エージェントに対応していますか？</title><link>https://cloud.google.com/blog/ja/products/compute/idc-on-the-ai-efficiency-gap/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 12 月 12 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/idc-on-the-ai-efficiency-gap?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;編集者注&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;: 本日は、AI インフラストラクチャの TCO（総所有コスト）危機とそれに対処する方法について、IDC の Dave McCarthy 氏にお話を伺います。同氏の分析をお読みください。&lt;/span&gt;&lt;/p&gt;
&lt;hr/&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI をめぐる状況は劇的に変化しています。ここ数年、業界はリソースを大量に消費する大規模なプロセスである生成 AI モデルのトレーニングに焦点を絞ってきました。しかし現在、焦点はさらに大きな新しい課題である推論へと急速に移行しつつあります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;推論（トレーニング済みモデルを使用してリアルタイムの予測を行うプロセス）は、もはや AI ライフサイクルの一部ではなくなり、急速に主要なワークロードになりつつあります。IDC が最近 1,300 人を超える全世界の AI 意思決定者を対象に実施したアンケート調査では、推論はすでに AI ワークロードの最大のセグメントとして挙げられ、すべての AI オペレーションの 47% を占めていました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この高い比率は、実世界のアプリケーションの膨大な数によるものです。モデルは定期的にトレーニングされながら、すべてのユーザークエリ、API 呼び出し、おすすめで推論のために休みなく使用されます。また、こうした推論の急増はハイブリッド環境全体に広がっていることを認識する必要があります。IDC のアンケートの回答者によると、ワークロードの 63% はクラウド内に存在します。クラウドは、常にコンテンツ作成や chatbot などのスケーラブルなアプリケーションの標準であり続けます。一方、ワークロードの 37% はオンプレミス インフラストラクチャにデプロイされます。これは通常、ロボット工学や実世界と直接やり取りするその他のシステムのユースケースに関連しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;現在、この需要を増大させている新たな要因が、自律型および半自律型の AI エージェントの台頭です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの「エージェント ワークフロー」は、AI の新たな論理的な進化の現れです。このワークフローでは、モデルは単一のプロンプトに回答するだけでなく、複雑な複数ステップのタスクを実行します。「パリ旅行の計画を立てて」と指示された AI エージェントは、フライトの検索、ホテルの空室状況の確認、レビューの比較、場所の地図表示など、数十もの互いに関連するオペレーションを実行する必要があります。各ステップは推論オペレーションであり、さまざまなシステム間でオーケストレートする必要がある一連のリクエストを作成します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;こうした需要の急増は、多くの組織で重大な脆弱性を露呈させています。それが AI 効率のギャップです。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェントの時代の TCO 危機&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI 効率のギャップとは、AI スタックの理論上のパフォーマンスと実世界のパフォーマンス実績の差異です。このギャップが TCO（総所有コスト）危機を招きます。ギャップの原因はシステム全体の非効率性です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;IDC の調査によると、半数以上（54.3%）の組織が複数の AI フレームワークとハードウェア プラットフォームを使用しています。この柔軟性は有益に思えますが、驚くべき短所があり、92% の組織が効率に悪影響を及ぼしたと報告しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最適化されていない異種サービスを寄せ集めた断片的な「パッチワーク」アプローチは、次のような問題を波及的に生じさせます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;回答者の 41.6% がコンピューティング費用の増加を報告&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 冗長なプロセスと低い利用率が支出を増加させます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;回答者の 40.4% がエンジニアリングの複雑化を報告&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: チームは、価値の創造よりも断片的なスタックの管理に多くの時間を費やしています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;回答者の 40.0% がレイテンシの増加を報告&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: システムの一部（ストレージやネットワーキングなど）のボトルネックにより、アプリケーションの全体的なパフォーマンスが低下します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;根本的な問題は、組織が高価で高性能なアクセラレータの料金を支払っているにもかかわらず、それらを十分に活用できていないことです。IDC のデータによると、浪費されている AI 予算全体の 29% は推論に関連しています。この浪費の直接的な原因は、GPU アイドル時間（回答者の 29.4% が報告）とリソースの非効率的な使用（22.3% が報告）です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;多くの場合、高価なアクセラレータがアイドル状態になるのは、低速なストレージ システムからのデータを待機しているか、アプリケーション サーバーが次のリクエストの準備をしているときです。これは、コンポーネントの障害ではなく、システムレベルの障害です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この障害は、AI エンジンの原動力となるデータ マネジメントに存在する大きな課題によってさらに悪化することがよくあります。アンケート回答者がこのギャップの原因として挙げた主な課題が 3 つあります。47.7% は、データ品質とガバナンスの確保に苦労しています。45.6% は、データ ストレージ管理と関連コストの課題に取り組んでいます。44.1% は、データ クリーニングとデータ準備の複雑さとそれらにかかる時間を挙げています。データ パイプラインが高速なアクセラレータに追いつかないと、インフラストラクチャ全体の効率が低下します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;ギャップを埋める方法: 断片化したスタックから統合されたシステムへ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI エージェントの時代に費用対効果の高いスケーリングを実現するには、個々のコンポーネントについて考えるのをやめ、システムレベルの設計に焦点を当てる必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;たとえば、エージェント ワークフローには、タイプが異なる次の 2 つのコンピューティング間の緊密な連携が必要です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;汎用コンピューティング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 運用上のバックボーンです。アプリケーション サーバーを実行し、ワークフローのオーケストレーションとデータの事前処理を行い、モデルに関するすべてのロジックを処理します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;専用アクセラレータ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: AI モデル自体を実行する高性能なエンジンです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;断片化した環境では、これら 2 つの要素が非効率的に結び付き、レイテンシが急増します。今後取るべき道は、ソフトウェア、ネットワーキング、ストレージ、コンピューティング（汎用と専用の両方）が単一の包括的なシステムとして機能する最適化されたアーキテクチャです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この総合的なアプローチは、AI の TCO を管理する唯一のサステナブルな方法です。このアプローチでは、目標を再定義して、単に高速なアクセラレータを購入することから、エンドツーエンドのワークフロー全体の「費用対効果」と「ユニット エコノミクス」を改善することに切り替えます。組織は、ボトルネックを解消し、すべてのリソースの利用率を最大化して初めて、効率のギャップを埋めることができます。この成果を達成するために、組織は積極的に戦略を移行しています。IDC のアンケート調査によると、回答者の 28.9% はモデル最適化手法に優先的に取り組んでおり、26.3% は AI サービス プロバイダとの提携によってこの複雑な移行を乗り切ろうとしています。さらに、25% はチームのスキルアップのためのトレーニングに投資し、AI 投資の価値を高めようとしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;推論の時代がすでに到来し、その後にエージェントの時代が迫っています。イノベーションの次の波に乗るのは、最も強力なアクセラレータを持つ組織ではなく、効率と統合レベルと費用対効果が最も高いシステムを構築してアクセラレータを強化できる組織でしょう。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Cloud からのメッセージ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Cloud は、IT リーダーが「推論の時代」への重要な移行を乗り切るお手伝いをするために、この IDC の調査をスポンサーとして後援しました。Google Cloud は、この投稿で取り上げられている「効率のギャップ」（断片化したスタックとアイドル状態のリソースによって生じるギャップ）がサステナブルな費用対効果の主な障壁であることを認識しています。それゆえに、Google は AI Hypercomputer を作成しました。これは、要求の厳しい AI ワークロードで優れたパフォーマンスと効率性を実現できるように設計された統合スーパーコンピュータ システムです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;IDC は、全世界の IT リーダー 1,300 人を対象にアンケート調査を実施し、効率と費用対効果を最大化するために AI スタックをどのように設計しているかを明らかにしました。詳しくは、ホワイトペーパー「&lt;/span&gt;&lt;a href="https://cloud.google.com/resources/content/ai-efficiency-gap"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;The AI Efficiency Gap: From TCO Crisis to Optimized Cost and Performance&lt;/span&gt;&lt;/a&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;」（AI 効率のギャップ: TCO 危機を乗り越えてコストとパフォーマンスを最適化）を無料でダウンロードしてご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-IDC、クラウドおよびエッジ インフラストラクチャ サービス、調査担当バイス プレジデント、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Dave McCarthy 氏 &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Wed, 14 Jan 2026 00:10:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/idc-on-the-ai-efficiency-gap/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>貴社のインフラストラクチャは AI エージェントに対応していますか？</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/idc-on-the-ai-efficiency-gap/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Dave McCarthy</name><title>Research Vice President, Cloud and Edge Infrastructure Services, IDC</title><department></department><company></company></author></item><item><title>Cluster Director による AI および HPC クラスタ自動化の一般提供を開始</title><link>https://cloud.google.com/blog/ja/products/compute/cluster-director-is-now-generally-available/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 12 月 18 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/cluster-director-is-now-generally-available?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI トレーニング ワークロードとハイ パフォーマンス コンピューティング（HPC）ワークロードを支えるインフラストラクチャの複雑さは、チームの作業ペースを低下させる可能性があります。Google Cloud において、世界最大規模の AI 研究チームとの共同作業を重ねる中で、あらゆる場面でそのような状況を目にしています。たとえば、複雑な構成ファイルという障壁にぶつかっている研究者、自社開発スクリプトによる GPU の管理に苦労しているプラットフォーム チーム、数週間に及ぶトレーニング実行を阻む予測不能なハードウェア障害に絶えず奮闘している運用管理者などです。物理的なコンピューティングの利用だけでは十分ではありません。最先端の技術を利用するには、ハードウェア障害を克服する&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;信頼性&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、トポロジを尊重する&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;オーケストレーション&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、拡大するニーズに適応する&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ライフサイクル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;管理戦略が必要です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび Google Cloud は、このような要求に応えるべく、&lt;/span&gt;&lt;a href="https://cloud.google.com/products/cluster-director"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Cluster Director&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; の一般提供（GA）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を開始し、Cluster Director サポートの&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;プレビュー版&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine?utm_source=google&amp;amp;utm_medium=cpc&amp;amp;utm_campaign=na-CA-all-en-dr-bkws-all-all-trial-e-dr-1710134&amp;amp;utm_content=text-ad-none-any-DEV_c-CRE_772382725406-ADGP_Hybrid+%7C+BKWS+-+EXA+%7C+Txt-AppMod-GKE-Kubernetes+Engine-KWID_335784956140-kwd-335784956140&amp;amp;utm_term=KW_kubernetes+google-ST_kubernetes+google&amp;amp;gclsrc=aw.ds&amp;amp;gad_source=1&amp;amp;gad_campaignid=22976548925&amp;amp;gclid=Cj0KCQiAgP_JBhD-ARIsANpEMxxNCV54Smw89kgAplcXoolCw8LdVBSA9buRDhHT_4QlTybV4LZoqKIaAqJcEALw_wcB&amp;amp;e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Kubernetes Engine（GKE）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;上の Slurm 向け）をリリースしました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director（GA）は、最新のスーパーコンピューティングの厳しい要件を満たせるように設計されたマネージド インフラストラクチャ サービスです。脆弱な DIY ツールの代わりに、トポロジを考慮した堅牢なコントロール プレーンを使用することで、最初のデプロイから 1,000 回目のトレーニング実行に至る Slurm クラスタのライフサイクル全体を処理します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、Cluster Director をさらに拡張して、GKE 上の Slurm のサポート（プレビュー版）を提供します。これにより、お客様は高パフォーマンス スケジューリングの慣れ親しんだ精度と Kubernetes の自動スケーリングという 2 つの強みを最大限に利用できます。これは、GKE ノードプールを Slurm クラスタの直接的なコンピューティング リソースとして扱い、既存の Slurm ワークフローを変更せずに Kubernetes のパワーでワークロードをスケーリングできるようにすることで実現されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Cluster Director の一般提供を開始&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director は、クラスタ ライフサイクルの各フェーズで高度な機能を提供します。フェーズには、インフラストラクチャの設計とキャパシティを決定する準備作業（0 日目）、クラスタが自動的にデプロイおよび構成されるデプロイ（1 日目）、パフォーマンス、ヘルス、最適化が継続的にトラッキングされるモニタリング（2 日目）があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この包括的なアプローチにより、お客様は詳細な構成が可能なインフラストラクチャのメリットを享受しながら、下位レベルのオペレーションを自動化して、コンピューティング リソースが常に最適化され、信頼性と可用性が確保されている状態を維持できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;では、これらすべてにかかる費用はどれくらいになるでしょうか？最大のメリットはそこにあります。Cluster Director の使用に追加料金はかかりません。料金は、基盤となる Google Cloud リソース（コンピューティング、ストレージ、ネットワーキング）に対してのみ発生します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Cluster Director によるデプロイの各フェーズのサポート&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;0 日目: 準備&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;通常、クラスタの立ち上げには数週間にわたるプランニング、Terraform のラングリング、ネットワークのデバッグが必要です。Cluster Director は、ワークロード要件に合わせて最適化されたインフラストラクチャ トポロジを設計するツールを備えており、「0 日目」の体験を完全に様変わりさせます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1_gBjYYUA.gif"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director は、0 日目のセットアップを効率化するため、以下を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;リファレンス アーキテクチャ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google の社内ベスト プラクティスを再利用可能なクラスタ テンプレートに体系化し、標準化された検証済みのクラスタを数分でスピンアップできるようにしました。これにより、組織内のすべてのチームが同じセキュリティ基準をデプロイに使用し、デフォルトで正しく構成されるインフラストラクチャ上で、ネットワーク トポロジやストレージのマウントにデプロイできるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ガイド付き構成:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; よく知られているように、オプションが多すぎると構成の停滞を招くことがあります。Cluster Director のコントロール プレーンは、効率化されたセットアップ フローを通してお客様をガイドします。お客様がリソースを選択すると、システムによって複雑なバックエンド マッピングが処理されます。これにより、デプロイに先立ってストレージ階層、ネットワーク ファブリック、コンピューティング シェイプの互換性が確保され、最適化されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;広範なハードウェア サポート:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cluster Director は、大規模 AI システム向けの&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/cluster-director/docs/compute"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;フルサポート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を提供します。これには、NVIDIA GB200 および GB300 GPU を搭載した Google Cloud の &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;A4X および A4X Max VM&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; や、費用対効果の高いログインノードとデバッグ パーティションに適した &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;N2 VM&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; などの多目的 CPU が含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟な使用オプション:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cluster Director は、重要なトレーニング実行時のキャパシティを確保する&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/reservations-overview"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;予約機能&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、動的スケーリング用の &lt;/span&gt;&lt;a href="https://cloud.google.com/products/dws/pricing?e=48754805&amp;amp;hl=en"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Dynamic Workload Scheduler&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; Flex-start&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、低コストの随時実行に適した &lt;/span&gt;&lt;a href="https://cloud.google.com/solutions/spot-vms?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Spot VM&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をサポートしており、お客様が希望する調達戦略に合わせて柔軟に調整できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Google Cloud の Cluster Director は、大規模な AI と HPC の環境を管理できるように最適化されており、NVIDIA の高速コンピューティング プラットフォームのパワーとパフォーマンスを補完する役割を果たします。私たちは互いに協力して、次世代のコンピューティングの課題に対処できる簡素化された強力でスケーラブルなソリューションをお客様に提供します。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;- NVIDIA、高速コンピューティング プロダクト担当ディレクター、Dave Salvator 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1 日目: デプロイ&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ハードウェアのデプロイとパフォーマンスの最大化はまったく別物です。1 日目は実行フェーズであり、お客様の構成が完全に動作するクラスタに変換されます。素晴らしいことに、Cluster Director は VM をプロビジョニングするだけでなく、ソフトウェアとハードウェアのコンポーネントが健全な状態にあり、適切にネットワーク化され、最初のワークロードを受け入れる準備ができているかどうかを検証します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2_MyVTseY.gif"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director は、高パフォーマンスのデプロイを保証するために、以下を自動化します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;健全性の証明:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cluster Director は、ジョブが GPU に到達する前に、DCGMI 診断や &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;NCCL&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; パフォーマンス検証などの厳格なヘルスチェック スイートを実行し、ネットワーク、ストレージ、アクセラレータの完全性を検証します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;アクセラレータへの継続的なデータ供給:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ストレージ スループットは、しばしばトレーニング効率を低下させる隠れた要因となります。そのため、Cluster Director はパフォーマンス階層の選択が可能な Google Cloud Managed Lustre を完全にサポートしています。高スループットの並列ストレージをコンピューティング ノードに直接接続できるため、GPU がデータ不足になることはありません。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;相互接続のパフォーマンスの最大化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; スケーリングを最大化するため、Cluster Director はトポロジを考慮したスケジューリングとコンパクト プレースメント ポリシーを実装します。システムは、Google のノンブロッキング ファブリックで高密度の予約を利用することによって、分散ワークロードを可能な限り最短の物理パスに配置し、テール レイテンシを最小限に抑え、最初から集団通信（NCCL）の速度を最大化します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2 日目: モニタリング&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;現実の AI / HPC インフラストラクチャでは、ハードウェアの障害や要件の変更が発生します。柔軟性を欠くクラスタは非効率的です。継続的な「2 日目」の運用フェーズに移行したら、クラスタの健全性を維持し、利用率とパフォーマンスを最大化する必要があります。Cluster Director は、長期的な運用の複雑さに対応できるコントロール プレーンを備えています。このたび導入したのは、2 日目の運用の煩雑な現実に対処できる新しい&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;アクティブ クラスタ管理&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;機能です。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3_VSuBKiw.gif"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しいアクティブ クラスタ管理機能には、以下が含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;トポロジレベルの可視性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 目に見えないものはオーケストレートできません。Cluster Director のオブザーバビリティ グラフとトポロジ グリッドを使用すると、フリート全体を可視化し、サーマル スロットリングや相互接続に関する問題を特定して、物理的な近接性に基づいてジョブの配置を最適化できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ワンクリック修復:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ノードが劣化したときに、SSH で接続してデバッグする必要がなくなります。Cluster Director を使用すると、ワンクリックで Google Cloud コンソールから直接、障害が発生したノードを交換できます。システムによってドレイン、破棄、交換が処理され、数分でクラスタが最大キャパシティに戻されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;適応型インフラストラクチャ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 研究のニーズに変更があったときは、クラスタも変更する必要があります。今後は、アクティブなクラスタを変更できます。つまり、クラスタを破棄したり進行中の作業を中断したりすることなく、ストレージ ファイル システムの追加や削除などのアクティビティを即座に行えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE 上の Slurm 向け Cluster Director サポートのプレビュー版をリリース&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;イノベーションはオープンな環境で発展します。Kubernetes を構築した Google と、Slurm の開発をバックアップした SchedMD は、世界最先端のコンピューティングを支えるオープンソース テクノロジーを長きにわたって支持してきました。この数年間、NVIDIA と SchedMD は緊密に連携して GPU スケジューリングの最適化に取り組んでいます。その結果、最新の AI に不可欠な基本機能である汎用リソース（GRES）フレームワークやマルチインスタンス GPU（MIG）などのサポートが提供されるようになりました。NVIDIA は SchedMD の買収を通じて、Slurm をベンダーに依存しない標準として発展させる取り組みを強化しました。これは、世界最速のスーパーコンピュータを支えるソフトウェアがオープンかつ高パフォーマンスであり続け、未来の高速コンピューティングに向けて完璧に調整されることを保証するものです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、この高速コンピューティングの土台に立って、SchedMD との連携を深めつつ、いかにしてクラウドネイティブ オーケストレーションと高パフォーマンス スケジューリングのギャップを埋めるかという業界の根本的な課題を解決しようとしています。このたび、SchedMD の Slinky サービスを利用した、GKE 上の Slurm 向け Cluster Director サポートのプレビュー版のリリースをお知らせできるのは、Google Cloud にとって大きな喜びです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このイニシアチブは、インフラストラクチャの世界の 2 つの標準を統合するものです。GKE 上でネイティブ Slurm クラスタを直接実行することで、両方のコミュニティの強みを増幅できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;研究者&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;の皆様は、&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;sbatch&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;squeue&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; など、数十年にわたって HPC を定義してきた妥協のない Slurm のインターフェースとバッチ機能を利用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;プラットフォーム チーム&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;の皆様は、自動スケーリング、自己回復、ビンパッキングの機能を備えた GKE がもたらす運用のベロシティを利用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE 上の Slurm は、Google と SchedMD の長きにわたるパートナーシップによって強化されており、次世代の AI および HPC ワークロード向けのオープンで強力な統合基盤の構築に役立ちます。&lt;/span&gt;&lt;a href="https://forms.gle/LaV116jNy2CvAnNV8" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;今すぐプレビュー版へのアクセスをリクエスト&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;しましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;今すぐ Cluster Director をお試しください&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director を使用して AI および HPC クラスタの自動化を開始する準備はできましたか？&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;エンドツーエンドの機能について詳しくは、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/cluster-director/docs"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;コンソールで &lt;/span&gt;&lt;a href="http://console.cloud.google.com/cluster-director"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cluster Director&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を有効化してください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google Cloud、Cluster Director 担当シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Ilias Katsardis&lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google Cloud、AI インフラストラクチャ担当グループ プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Jason Monden&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Thu, 25 Dec 2025 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/cluster-director-is-now-generally-available/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Cluster Director による AI および HPC クラスタ自動化の一般提供を開始</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/cluster-director-is-now-generally-available/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Ilias Katsardis</name><title>Sr. Product Manager, Cluster Director, Google Cloud</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Jason Monden</name><title>Group Product Manager, AI Infrastructure, Google Cloud</title><department></department><company></company></author></item><item><title>「The Forrester Wave™: AI Infrastructure Solutions, Q4 2025」で Google がリーダーに</title><link>https://cloud.google.com/blog/ja/products/compute/forrester-wave-ai-infrastructure-solutions-q4-2025-leader/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 12 月 18 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/forrester-wave-ai-infrastructure-solutions-q4-2025-leader?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;使用するかどうかはもはや問題ではなく、有望なプロトタイプからビジネス成果を促進する本番環境グレードのサービスにどのようにスケーリングするかが問題になっています。推論の時代において、競争優位性は、世界中のユーザーに役立つ情報を可能な限り低いコストで提供する能力によって決まります。デモから大規模な本番環境へのデプロイに移行する際には、最新の AI ソフトウェアとアクセラレータ ハードウェアのプラットフォームを提供する統合システムを使用して、インフラストラクチャの運用を簡素化するとともに、費用とアーキテクチャの複雑性を低く抑える必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;先日、Forrester は、13 社のベンダーを評価した &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;The Forrester Wave™: AI Infrastructure Solutions, Q4 2025&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; レポートを公開しました。Google は、このレポートの調査結果を通じて、こうした主要な課題を解決するという Google の取り組みが認められたと考えています。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Google は、「現在のサービス」カテゴリにおいて全ベンダーの中で最高スコアを獲得&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;し、ビジョン、アーキテクチャ、トレーニング、推論、効率性、セキュリティなど、19 の評価基準のうち 16 の基準で最高スコアを記録しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://cloud.google.com/resources/content/2025-forrester-wave-ai-infrastructure"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;レポート全文はこちら&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;The Forrester Wave™: AI Infrastructure Solutions, Q4 2025&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;統合システムで価値創出までの時間を短縮&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;企業は AI を単独で運用するわけではありません。厳格なセキュリティ プロトコルを遵守しつつ、さまざまなアプリケーションやデータベースと統合する必要があります。Forrester は、効率性とスケーラビリティの評価基準で Google に最高スコアを付け、Google Cloud の共同設計戦略を評価しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Google は、シリコンとインフラストラクチャの共同設計戦略を追求し、推論効率を向上させる TPU と、より幅広いエコシステムとの互換性を実現する NVIDIA GPU を開発しています。TPU がネットワーキング ファブリックと緊密に統合されるように設計することで、大規模な推論で高帯域幅と低レイテンシを実現できます。」&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は 20 年以上にわたり、Google 検索、YouTube、マップなど、世界最大規模のサービスを運用してきました。これらのサービスは前例のない規模であるため、これまで解決されたことのない問題を解決する必要がありました。必要なプラットフォームとインフラストラクチャを単純に購入することはできず、自社での開発が必要でした。ここから 10 年にわたるシステムレベルの綿密な共同設計の取り組みが始まり、カスタム ネットワーク ファブリックと特別なアクセラレータから最先端のモデルまで、すべてが 1 か所で構築されました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;その結果、統合型スーパーコンピューティング システムである AI Hypercomputer が誕生し、お客様に大きなメリットをもたらしています。幅広い AI 最適化ハードウェアをサポートしており、スループットの向上、レイテンシの短縮、結果出力までの時間の短縮、TCO の削減など、ワークロード レベルの詳細な目標に合わせて最適化できます。つまりお客様は、Google のカスタム &lt;/span&gt;&lt;a href="https://cloud.google.com/tpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Tensor Processing Unit&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（TPU）、&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;最新の &lt;/span&gt;&lt;a href="https://cloud.google.com/gpu?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA GPU&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、またはその両方を使用できます。アクセラレータとネットワーキング、ストレージを緊密に統合したシステムが基盤となり、優れたパフォーマンスと効率性を実現します。Anthropic、Lightricks、LG AI Research などの大手生成 AI 企業が、要求の厳しい AI ワークロードの実行に Google Cloud を使用しているのもそのためです&lt;/span&gt;&lt;sup&gt;&lt;span style="vertical-align: baseline;"&gt;1&lt;/span&gt;&lt;/sup&gt;&lt;span style="vertical-align: baseline;"&gt;。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;システムレベルの統合は高速処理の基盤となりますが、運用が複雑になり速度が低下する可能性はあります。製品化までの時間を短縮するために、Google は AI インフラストラクチャをデプロイして管理する複数の方法を提供し、希望のワークフローを問わず、面倒な作業を抽象化します。Google Kubernetes Engine（GKE）Autopilot を通じて、コンテナ化されたアプリケーションの管理を自動化し、LiveX.AI のようなお客様が運用コストを 66% 削減できるよう支援します。同様に、Cluster Director によって Slurm ベース環境のデプロイを簡素化し、LG AI Research のようなお客様がセットアップ時間を 10 日から 1 日未満に短縮できるようにします。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI の費用と複雑さの管理&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Forrester は、料金の柔軟性と透明性の評価基準で Google Cloud に最高スコアを付けました。コンピューティングの価格は、AI インフラストラクチャの費用を算出するための要素の一つにすぎません。全体像を把握するには、開発費用、ダウンタイム、リソースの非効率的な使用も考慮する必要があります。Google は、スタックの各レイヤで選択肢を提供し、企業が求める柔軟性を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟な利用モデル:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Dynamic Workload Scheduler を使用することで、必要なときに必要な容量だけ購入できるため、コンピューティング費用を最大 50% 削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ロード バランシング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: GKE Inference Gateway は、AI 対応ルーティングを使用して各モデルにリクエストを分散することでスループットを向上させます。また、ボトルネックを防止し、サーバーがアイドル状態にならないようにします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;データ ボトルネックの解消&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Anywhere Cache は、コンピューティングと同じ場所にデータを配置することで、読み取りレイテンシを最大 96% 削減し、データの移動によって生じる「統合に伴う負担」を排除します。Anywhere Cache を統合データ プラットフォームの BigQuery と併用することで、アクセラレータにデータを供給しつつ、レイテンシと下り（外向き）料金の発生を回避できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟性と選択肢による戦略的リスクの軽減&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、アクセラレータ、フレームワーク、マルチクラウド環境全体でお客様に選択肢を提供することにも尽力しています。これは Google にとって新しい取り組みではありません。Google は、Kubernetes の開発とオープンソース化を通じて得た豊富な経験から、オープン エコシステムがイノベーションへの近道であり、お客様に最大限の柔軟性を提供できるということを学びました。AI の時代においても、お客様がすでに使用しているツールに積極的に貢献することで、同じ考え方を実践しています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;オープンソース フレームワークとハードウェアのポータビリティ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; PyTorch、JAX、Keras などのオープン フレームワークは引き続きサポートされています。また、カスタム シリコンでのワークロードのポータビリティに関する懸念に直接対処するため、vLLM の TPU サポートに投資しました。これにより、デベロッパーは最小限の構成変更だけで TPU と GPU を簡単に切り替える（または両方を使用する）ことができます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ハイブリッドとマルチクラウドの柔軟性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google は、アプリケーションの実行場所についても選択肢の提供に取り組んでいます。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Distributed Cloud&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; は、Google のサービスをオンプレミス、エッジ、クラウドのロケーションに提供します。一方、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;クロスクラウド ネットワーク&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;は、お客様の環境と他のクラウド間の高速接続により、アプリケーションとユーザーを安全に接続します。この強力な組み合わせにより、特定の環境に縛られることがなくなります。ワークロードを簡単に移行して統一された管理手法を適用することで、運用を合理化し、ロックインのリスクを軽減できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;信頼できるシステム&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ビジネスモデル全体が AI サービスの可用性に依存している場合、インフラストラクチャの稼働時間は非常に重要です。Google Cloud のグローバル インフラストラクチャは、エンタープライズ グレードの信頼性を実現するように設計されています。このアプローチは、サイト信頼性エンジニアリング（SRE）の提唱を始めた Google の歴史に根ざしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、世界最大級のプライベートなソフトウェア定義ネットワークを運用しており、世界全体のインターネット下り（外向き）トラフィックの約 25% を処理しています。公共のインターネットに依存するプロバイダとは異なり、Google 独自のファイバーでトラフィックを維持し、速度、信頼性、レイテンシを向上させています。このグローバル バックボーンは、13 ペタビット/秒の帯域幅にスケールする Jupiter データセンター ファブリックによって支えられ、前世代よりも 50 倍高い信頼性を実現しています。他のプロバイダと比較すると、その差はさらに大きくなります。最後に、クラスタレベルのフォールト トレランスを向上させるために、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/elastic-training-and-optimized-checkpointing-improve-ml-goodput?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;弾力性のあるトレーニングや多層チェックポインティング&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;などの機能を採用しています。これにより、復旧までの時間を最小限に抑えながらも、障害が発生したノードの周辺でクラスタのサイズを動的に変更することで、ジョブを中断することなく続行できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;構築に安全な基盤&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google のアプローチは、AI を総合的に保護することです。実際、Google Cloud はクラウド セキュリティにおいて業界をリードする実績を維持しています。cloudvulndb.org の独自分析（2024～2025 年）によると、Google のプラットフォームでは、他の 2 つの主要クラウド プロバイダと比較して、重大度「重大」および「高」の脆弱性が最大 70% 低いことが示されています。また、Google は業界で初めて AI / ML Privacy Commitment を公表しました。この取り組みは、Google がお客様のデータを自社のモデルのトレーニングに使用しないことを保証するものです。こうした安全保護対策が講じられているため、Google Cloud の基盤には、Google のサービスを保護するゼロトラストの原則に基づいたセキュリティが組み込まれています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ハードウェアのルート オブ トラスト:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google のカスタム Titan チップは、Titanium アーキテクチャの一部として、検証可能なハードウェアのルート オブ トラストを確立します。Google は最近、&lt;/span&gt;&lt;a href="https://blog.google/technology/ai/google-private-ai-compute/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;プライベート AI コンピューティング&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;向けの Titanium Intelligence Enclaves でこれを拡張し、強化かつ分離された暗号化環境で機密データを処理できるようにしました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;組み込みの AI セキュリティ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;a href="https://cloud.google.com/security/products/security-command-center"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Security Command Center（SCC）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は Google のインフラストラクチャとネイティブに統合されており、アセットの自動検出、セキュリティ問題の防止、最前線の &lt;/span&gt;&lt;a href="https://cloud.google.com/security/products/threat-intelligence"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Threat Intelligence&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; によるアクティブな脅威の検出を実施し、攻撃者に悪用される前に既知および未知のリスクを検出することで、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/identity-security/introducing-ai-protection-security-for-the-ai-era?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI 保護&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;主権ソリューション:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;データ境界&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;などのソリューションを通じて、お客様が厳格なデータ所在地、運用管理、ソフトウェア主権の要件を満たせるようにします。これに加えて、パートナーが運用する主権管理や、エアギャップのニーズに対応する &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Distributed Cloud&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; などの柔軟なオプションも用意されています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;AI とエージェントのガバナンスのためのプラットフォーム制御: &lt;/strong&gt;&lt;a href="https://cloud.google.com/vertex-ai"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Vertex AI&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、企業向けビルダーでモデルやエージェントを大規模にデプロイするために不可欠なガバナンス レイヤを提供します。この信頼は、Google Cloud のデフォルトで保護されたインフラストラクチャに根ざしており、&lt;/span&gt;&lt;a href="https://cloud.google.com/security/vpc-service-controls"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;VPC Service Controls（VPC-SC）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;や&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kms/docs/cmek"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;顧客管理の暗号鍵（CMEK）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;などのプラットフォーム制御を使用して環境をサンドボックス化し、機密データを保護します。また、エージェント ID を使用して IAM 権限を細かく管理します。プラットフォーム レベルでは、Vertex AI と &lt;/span&gt;&lt;a href="https://cloud.google.com/products/agent-builder"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Agent Builder&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; に &lt;/span&gt;&lt;a href="https://cloud.google.com/security/products/model-armor"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Model Armor&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; が統合されており、プロンプト インジェクションやデータの引き出しといったエージェントの新たな脅威に対するランタイム保護を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;継続的な AI イノベーションの実現&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;光栄なことに、Google は「The Forrester Wave™」レポートでリーダーとして評価されました。数十年にわたる研究開発と、超大規模 AI インフラストラクチャの構築に対する Google のアプローチが認められたのだと考えています。AI の可能性の実現を支援すべく、システムレベルのイノベーションを今後も推進していきます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;レポート全文はこちら:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;a href="https://cloud.google.com/resources/content/2025-forrester-wave-ai-infrastructure"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;The Forrester Wave™: AI Infrastructure Solutions, Q4 2025&lt;/strong&gt;&lt;/a&gt;&lt;/p&gt;
&lt;hr/&gt;
&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;1. IDC によるビジネス価値に関するスナップショット（Google Cloud が委託）「The Business Value of Google Cloud AI Hypercomputer」、US53855425、2025 年 10 月&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-AI およびコンピューティング インフラストラクチャ担当バイス プレジデント兼ゼネラル マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mark Lohmeyer&lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Cloud AI 担当バイス プレジデント兼ゼネラル マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Saurabh Tiwary &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Wed, 24 Dec 2025 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/forrester-wave-ai-infrastructure-solutions-q4-2025-leader/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>「The Forrester Wave™: AI Infrastructure Solutions, Q4 2025」で Google がリーダーに</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/forrester-wave-ai-infrastructure-solutions-q4-2025-leader/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mark Lohmeyer</name><title>VP and GM, AI and Computing Infrastructure</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Saurabh Tiwary</name><title>VP &amp; GM, Cloud AI</title><department></department><company></company></author></item><item><title>N4D の一般提供を開始: スケールアウト型ワークロードのコスト パフォーマンスが最大 3.5 倍に</title><link>https://cloud.google.com/blog/ja/products/compute/n4d-vms-based-on-amd-turin-now-ga/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 11 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/n4d-vms-based-on-amd-turin-now-ga?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;競争が激しい昨今の環境において、IT リーダーは、アプリケーションのスケールをサポートし、より多くの機能を展開し、高い水準のカスタマー エクスペリエンスを実現するという課題に直面しています。これにより、日常のビジネス オペレーションを支える汎用ワークロードのパフォーマンスと総所有コスト（TCO）の適切なバランスを見つけるという、直接的で複雑な課題が生じます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、Google Compute Engine の費用最適化された汎用ポートフォリオに新たに加わった N4D マシンシリーズの一般提供が開始されました。N4D は、ウェブサーバーやアプリケーション サーバー、データ分析プラットフォーム、コンテナ化されたマイクロサービスなど、幅広いワークロードに対応する、柔軟で費用対効果の高いソリューションです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4D マシンシリーズは、Google の &lt;/span&gt;&lt;a href="https://cloud.google.com/titanium?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Titanium&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; インフラストラクチャと第 5 世代 &lt;/span&gt;&lt;a href="https://www.amd.com/en/products/processors/server/epyc/9005-series.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AMD EPYC™「Turin」プロセッサ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を組み合わせたもので、前世代の N2D と比較して、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ウェブサービス ワークロードのスループットが最大 3.5 倍&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;になります。N4D は、最大 96 個の vCPU と 768 GB の DDR5 メモリ、最大 50 Gbps のネットワーキング帯域幅、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/disks/hyperdisks?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; のバランス ストレージとスループット ストレージを備えた事前定義シェイプを提供します。N4D では、コンピューティングとストレージの両方で、厳格なインスタンス サイズ設定から脱却できます。&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/creating-instance-with-custom-machine-type?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム マシンタイプ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用して、vCPU の数とメモリ量を正確に個別に構成し、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/disks/hyperdisks?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用してディスク ストレージのパフォーマンスと容量を調整できます。これにより、コスト削減を総合的に実現できます。最も要求の厳しい汎用ワークロードには、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/c4d-vms-unparalleled-performance-for-business-workloads?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4D&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の一貫して高いパフォーマンスに N4D を組み合わせてお使いください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、ワークロードに最適化されたインフラストラクチャを提供し、あらゆるタスクに適切なリソースを利用できるようにします。特に、マルチティア オフロードとセキュリティ機能を備えた Titanium は、そのインフラストラクチャの基盤となっています。Titanium はネットワーキングとストレージの処理をオフロードして CPU を解放し、専用の SmartNIC がすべての I/O を管理するため、AMD EPYC コアをアプリケーション専用に確保できます。Titanium は、Google Cloud の垂直統合型スタックの一部です。このスタックは、サーバーのカスタム シリコンから、42 のリージョンにわたって 775 万キロメートルの陸上および海底ファイバーを横断する&lt;/span&gt;&lt;a href="https://cloud.google.com/about/locations?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;地球規模のネットワーク&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;まで、効率を最大化し、超低レイテンシと高帯域幅を世界規模でお客様に提供するように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;コスト パフォーマンスの新たな基準&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4D マシンシリーズは、前世代の N2D を上回るだけでなく、汎用コンピューティング ワークロードで&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;最大 50% 高い費用対効果&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、Java ワークロードで&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;最大 70% 高い費用対効果 &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を実現しています。ウェブサービス ワークロードの場合、N4D は Titanium と AMD の Turin プロセッサを活用して、驚異的なスループットを実現します。これにより、N2D と比較して&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;最大 3.5 倍の費用対効果&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;が得られ、応答時間が短縮され、エンドユーザーのエクスペリエンス全体が向上します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_2hTLTQA.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="4x0iy"&gt;2025 年 10 月時点パフォーマンスは、本番環境で実行された SPECrate®2017_int_base、SPECjbb2015、Google 内部 Nginx リバース プロキシ ベンチマークの推定スコアに基づく。Google Cloud の公開されている正規料金と推定正規料金に基づく費用対効果に関する主張。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Chronosphere.max-1000x1000.jpg"
        
          alt="Chronosphere"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「エッジ プロキシフリートと社内データ パイプラインでは、Google Cloud の N4D インスタンスは N2D と比較して&lt;/i&gt; &lt;b&gt;&lt;i&gt;パフォーマンスが 3 ～ 4 倍&lt;/i&gt;&lt;/b&gt;&lt;i&gt;向上しました。また、当社のベンチマークでは、N4D は同じワークロードを処理する際に、CPU 使用率がごくわずかであるにもかかわらず、一貫性が大幅に向上しています。この価格パフォーマンスの飛躍により、汎用ワークロードを効率的にスケーリングできるようになり、当社が活用しているより具体的な Google コンピューティング プロダクトと並んで、フリートにぴったりと収まります。」&lt;/i&gt; - Chronosphere、技術スタッフ メンバー、Matt Schallert 氏&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/MediaGo.max-1000x1000.jpg"
        
          alt="MediaGo"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「&lt;/i&gt; &lt;b&gt;&lt;i&gt;スループットが 10% 向上し、費用が最大 50%削減&lt;/i&gt;&lt;/b&gt;&lt;i&gt; されたことは、TCO の最適化において大きな成果です。Google Cloud の N4D マシンシリーズで実現したのがまさにそれです。MediaGo にとって、この効率性は非常に重要です。これにより、AI を活用した広告プラットフォームをより費用対効果の高い方法でスケールできるようになり、グローバル パートナーの ROI を最大化するという当社のミッションを直接的にサポートしています。」&lt;/i&gt;- MediaGo&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/phoronix.max-1000x1000.jpg"
        
          alt="phoronix"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「N2D から N4D への移行は、世代を大きく飛躍させるものです。&lt;/i&gt;&lt;b&gt;&lt;i&gt; 152 件のテストで 144.14% のパフォーマンス向上&lt;/i&gt;&lt;/b&gt;&lt;i&gt;は、Google の Titanium が新しい AMD EPYC「Turin」プロセッサの可能性を最大限に引き出したことを証明しています。Google Cloud で最高の費用対効果を求めるお客様にとって、N4D インスタンスは明らかに最良の選択肢です。」&lt;/i&gt;- Phoronix、創設者 / 主執筆者、Michael Larabel 氏（調査の全文は&lt;a href="https://www.phoronix.com/review/google-cloud-n4d-amd-epyc-turin"&gt;こちら&lt;/a&gt;をご覧ください）&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/amd_LIvoHWP.max-1000x1000.jpg"
        
          alt="amd"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「新しい N4D インスタンスのリリースにより、Google Cloud は&lt;/i&gt; &lt;b&gt;&lt;i&gt;第 5 世代 AMD EPYC プロセッサをベースとした最も包括的なポートフォリオ&lt;/i&gt;&lt;/b&gt;&lt;i&gt;を提供できるようになり、戦略的パートナーシップにおける重要なマイルストーンを達成しました。N4D マシンシリーズは、AMD CPU の優れたパフォーマンスと Google のカスタム マシンタイプの独自性を組み合わせることで、日常的なワークロードの費用対効果、柔軟性、費用最適化を大幅に向上させます。Google のベンチマーク テストでこのことが確認されており、メディアのエンコードとトランスコードのワークロードでは、前世代の N2D マシンシリーズと比較して、パフォーマンスが最大 75% 向上しています。」&lt;/i&gt;- AMD、クラウド ビジネス グループ担当シニア ディレクター Ryan Rodman 氏&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;C4D マシンシリーズを補完&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今年初めには、N4D と同じ基盤プロセッサ上に構築された汎用 &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/c4d-vms-unparalleled-performance-for-business-workloads"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4D マシンシリーズ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を導入しました。一貫して高いパフォーマンスと、高度なメンテナンス サポート、より大きなシェイプ、次世代の Titanium ローカル SSD などのエンタープライズ機能を備えた C4D は、重要なワークロードに最適です。実際、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/c4d-vms-unparalleled-performance-for-business-workloads?e=48754805#:~:text=%E2%80%9CSilk%20has%20tested,D%20Officer%2C%20Silk"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Silk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/c4d-vms-unparalleled-performance-for-business-workloads?e=48754805#:~:text=%22We%20are%20constantly,Engineer%2C%20Chess.com"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Chess.com&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; などのお客様は、前世代と比較して C4D で 40% 以上のパフォーマンス向上を報告しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;しかし、重要なアプリケーションは、全体像の一部にすぎません。最新のクラウド アーキテクチャでは、柔軟性と費用対効果が重要な無数の汎用ワークロードも実行する必要があります。そのため、C4D を補完するものとして N4D を設計しました。C4D と N4D を併用することで、エンタープライズ機能、パフォーマンス、柔軟性、費用最適化の全範囲が利用可能になり、以下を選択できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;C4D で一貫したパフォーマンスを実現:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; これは、最も要求が厳しく、レイテンシの影響を受けやすいアプリケーション向けのソリューションです。最大 200 Gbps のネットワーキング、ローカル SSD のサポート、最大 384 個の vCPU を備えた大型シェイプ、ベアメタル オプションにより、C4D は大規模データベース、高トラフィックの広告サーバーとゲームサーバー、要求の厳しい AI/ML 推論ワークロードに対して、予測可能なハイエンドのパフォーマンスを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;N4D で柔軟な費用最適化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; これは、汎用ワークロードの大部分を処理するエンジンです。N4D は、優れた費用対効果、低コスト、柔軟性を備えており、ウェブサーバー、マイクロサービス、開発環境などのアプリケーションの TCO を大幅に削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このアプローチはすでに実際の成果を上げており、Verve のようなお客様はビジネスを両面から最適化できるようになっています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/verve.max-1000x1000.jpg"
        
          alt="verve"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;「&lt;i&gt;Google の第 4 世代 AMD ポートフォリオにより、収益と費用の両方を同時に最適化できます。&lt;/i&gt;&lt;b&gt;&lt;i&gt;C4D は、コア広告サーバーに必要な一貫したピーク パフォーマンスを提供します&lt;/i&gt;&lt;/b&gt; &lt;i&gt;。C3D より 81% 高速で、これにより、フィルレート（入札とリクエストのマッチングの成功）が向上し、収益が直接的に増加します。一方、&lt;/i&gt; &lt;b&gt;&lt;i&gt;N4D は、GKE を使用したスケールアウト マイクロサービスなどの日常的なワークロードにおいて、N2D の 2 倍のパフォーマンスと費用対効果を実現&lt;/i&gt;&lt;/b&gt;&lt;i&gt;し、全体的な TCO を削減しながら成長を可能にしています。この「Better Together」戦略により、ミッション クリティカルなサービスには C4D の一貫したピーク パフォーマンスを使用し、柔軟で費用対効果の高い N4D を他のすべての場所で使用して TCO を積極的に削減できます。これは、他の場所で単一の VM タイプを使用するだけでは不可能なレベルの最適化です。」- Verve、プリンシパル システム エンジニア、Pablo Loschi 氏&lt;/i&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;カスタム マシンタイプと Hyperdisk の利点&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;カスタム マシンタイプは、Google Cloud の重要な差別化要因であり、事前定義された「標準サイズ」を超えた構成が可能です。ワークロードを無理やり枠に押し込むのではなく、ワークロードのニーズに合わせてインフラストラクチャを調整できるため、費用を節約できます。たとえば、16 個の vCPU と 70 GB の RAM を必要とするメモリ集約型のワークロードは、通常、事前定義された N4D-highmem-16 シェイプに配置されるため、未使用のリソースに対して料金を支払うことになります。CMT を使用すると、正確に 16 vCPU と 70 GB の構成をプロビジョニングできるため、無駄をなくし、最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;17% の費用削減&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最大 96 個の vCPU と 768 GB の DDR5 メモリを備えたシェイプで、カスタム マシンタイプと N4D を組み合わせることで、柔軟な vCPU 対メモリ比と拡張メモリのサポートにより、必要なリソースを正確に調整できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/symbotic.max-1000x1000.jpg"
        
          alt="symbotic"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「Symbotic のビジョンは、規模と効率性を重視して構築された AI 搭載のロボット プラットフォームでグローバル サプライ チェーンに革命を起こすことです。そのためには、強力でスケーラブルなインフラストラクチャが必要です。AMD の最新の EPYC プロセッサを搭載した Google Cloud の N4D VM は、まさにそれを実現しました。以前の N2D 世代と比較して&lt;/i&gt; &lt;b&gt;&lt;i&gt;パフォーマンスが 40% も大幅に向上&lt;/i&gt;&lt;/b&gt; &lt;i&gt;したため、シミュレーションの速度や忠実度を変えることなく、&lt;/i&gt;&lt;b&gt;&lt;i&gt; CPU フットプリントを半分に&lt;/i&gt;&lt;/b&gt; &lt;i&gt;削減できました。これらのメリットをカスタム マシンタイプと組み合わせることができる&lt;/i&gt; &lt;i&gt;（Google Cloud 独自の機能）ことは、大きな変革をもたらします。これにより、&lt;/i&gt; &lt;b&gt;&lt;i&gt;ワークロードに合わせてインフラストラクチャを正確に構築&lt;/i&gt;&lt;/b&gt;&lt;i&gt; し、他のクラウド サービスと比較して TCO を大幅に削減できます。」&lt;/i&gt;- Symbotic、（CIO）最高情報責任者、Dan Inbar 氏&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このきめ細かい制御と TCO のメリットは、コンピューティングだけでなくストレージにも及びます。カスタム マシンタイプで固定された vCPU とメモリの比率から解放されるのと同様に、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/disks/hyperdisks?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; ではストレージのパフォーマンスと容量が分離されるため、容量とパフォーマンスを個別に調整して、ワークロードのブロック ストレージ要件に正確に合わせることができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Hyperdisk Balanced ボリュームの &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/storage-data-transfer/hyperdisk-storage-pools-is-now-generally-available?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk ストレージ プール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;により、この機能がさらに強化されています。これにより、各ボリュームを個別に管理するのではなく、パフォーマンスと容量をまとめてプロビジョニングできます。その結果、管理が簡素化され、効率が向上し、SAN ワークロードのモダナイズが容易になります。これらすべてが、ストレージの TCO を &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/storage-data-transfer/hyperdisk-storage-pools-is-now-generally-available?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;30 ～ 50%&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; 削減するのに役立ちます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;N4D を今すぐ利用開始&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最新の N4D VM シリーズの導入は簡単です。特に、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Kubernetes Engine（GKE）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;では、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/adopt-new-vm-series-with-gke-compute-classes-flexible-cuds?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム コンピューティング クラス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;によって、ワークロードを新しいハードウェアに移行する際の運用上のハードルが解消されます。VM タイプの優先順位付きリストに N4D を追加するだけで、ワークロードに必要なパフォーマンスとスケーリングの柔軟性を確保できます。N4D は現在、us-central1（アイオワ）、us-east1（サウスカロライナ）、us-west1（オレゴン）、us-west4（ラスベガス）、europe-west1（ベルギー）、europe-west4（オランダ）でご利用いただけます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最新の提供状況については、&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/regions-zones#available"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;リージョンとゾーンのページ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご確認のうえ、&lt;/span&gt;&lt;a href="https://console.cloud.google.com/"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud コンソール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;または GKE から最初のインスタンスを今すぐデプロイしてみてください。N4D の詳細については、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/general-purpose-machines#n4d_series"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;1. 9xx5C-044 - 2025 年 10 月 21 日時点の AMD パフォーマンス ラボによるテスト。N4D-standard-16 のスコアと、Ubuntu24.04LTS OS（6.8.0-1021-gcp カーネル、SMT オン）で FFmpeg v6.1.1 ベンチマーク（エンコード 2 回とトランスコード 2 回の平均）を実行した N2D-standard-16 のスコアの比較。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;パフォーマンスの向上（N2D に正規化）:&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Ffmpeg_raw_vp9                   1.76&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Ffmpeg_h264_vp9                1.76&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Ffmpeg_raw_h264                1.71&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Ffmpeg_vp9_h264                1.76&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;FFmpeg 平均                   1.75&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;提示されているクラウドのパフォーマンス結果は、各構成のテスト日に基づいています。結果は、基盤となる構成の変更や、VM とそのリソースの配置、クラウド サービス プロバイダによる最適化、アクセスされたクラウド リージョン、テナント、システムで同時に実行された他のワークロードのタイプなどの他の条件によって異なる場合があります。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Sarthak Sharma &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 08 Dec 2025 00:10:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/n4d-vms-based-on-amd-turin-now-ga/</guid><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>N4D の一般提供を開始: スケールアウト型ワークロードのコスト パフォーマンスが最大 3.5 倍に</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/n4d-vms-based-on-amd-turin-now-ga/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Sarthak Sharma</name><title>Product Manager</title><department></department><company></company></author></item><item><title>Axion C4A メタルを発表: 特殊なユースケース向けの Arm ベースの Axion インスタンス</title><link>https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 7 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、Google Axion プロセッサで実行される初のベアメタル インスタンスである C4A メタルが、まもなくプレビュー版として提供されることをお知らせいたします。C4A メタルは、ハードウェアへの直接アクセスと Arm® ネイティブの適合性を必要とする特殊なワークロード向けに設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Android 開発、自動車シミュレーション、CI/CD パイプライン、セキュリティ ワークロード、カスタム ハイパーバイザなどの環境を実行している組織は、ネストされた仮想化のパフォーマンス オーバーヘッドや複雑さを気にすることなく、Google Cloud でこれらの環境を実行できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;他の Axion インスタンスと同様に、C4A メタルインスタンスは標準の Arm アーキテクチャ上に構築されているため、Arm 向けにコンパイルされたアプリケーションとオペレーティング システムは、クラウド、オンプレミス、エッジ環境間で移植可能なので、開発投資を保護します。C4A メタルは、96 個の vCPU、768 GB の DDR5 メモリ、最大 100 Gbps のネットワーキング帯域幅を提供し、Hyperdisk Balanced、Extreme、Throughput、ML ブロック ストレージ オプションを含む Google Cloud Hyperdisk を完全にサポートします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、ワークロードに最適化されたインフラストラクチャを提供し、あらゆるタスクに適切なリソースを提供します。&lt;/span&gt;&lt;a href="https://cloud.google.com/products/axion?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud Axion 仮想マシン ファミリー&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;などの C4A メタルは、&lt;/span&gt;&lt;a href="https://cloud.google.com/titanium?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Titanium&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を搭載しています。Titanium は、Google のインフラストラクチャの基盤となる多層オフロードとセキュリティの重要なコンポーネントです。Titanium のカスタム設計された半導体デバイスは、ネットワーキングとストレージの処理をオフロードして CPU の負担を軽減し、専用の SmartNIC がすべての I/O を管理するため、Axion コアはアプリケーションのパフォーマンスだけに確保されます。Titanium は、Google Cloud の垂直統合型ソフトウェア スタックの一部です。このスタックは、サーバー内のカスタム半導体デバイスから、42 のリージョンにまたがる &lt;/span&gt;&lt;a href="https://cloud.google.com/about/locations?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;775 万キロメートルの陸上、海底ファイバー&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を結ぶ地球規模のネットワークまで、効率を最大化し、超低レイテンシと高帯域幅を全世界でお客様に提供するように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;自動車ワークロードのアーキテクチャ パリティ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;自動車業界のお客様は、インフォテインメントや先進運転支援システム（ADAS）などの車載システムで、Arm アーキテクチャのパフォーマンス、効率性、柔軟な設計を活用できます。Axion C4A メタル インスタンスは、テスト環境と本番環境の半導体デバイス間のアーキテクチャのパリティを実現します。これにより、自動車テクノロジー プロバイダは、本番環境の電子制御ユニット（ECU）で使用されているのと同じ Arm Neoverse 命令セット アーキテクチャ（ISA）でソフトウェアを検証できます。これにより、最終段階での統合で障害の起こるリスクが大幅に軽減されます。パフォーマンスが重要なタスクにも、物理ハードウェアの一貫した低レイテンシのパフォーマンスで、要求の厳しい仮想ハードウェア インザループ（vHIL）シミュレーションを実行し、テスト結果の信頼性と精度を確保できます。最後に、C4A メタルを使用すると、プロバイダはテストファーム全体を動的にスケーリングし、固定資本支出から柔軟な運用支出に変換することで、物理ラボの制約を超えることができます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_nDU2gjP.max-1000x1000.jpg"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="clg9v"&gt;&lt;i&gt;「この AI 定義車両の時代では、ペースの加速とテクノロジーの複雑さのために、ソフトウェア開発に対する従来の線形アプローチを再考せざるを得なくなっています。Google Cloud が Axion C4A メタルを導入したことは、この流れにおける大きな一歩です。テスト環境と物理的な半導体デバイスの間で Arm 上のアーキテクチャの完全なパリティを提供することで、お客様は開発サイクルの加速というメリットを享受でき、さまざまに特化したユースケースで継続的インテグレーションとコンプライアンスを実現できます。」&lt;/i&gt;- &lt;b&gt;Arm、自動車ビジネス担当シニア バイス プレジデント兼ゼネラル マネージャー Dipti Vachani 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/qnx.max-1000x1000.jpg"
        
          alt="qnx"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="clg9v"&gt;&lt;i&gt;「当社のパートナー様とお客様は、高度な運転支援システムからデジタル コックピットまで、最もミッション クリティカルなシステムに必要な安全性、セキュリティ、信頼性、リアルタイム パフォーマンスを実現するために QNX を利用しています。ソフトウェア定義車両の時代が勢いを増すにつれ、ソフトウェア開発を物理的なハードウェアから切り離すことはもはや単なる選択肢ではなく、大規模なイノベーションに不可欠なものとなっています。Google Cloud の Axion 上の C4A-metal インスタンスのリリースは、強力な ARM ベースのベアメタル プラットフォームの導入であり、自動車エコシステムに革新的なクラウド インフラストラクチャのメリットをもたらすため、当社はこれをテストし、サポートすることを熱望しています。」-&lt;/i&gt; &lt;b&gt;QNX、プロダクトおよび戦略担当シニア バイス プレジデント、Grant Courville 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/qualcomm.max-1000x1000.jpg"
        
          alt="qualcomm"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="clg9v"&gt;&lt;i&gt;「自動車モビリティの未来には、実践と開発において前例のないスピードと精度が求められます。Snapdragon Digital Chassis プラットフォームを活用する自動車メーカーやサプライヤーにとって、クラウド開発環境とテスト環境を車両内の Snapdragon SoC と同等に保つことは、効率と品質を確保するうえで非常に重要です。Google Cloud がこの分野に力を入れていることを嬉しく思います。Axion を搭載した C4A-metal インスタンスの提供は大きな前進であり、自動車エコシステムにクラウド内に物理環境と仮想環境間の真の 1:1 の環境を提供します。この画期的な技術により、統合の課題が大幅に軽減され、検証時間が短縮されるため、パートナー様は AI を活用した機能を大規模で迅速に市場に投入できます。」&lt;/i&gt;- &lt;b&gt;Qualcomm Technologies, Inc.、プロダクト管理担当バイス プレジデント、Laxmi Rayapudi 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Android 開発でテストと本番環境を一致させる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Android プラットフォームは、ほぼすべてのモバイル デバイスの標準である Arm ベースのプロセッサ向けに構築されています。Android デベロッパーは、C4A メタルを備えた Axion プロセッサのベアメタル インスタンスで開発とテストのパイプラインを実行することで、ネイティブ パフォーマンスのメリットを享受できます。これにより、命令ごとの翻訳レイヤの遅延など、エミュレーション管理のオーバーヘッドが排除されます。さらに、Android ビルドツールチェーンと自動テストシステムのレイテンシを大幅に削減し、フィードバック サイクルを短縮できます。また、C4A メタルはネストされた仮想化のパフォーマンスに関する課題も解決するため、スケーラブルな Cuttlefish（Cloud Android）環境に最適なプラットフォームとなります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これが使えるようになると、開発者は &lt;/span&gt;&lt;a href="https://github.com/googlecloudplatform/horizon-sdv" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Horizon の今後のリリース&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;で、または &lt;/span&gt;&lt;a href="https://github.com/google/cloud-android-orchestration/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Android Orchestration&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を直接利用して、スケーラブルな Cuttlefish 環境ファームを C4A メタルインスタンス上にデプロイできます。C4A メタルでは、これらの仮想デバイスを物理ハードウェア上で直接実行できるため、真の継続的テストのために大規模で忠実度の高いテストファームを構築、管理するために必要なパフォーマンスが提供されます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;妥協のないベアメタル アクセス&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;クラウド サービスとして、C4A メタルでは、物理ハードウェアの調達と管理のライフサイクル全体を予測可能な運用費用に置き換えますので、総所有コストを削減できます。これにより、サーバーの購入に伴う直接的な設備投資が不要になり、ハードウェアのメンテナンス契約、電力、冷却、物理的なデータセンターのスペースに関連する運用コストも不要になります。テストの需要に正確に一致するようにインスタンスをプログラムでプロビジョニングし、またプロビジョニング解除できるため、開発サイクルのピークを待機しているだけの過剰にプロビジョニングされたサーバーフリートに対して料金を支払う必要がなくなります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Virtual Private Cloud（VPC）内の標準的なコンピューティング リソースとして動作する C4A メタルインスタンスは、仮想マシンと同じセキュリティ ポリシー、監査ログ、ネットワーク制御を継承して活用します。インスタンスは、ツールチェーンからは物理サーバーのように見えるように設計されており、一般的なモニタリング エージェントとセキュリティ エージェントをサポートしているため、既存の Google Cloud 環境と簡単に統合できます。この統合はストレージにも及び、ここではネットワーク接続された Hyperdisk を使用すると、チームが仮想マシン フリートですでに使用しているのと同じスナップショットとサイズ変更ツールを使用して、永続ディスクを管理できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/chainguard.max-1000x1000.jpg"
        
          alt="chainguard"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="clg9v"&gt;&lt;i&gt;「当社のビルドシステムでは、真の分離が最重要事項です。Google Cloud の新しい C4A メタルインスタンスを Axion で実行することで、ビルドのパフォーマンスを損なうことなく、強力なハイパーバイザ セキュリティ境界でパッケージ ビルドを分離できます。」&lt;/i&gt;- &lt;b&gt;Chainguard, Inc.、創業者兼 CTO、Matthew Moore 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;連携のメリット: Axion C シリーズと N シリーズ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Arm ベースの Axion ポートフォリオに C4A メタルが加わったことで、お客様はあらゆるワークロードに適切なインフラストラクチャをマッチングさせ、総所有コストを削減できるようになりました。Axion &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/general-purpose-machines?hl=ja#c4a_series"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4A 仮想マシン&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は一貫して高いパフォーマンスを発揮できるよう最適化されており、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/axion-based-n4a-vms-now-in-preview"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;N4A 仮想マシン&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（現在プレビュー版）は費用対効果と柔軟性を最適化しています。一方、C4A メタルは、非仮想化 Arm 環境を必要とする特殊なアプリケーションによるハードウェアへの直接アクセスという重要なニーズに対応します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;たとえば、Android 開発企業は、ビルドファームに C4A 仮想マシンを使用することで、非常に効率的な CI/CD パイプラインを作成できます。大規模なテストでは、C4A メタルを使用して Cuttlefish 仮想デバイスを物理ハードウェア上で直接実行し、ネストされた仮想化のオーバーヘッドを排除できます。さらに忠実度を高めるために、C4A メタル上で Cuttlefish ハイブリッド デバイスを実行し、物理ハードウェアのシステム イメージを再利用できます。同時に、CI/CD オーケストレーターやアーティファクト リポジトリなどのサポート インフラストラクチャは、費用対効果の高い N4A インスタンスで実行できます。カスタム マシンタイプを使用してリソースを適正なサイズに調整し、運用費用を最小限に抑えることができます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;プレビュー版を近日提供予定&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;C4A メタルは近日中にプレビュー版がリリースされる予定です。早期アクセスとその他のアップデートに登録するには、&lt;/span&gt;&lt;a href="https://docs.google.com/forms/d/1iPfHMoGBHVDs_5zXohLCXjJWyEVASEjA2BZLqd3mtsI/edit#responses" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちらのフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;にご記入ください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google Cloud、プロダクト マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Yarden Halperin &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 25 Nov 2025 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm/</guid><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Axion C4A メタルを発表: 特殊なユースケース向けの Arm ベースの Axion インスタンス</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Yarden Halperin</name><title>Product Manager, Google Cloud</title><department></department><company></company></author></item><item><title>STAC Summit NYC での Google Cloud と AMD: 金融業界向けの H4D VM</title><link>https://cloud.google.com/blog/ja/topics/hpc/h4d-delivers-strong-performance-for-financial-services-workloads/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 10 月 23 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/topics/hpc/h4d-delivers-strong-performance-for-financial-services-workloads?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;資本市場では、低レイテンシと高パフォーマンスを求める競争が絶え間なく続いています。そのため、Google Cloud は 10 月 28 日（火）に開催される &lt;/span&gt;&lt;a href="https://stacresearch.com/events/fall2025nyc/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;STAC Summit NYC&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; に参加し、AMD と提携します。両社が力を合わせ、リアルタイムのリスク分析からアルゴリズム取引まで、金融サービス業界で最も要求の厳しいワークロードに、両社のイノベーションを組み合わせることでどのように対処できるかをご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;金融サービス向けの H4D VM&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google のサービスの中核をなすのは、第 5 世代 AMD EPYC プロセッサ（コードネーム Turin）を搭載した &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/new-h4d-vms-optimized-for-hpc?e=0&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud H4D VM&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; で、現在プレビュー版が提供されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;金融業界は、1 ミリ秒が勝敗を分ける超高速の世界です。H4D VM シリーズは、高頻度取引（HFT）、バックテスト、市場リスク シミュレーション（モンテカルロなど）、デリバティブの価格設定に必要な優れたパフォーマンスを実現するために構築されています。コア間の優れた通信速度と効率性、大容量のメモリ、最適化されたネットワーク スループットを備えた H4D シリーズは、複雑な計算をより高速に実行し、シミュレーション時間を短縮し、最終的には競争力を高めるように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;H4D: 金融ワークロードに優れたパフォーマンス&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;世代間のパフォーマンス向上を定量化するために、AMD にパフォーマンス テストを委託しました。&lt;/span&gt;&lt;a href="https://github.com/KxSystems/nano" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;KX Nano オープンソース &lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; ベンチマークを使用して、新しい H4D VM と前世代の C3D VM（第 4 世代 AMD EPYC プロセッサを搭載）を直接比較しました。このベンチマーク ユーティリティは、kdb+ データベースのデータ オペレーションを実行するシステムの CPU、メモリ、I/O の生のパフォーマンスをテストするように設計されています。これらの高性能な列ベースの時系列データベースは、投資銀行やヘッジファンドなどの大手金融機関で、株式市場の取引や相場などの大量の時系列データを処理するために広く使用されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;その結果、H4D シリーズでは&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;すぐに使える状態で大幅なパフォーマンス向上&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;が実証されました。追加のシステム チューニングなしで、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; H4D VM はすべての KX Nano テスト シナリオで C3D VM を平均約 34% 上回りました&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Scenario1.max-1000x1000.png"
        
          alt="Scenario1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="cbtjk"&gt;図 1: コアあたりのキャッシュ依存型オペレーション（シナリオ 1）では、H4D が世代間の優位性を示し、すべてのテストタイプでパフォーマンスが約 1.36 倍向上しました。これにより、主要な財務モデリング機能におけるコア間の通信速度と効率、メモリ レイテンシの優位性が確認されました。*1&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Scenario2.max-1000x1000.png"
        
          alt="Scenario2"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="cbtjk"&gt;図 2: プロセッサ数を最大コア数に設定し、スレッドごとに 1 つの kdb ワーカーを設定したマルチコア スケーラビリティ（シナリオ 2）では、すべてのテストタイプで約 1.33 倍のパフォーマンス向上を実現しました。これは、利用可能なすべてのコアで並列処理を行う H4D の優れた能力を示しています。*2&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Scenario3.max-1000x1000.png"
        
          alt="Scenario3"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="cbtjk"&gt;図 3: kdb+ インスタンスあたり 8 スレッド、コアあたり 1 スレッドの、同時実行の多いマルチスレッド ワークロード（シナリオ 3）の場合、H4D は大幅な優位性を維持し、すべてのテストタイプで約 1.33 倍の相対的な向上を実現しました。*3&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらのベンチマーク結果は、H4D VM が最も要求の厳しい低レイテンシのワークロードを高速化するように構築されており、高頻度取引、リスク シミュレーション、定量分析に必要なパフォーマンスを提供することを示しています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;あらゆる金融サービス ソリューション&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;H4D VM は、来週火曜日に開催される STAC Summit で Google Cloud と AMD の大きなハイライトとなるでしょう。また、金融機関向けの幅広いソリューションも展示します。データ ストレージから高度なコンピューティングまで、技術スタック全体を最適化する方法について、ぜひご相談ください。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/blog/ja/topics/hpc/announcing-new-ibm-spectrum-symphony-hostfactory-connectors?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;IBM Symphony GCE および GKE コネクタ&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ジョブを Compute Engine または Google Kubernetes Engine（GKE）にバーストすることで、既存の Platform Symphony グリッド コンピューティング環境を拡張および管理する方法をご確認ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/products/managed-lustre?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Managed Lustre&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 運用上のオーバーヘッドなしで、最も要求の厳しい HPC および定量的ワークロード向けに、極めて高いパフォーマンスのファイル ストレージを利用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/gpu?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;GPU&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; と &lt;/strong&gt;&lt;a href="https://cloud.google.com/tpu?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;TPU&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google の強力なアクセラレータが ML、AI、リスク分析タスクを大幅に高速化する方法をご確認ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/managed-slurm-and-other-cluster-director-enhancements?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;マネージド Slurm を使用した Cluster Director&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 人気の Slurm ワークロード マネージャーとの統合により、HPC クラスタ ワークロードを簡単にデプロイ、管理できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;エキスパートに相談しよう&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;金融サービスにおいて、パフォーマンス・セキュリティ・コンプライアンスが妥協できない要素であることを、私たちは理解しています。当日は、皆さまが直面している具体的な課題について議論し、Google Cloud がAMDとのパートナーシップを通じて、企業が革新と成長を実現するために必要な強力で高性能な基盤をどのように提供しているかをご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;10 月 28 日に開催される &lt;/strong&gt;&lt;a href="https://stacresearch.com/events/fall2025nyc/" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;STAC Summit NYC&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; の Google Cloud ブースと AMD ブースで皆様にお会いできることを楽しみにしております。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;-Annie Ma-Weaver、&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Cloud、グループ プロダクト マネージャー&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;-Anthony Frery、&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Cloud HPC、カスタマー エンジニア&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_RsToAkv.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_a8ogcdA.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_TVF43or.max-1000x1000.png"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;</description><pubDate>Tue, 18 Nov 2025 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/topics/hpc/h4d-delivers-strong-performance-for-financial-services-workloads/</guid><category>Compute</category><category>Financial Services</category><category>HPC</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>STAC Summit NYC での Google Cloud と AMD: 金融業界向けの H4D VM</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/topics/hpc/h4d-delivers-strong-performance-for-financial-services-workloads/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Annie Ma-Weaver</name><title>Group Product Manager, Google Cloud</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Anthony Frery</name><title>Customer Engineer, Google Cloud HPC</title><department></department><company></company></author></item><item><title>GKE で LLM の大規模な強化学習（RL）を実行する</title><link>https://cloud.google.com/blog/ja/products/compute/run-high-scale-rl-for-llms-on-gke/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 11 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/run-high-scale-rl-for-llms-on-gke?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模言語モデル（LLM）の進化に伴い、強化学習（RL）は、強力なモデルを人間の好みや複雑なタスクの目標に合わせるための重要な手法になりつつあります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;しかし、LLM の RL を実装してスケーリングする必要がある企業は、インフラストラクチャの課題に直面しています。主な課題としては、複数の大規模モデル（アクター、クリティック、報酬、参照モデルなど）を同時にホストすることによるメモリ競合、高レイテンシの推論生成における反復的な切り替え、そして高スループットのトレーニング フェーズが挙げられます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本ブログでは、カスタム TPU ハードウェアから GKE オーケストレーション層まで、Google Cloud のフルスタック統合アプローチを詳しく解説し、大規模 RL におけるハイブリッドかつ重要な要求への対応方法を紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;クイックガイド: LLM における強化学習（RL）&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;RL は、トレーニングと推論の両方の要素を組み合わせた継続的なフィードバック ループです。LLM の RL ループの概要は次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;LLM が、指定されたプロンプトに対する回答を生成します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;「報酬モデル」（多くの場合、人間の好みに基づいてトレーニングされる）は、出力に定量的なスコア、つまり報酬を割り当てます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;RL アルゴリズム（例: DPO、GRPO）は、この報酬シグナルを使用して LLM のパラメータを更新し、そのポリシーを調整して、その後のインタラクションでより高い報酬が得られる出力を生成します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この生成、評価、最適化により、事前定義された目標に基づいて LLM のパフォーマンスが継続的に向上します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;RL ワークロードはハイブリッドで循環的です。RL の主な目標は、エラーの最小化（トレーニング）や高速な予測（推論）ではなく、反復的なインタラクションを通じて報酬を最大化することです。RL ワークロードの主な制約は計算能力だけでなく、システム全体の効率性にもあります。具体的には、エンドツーエンドのステップ時間を効率化するために、サンプラー全体の合計レイテンシを最小限に抑え、重みのコピー速度を最大化することが求められます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Cloud の RL に対するフルスタック アプローチ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;システム全体の課題を解決するには、統合的なアプローチが必要です。高速なハードウェアや優れたオーケストレーターだけでは不十分で、スタックのすべてのレイヤが連携する必要があります。RL の特定のニーズを解決するために構築された Google のフルスタック アプローチは次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. 柔軟で高性能なコンピューティング（TPU と GPU）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; お客様を 1 つのパスに固定するのではなく、2 つの高性能オプションを提供します。Google の&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU スタック&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;は、垂直統合された JAX ネイティブのソリューションです。行列演算に優れたカスタム ハードウェアが、ポストトレーニング ライブラリ（MaxText と Tunix）と共同設計されています。並行して、Google は &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA GPU エコシステム&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を全面的にサポートし、最適化された NeMo RL レシピについて NVIDIA と提携しているため、お客様は既存の専門知識を GKE で直接活用できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. 包括的なフルスタックの最適化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ベアメタルから上位レイヤまで最適化を統合します。これには、Google のカスタム TPU アクセラレータ、高スループット ストレージ（Managed Lustre、Google Cloud Storage）、そして何よりも重要な GKE が提供するオーケストレーションとスケジューリングが含まれます。スタック全体を最適化することで、ハイブリッド RL ワークロードのボトルネックとなる&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;システム全体の&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;レイテンシに対処できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;3. オープンソースのリーダーシップ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; RL インフラストラクチャは複雑で、幅広いツール上に構築されています。Google のリーダーシップは、Kubernetes のオープンソース化から始まり、Ray などのオーケストレーターとの積極的なパートナーシップにまで及んでいます。Google は、vLLM などの主要なプロジェクトに貢献し、費用対効果の高いサービングのための llm-d などのオープンソース ソリューションを開発し、独自の高性能 MaxText および Tunix ライブラリをオープンソース化しています。これにより、単一のベンダーのツールだけでなく、作業に最適なツールを統合できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;4. 実績のあるメガスケールのオーケストレーション:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; トレーニング後の RL には、事前トレーニングに匹敵するコンピューティング リソースが必要になる場合があります。これには、大規模な分散ジョブを単一のユニットとして管理できるオーケストレーション レイヤが必要です。GKE AI メガクラスタは現在最大 65,000 ノードをサポートしており、Google は単一クラスタの制限を超えて RL ワークロードをスケーリングするために、MultiKueue などのマルチクラスタ ソリューションに多額の投資を行っています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE で RL ワークロードを実行する&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;既存の GKE インフラストラクチャは、要求の厳しい RL ワークロードに最適であり、インフラストラクチャ レベルでさまざまな効率性を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以下の画像は、RL を大規模に実装するためのアーキテクチャと主な推奨事項の概要を示しています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_HnbQkXW.max-1000x1000.png"
        
          alt="image1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="drc60"&gt;図 : RL を実行するための GKE インフラストラクチャ&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;基盤となるインフラストラクチャ レイヤは、サポートされているコンピューティング タイプ（CPU、GPU、TPU）などの基礎的なハードウェアを提供します。Run:ai モデル ストリーマーを使用すると、3 つのコンピューティング タイプすべてでモデル ストリーミングを高速化できます。高性能ストレージ（Managed Lustre、Cloud Storage）を RL のストレージ ニーズに使用できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;中間レイヤは、GKE を利用したマネージド K8s レイヤです。このレイヤは、リソースのオーケストレーション、リソースの入手可能性（Spot または Dynamic Workload Scheduler を使用）、自動スケーリング、プレースメント、ジョブのキューイングやスケジューリングなどにメガスケールで対応します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最後に、オープン フレームワーク レイヤが GKE 上で実行され、アプリケーションと実行環境が提供されます。これには、安全な分離されたタスク実行のための KubeRay、Slurm、gVisor サンドボックスなどのオープンソース ツールのマネージド サポートが含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;RL ワークフローの構築&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;RL ワークロードを作成する前に、まず明確なユースケースを特定する必要があります。目標を定義したら、アルゴリズム（DPO、GRPO など）、モデルサーバー（vLLM、SGLang など）、ターゲット GPU/TPU ハードウェア、その他の重要な構成を選択して、コア コンポーネントを設計します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;次に、Workload Identity、GCS Fuse、DGCM 指標で構成された GKE クラスタをプロビジョニングできます。堅牢なバッチ処理を行うには、Kueue と JobSet の API をインストールします。この GKE スタックの上にオーケストレーターとして Ray をデプロイすることをおすすめします。そこから、Nemo RL コンテナを起動し、GRPO ジョブ用に構成して、実行のモニタリングを開始できます。詳細な実装手順とソースコードについては、こちらの&lt;/span&gt;&lt;a href="https://github.com/AI-Hypercomputer/gpu-recipes/tree/main/RL/a4/recipes/qwen2.5-1.5b/nemoRL" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;リポジトリ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;RL のスタートガイド&lt;/strong&gt;&lt;/h3&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;GPU で RL を実行する&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: GRPO アルゴリズムで &lt;/span&gt;&lt;a href="https://maxtext.readthedocs.io/en/latest/tutorials/grpo_with_pathways.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;MaxText と Pathways&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用する場合は TPU で RL レシピを試し、GPU を使用する場合は &lt;/span&gt;&lt;a href="https://github.com/AI-Hypercomputer/gpu-recipes/tree/main/RL/a4/recipes" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NemoRL レシピ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をお試しください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;オープンソース エコシステムとの連携&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Google の AI におけるリーダーシップは、Kubernetes、llm-d、Ray、MaxText、Tunix などのオープン スタンダードの上に構築されています。Google と連携して、AI の未来を共に築きましょう。ぜひ llm‑d で開発にご協力ください。&lt;/span&gt;&lt;a href="https://llm-d.ai/docs/community" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;llm-d コミュニティ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;に参加し、GitHub のリポジトリをチェックして、オープンソース LLM サービスの今後の発展に貢献しましょう。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-シニア プロダクト マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Poonam Lamba &lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Bogdan Berce &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 14 Nov 2025 02:10:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/run-high-scale-rl-for-llms-on-gke/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>GKE で LLM の大規模な強化学習（RL）を実行する</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/run-high-scale-rl-for-llms-on-gke/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Poonam Lamba</name><title>Senior Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Bogdan Berce</name><title>Software Engineer</title><department></department><company></company></author></item><item><title>AI Hypercomputer の最新情報: TPU 上の vLLM など</title><link>https://cloud.google.com/blog/ja/products/compute/in-q3-2025-ai-hypercomputer-adds-vllm-tpu-and-more/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 10 月 21 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/in-q3-2025-ai-hypercomputer-adds-vllm-tpu-and-more?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;AI Hypercomputer&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、AI に最適化されたハードウェア、最先端のソフトウェア、柔軟な消費モデルを組み合わせて、あらゆる AI ワークロードへの効率的な対応を実現しています。Google は 3 か月ごとに、AI Hypercomputer に関する最新のニュース、リソース、イベント、学習機会などをまとめてご紹介しています。今回は、AI 活用をさらに迅速で効率的かつ有益なものにするための最新の開発状況をご紹介します。まずは、推論に関するグッドニュースから始めましょう。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_tgerSmN.max-1000x1000.png"
        
          alt="image1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;新しい vLLM TPU の発表&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_3jZRsm2.max-1000x1000.png"
        
          alt="image2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模言語モデル（LLM）を扱う ML 実務担当者にとって、優れた費用対効果を維持した推論ワークロードのサービングは究極の目標です。そこで、Google は今四半期最大のアップデートとして、業界をリードする Google Cloud TPU と JAX のパフォーマンスを、最も人気のあるオープンソース LLM 推論エンジンである vLLM にもたらすことを発表します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;vLLM TPU は、JAX と PyTorch を単一のランタイムで統合する、表現力豊かで強力な新しいハードウェア プラグインである &lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt; &lt;/span&gt;&lt;a href="http://tpu.vllm.ai/" rel="noopener" target="_blank"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;tpu-inference&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を搭載しています。前世代の vLLM TPU よりも高速であるだけでなく、&lt;/span&gt;&lt;a href="https://github.com/vllm-project/tpu-inference/blob/main/support_matrices/model_support_matrix.csv" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;より幅広いモデルをカバー&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（例: Gemma、Llama、Qwen）と&lt;/span&gt;&lt;a href="https://github.com/vllm-project/tpu-inference/blob/main/support_matrices/model_support_matrix.csv" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;機能サポート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;。vLLM TPU は、開発者が次のことを行うためのフレームワークです。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;オープンソースで TPU ハードウェアの&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;パフォーマンス&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;の限界を押し上げる&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;TPU 上で PyTorch モデル定義を高パフォーマンスで実行し、JAX のネイティブ サポートも拡張されたことで、JAX と PyTorch のユーザーに&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟性&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を提供。追加のコード変更は不要&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;vLLM の&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;標準化&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を維持: 同一のユーザー エクスペリエンス、テレメトリー、インターフェースを確保&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;現在、vLLM TPU は、2025 年 2 月にリリースした最初の TPU バックエンド プロトタイプよりも&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;パフォーマンスが大幅に向上&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;しており、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;モデルのサポート&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;と&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;機能の網羅率&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;が改善されています。この新しい基盤の整備により、わずかな構成変更だけで、オープンソース環境における TPU 推論性能をこれまで以上に引き出せるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;技術的な詳細については、vLLM の&lt;/span&gt;&lt;a href="https://blog.vllm.ai/2025/10/16/vllm-tpu.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;最新のブログ投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI ツールキットを拡充&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI Hypercomputer の追加アップデートにより、制御、分析情報、選択肢がさらに広がります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;改良された XProf プロファイラでボトルネックをより迅速に発見して修正&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;ML 開発において、パフォーマンスのデバッグは最も時間のかかる作業の一つです。これを簡単にするために、Google は XProf プロファイラを強化し、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/topics/developers-practitioners/supercharge-ml-performance-on-xpus-with-the-new-xprof-profiler-and-cloud-diagnostics-xprof-library?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;新しい Cloud Diagnostics XProf ライブラリ&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をリリースしました。これにより、JAX と PyTorch / XLA 全体で統合された高度なプロファイリング エクスペリエンスが提供され、これまで Google の社内チームだけが使っていた強力なツールでモデルのボトルネックを特定できます。パフォーマンスの問題の特定にかかる時間が短縮され、その分をイノベーションに投資できるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;オープンネスの実現: NVIDIA Dynamo の新しいレシピ&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、選択の原則に基づいて AI Hypercomputer を構築し、お客様が手元の作業に最適なツールを使用できるようにしたいと考えています。これを目的として、AI Hypercomputer の新しい &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/ai-inference-recipe-using-nvidia-dynamo-with-ai-hypercomputer?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA Dynamo を使用する AI 推論レシピ&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;では、GKE で管理される個別の GPU プールに「プリフィル」フェーズと「デコード」フェーズを分離し、分散型推論アーキテクチャをデプロイする方法を紹介しています。これは、Google のオープン アーキテクチャによって、エコシステム全体から最高水準のテクノロジーを組み合わせて複雑な課題を解決できることを示す強力なデモンストレーションです。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA NeMo RL で強化学習を加速&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;強化学習（RL）は、高度な推論を必要とする複雑な AI エージェントやワークフローに不可欠なトレーニング手法として急速に普及しています。強化学習でパフォーマンスの強化を目指すチーム向けに、Google Cloud で &lt;/span&gt;&lt;a href="https://docs.nvidia.com/nemo/rl/latest/index.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA NeMo RL&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使い始めるための再現性のある新しいレシピが提供されています。NeMo RL は、RL ワークロードに固有の複雑なスケーリングとレイテンシの課題に対処するために設計された高性能フレームワークです。このフレームワークでは、最適化された GRPO や PPO などの主要アルゴリズムにより、大規模モデルのトレーニングが容易になります。新しいレシピは、GKE と vLLM を使用した A4 VM（NVIDIA HGX B200 搭載）で実行され、&lt;/span&gt;&lt;a href="https://github.com/AI-Hypercomputer/gpu-recipes/tree/main/RL/a4/recipes/llama3.1-8b/nemoRL" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Llama 3.1 8B&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;a href="https://github.com/AI-Hypercomputer/gpu-recipes/tree/main/RL/a4/recipes/qwen2.5-1.5b/nemoRL" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Qwen2.5 1.5B&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; などのモデルの RL 開発サイクルを簡単に設定、スケーリングできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;費用対効果の高い方法で高パフォーマンスの推論をスケーリング&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;生成 AI アプリケーションの使いやすさは、リクエストに対する迅速な初期応答と、完了までのスムーズなレスポンス ストリーミングの両方に大きく依存します。LLM サービングを合理化して標準化するために、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/machine-learning/inference/inference-quickstart"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Quickstart&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/gke-inference-gateway-and-quickstart-are-ga?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;一般提供&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;が開始されました。Inference Gateway は、は、プレフィックス対応のロード バランシングなどの新機能により、シンプルなサービス提供を可能にします。これにより、繰り返しプロンプトを使用するワークロードのレイテンシが大幅に向上します。Inference Quickstart では、モデルに最適な費用対効果の高いハードウェアとソフトウェアの構成を見つけられるようになり、手動評価に数か月を費やす必要がなくなります。これらの新機能により、AI Hypercomputer のファースト トークンまでの時間（TTFT）と出力トークンあたりの時間（TPOT）が改善されました。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;包括的なシステムで未来を築く&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本日ご紹介した進歩（vLLM の TPU への導入から、高度なプロファイリングやサードパーティとの統合の実現まで）はすべて、AI Hypercomputer が次世代 AI の需要を満たすために常に進化するスーパーコンピューティング システムであるという考え方に基づいています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、Gemini のトレーニングから毎月数京のトークンの処理まで、運用で得た知見に基づいて、AI Hypercomputer を更新・最適化していきます。AI Hypercomputer を独自の AI ワークロードに使用する方法について詳しくは、&lt;/span&gt;&lt;a href="https://cloud.google.com/solutions/ai-hypercomputer"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。Google Cloud の&lt;/span&gt;&lt;a href="https://discuss.google.dev/c/google-cloud/cloud-build-ai/47" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;コミュニティ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;では、Google の進歩について最新情報を確認したり、質問することが可能です。また、&lt;/span&gt;&lt;a href="https://github.com/ai-hypercomputer" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GitHub&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; で拡張し続ける AI Hypercomputer リソース リポジトリにアクセスすることもおすすめします。AI Hypercomputer を構築のために活用していただければ幸いです。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-AI およびコンピューティング担当プロダクト マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Brittany Rockwell&lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-AI およびコンピューティング担当プロダクト戦略プリンシパル &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Kaan Akoz &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 11 Nov 2025 01:10:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/in-q3-2025-ai-hypercomputer-adds-vllm-tpu-and-more/</guid><category>AI Hypercomputer</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>AI Hypercomputer の最新情報: TPU 上の vLLM など</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/in-q3-2025-ai-hypercomputer-adds-vllm-tpu-and-more/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Brittany Rockwell</name><title>Product Manager, AI and Computing</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Kaan Akoz</name><title>Product Strategy Principal, AI and Computing</title><department></department><company></company></author></item><item><title>G4 VM の内部: マルチ GPU ワークロード向けのカスタムの高性能 P2P ファブリック</title><link>https://cloud.google.com/blog/ja/products/compute/g4-vms-p2p-fabric-boosts-multi-gpu-workloads/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 10 月 21 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/g4-vms-p2p-fabric-boosts-multi-gpu-workloads?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、NVIDIA RTX PRO 6000 Blackwell Server Edition GPU をベースとする &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/g4-vms-powered-by-nvidia-rtx-6000-blackwell-gpus-are-ga?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;G4 VM ファミリーの一般提供&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;が開始されました。Google Cloud 独自のプラットフォーム最適化により、G4 VM は、300 億未満から 1,000 億を超えるパラメータまで、幅広いモデルで推論とファインチューニングを行うための、市販されている NVIDIA RTX PRO 6000 Blackwell GPU の中で最高のパフォーマンスを実現します。このブログでは、これらのプラットフォーム最適化の必要性、仕組み、および独自の環境での使用方法について説明します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;集団のコミュニケーションのパフォーマンスが重要&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模言語モデル（LLM）は、パラメータ数によって特徴付けられるように、サイズが大きく異なります。小（約 70 億）、中（約 700 億）、大（約 3,500 億以上）です。LLM は、96 GB の GDDR7 メモリを搭載した NVIDIA RTX PRO 6000 Blackwell を含め、単一の GPU のメモリ容量を超えることがよくあります。一般的な解決策は、テンソル並列処理（TP）を使用することです。これは、個々のモデルレイヤを複数の GPU に分散することで機能します。これには、レイヤの重み行列をパーティショニングして、各 GPU が並列で部分的な計算を実行できるようにすることが含まれます。しかし、これらの部分的な結果を All-Gather や All-Reduce などの集団通信オペレーションを使用して結合する必要があるため、パフォーマンスのボトルネックが顕著になります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;G4 ファミリーの GPU 仮想マシンは、PCIe のみのインターコネクトを利用します。Google は、インフラストラクチャに関する豊富な専門知識を活用して、ピアツーピア（P2P）通信をサポートする高性能なソフトウェア定義の PCIe ファブリックを開発しました。重要なのは、G4 のプラットフォーム レベルの P2P 最適化により、マルチ GPU スケーリングを必要とするワークロードの集団通信が大幅に高速化されることです。これにより、LLM の推論とファインチューニングの両方が大幅に向上します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;G4 でマルチ GPU のパフォーマンスを加速する方法&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;マルチ GPU G4 VM シェイプは、カスタム ハードウェアとソフトウェアの両方を組み合わせることで、大幅に強化された PCIe P2P 機能を獲得します。この進歩により、GPU データ交換の管理のための All-to-All、All-Reduce、All-Gather コレクティブなどの集団通信が直接最適化されます。その結果、マルチ GPU 推論やファインチューニングなどの重要なワークロードでパフォーマンスが大幅に向上する、低レイテンシのデータパスが実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;実際、すべての主要なコレクティブで、強化された G4 P2P 機能により、コードやワークロードを変更することなく、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;最大 2.2 倍&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;の高速化が実現しています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/01_collective_communications.max-1000x1000.jpg"
        
          alt="01_collective_communications"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;G4 での P2P による推論パフォーマンスの向上&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;G4 インスタンスでは、強化されたピアツーピア通信により、特に vLLM を使用したテンソル並列推論において、マルチ GPU ワークロードのパフォーマンスが直接向上し、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;スループットが最大 168% 向上&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;トークン間レイテンシ（ITL）が最大 41% 低下 &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;モデル提供にテンソル並列処理を使用すると、特に標準の非 P2P サービスと比較して、こうした改善が見られます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/02_throughput.max-1000x1000.jpg"
        
          alt="02_throughput"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;同時に、G4 はソフトウェア定義の PCIe と P2P イノベーションを組み合わせることで、推論スループットを大幅に向上させ、レイテンシを短縮します。これにより、ビジネスニーズに合わせて推論デプロイを最適化できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/03_latency.max-1000x1000.jpg"
        
          alt="03_latency"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;スループットまたは速度: P2P を使用する G4 で選択可能&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;G4 VM のプラットフォーム レベルの最適化は、柔軟で強力な競争上の優位性に直接つながります。ユーザー エクスペリエンスが最重要となるインタラクティブな生成 AI アプリケーションの場合、G4 の P2P テクノロジーにより、トークン間のレイテンシが最大 41% 削減されます。これは、レスポンスの各部分を生成する間の重要な遅延です。これにより、エンドユーザー エクスペリエンスが明らかに高速化され、応答性が向上し、AI アプリケーションに対する満足度が高まります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;また、バッチ推論など、スループットが優先されるワークロードの場合、P2P を使用した G4 では、同等のサービスよりも最大 168% 多くのリクエストを処理できます。つまり、各モデル インスタンスで処理できるユーザー数を増やすか、AI アプリケーションの応答性を大幅に向上させることができます。レイテンシの影響を受けやすいインタラクションに重点を置く場合でも、大容量のスループットに重点を置く場合でも、G4 は市場の他の NVIDIA RTX PRO 6000 製品よりも優れた投資収益率を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;G4 と GKE Inference Gateway でさらに拡張&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;P2P は単一のモデルレプリカのパフォーマンスを最適化しますが、本番環境の需要を満たすためにスケールするには、多くの場合、複数のレプリカが必要になります。ここで &lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; が真価を発揮します。プレフィックス キャッシュ対応ルーティングやカスタム スケジューリングなどの高度な機能を使用して、モデルのインテリジェントなトラフィック マネージャーとして機能し、デプロイ全体でスループットを最大化し、レイテンシを大幅に削減します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;G4 の P2P の垂直スケーリングと推論ゲートウェイの水平スケーリングを組み合わせることで、最も要求の厳しい生成 AI アプリケーション向けに、非常に高いパフォーマンスと費用対効果を実現するエンドツーエンドのサービング ソリューションを構築できます。たとえば、G4 の P2P を使用すると、2 GPU の Llama-3.1-70B モデルレプリカを 66% 高いスループットで効率的に実行できます。その後、GKE Inference Gateway を使用して、これらのレプリカをインテリジェントに管理および自動スケーリングし、世界中のユーザーの需要に対応できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/04_inference_gateway.max-1000x1000.jpg"
        
          alt="04_inference_gateway"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;G4 P2P でサポートされる VM シェイプ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA RTX PRO 6000 Blackwell のピアツーピア機能は、以下のマルチ GPU G4 VM シェイプで利用できます。&lt;/span&gt;&lt;/p&gt;
&lt;div align="left"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;&lt;table&gt;&lt;colgroup&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;/colgroup&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;マシンタイプ&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;GPU&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ピアツーピア&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;GPU メモリ（GB）&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;vCPU&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ホストメモリ（GB）&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ローカル SSD（GB）&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;g4-standard-384&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;2&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;○&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;192&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;96&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;360&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;3,000&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;g4-standard-384&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;4&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;○&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;384&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;192&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;720&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;6,000&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;g4-standard-384&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;8&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;○&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;768&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;384&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;1,440&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;12,000&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;8 個未満の GPU を搭載した VM シェイプの場合、ソフトウェア定義の PCIe ファブリックにより、同じ物理マシン上の異なる VM に割り当てられた GPU 間のパスが分離されます。PCIe パスは VM の作成時に動的に作成され、VM シェイプに依存します。これにより、プラットフォーム スタックの複数のレベルで分離が確保され、同じ VM に割り当てられていない GPU 間の通信が防止されます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Pixel 4 で P2P を使ってみる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;G4 のピアツーピア機能はワークロードに対して透過的であり、アプリケーション コードや &lt;/span&gt;&lt;a href="https://developer.nvidia.com/nccl" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA Collective Communications Library&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（NCCL）などのライブラリに変更を加える必要はありません。すべてのピアツーピア パスは、VM の作成時に自動的に設定されます。NCCL ベースのワークロードでピアツーピアを有効にする方法について詳しくは、&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/accelerator-optimized-machines?hl=ja#g4-gpu-p2p"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;G4 のドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今すぐ Google Cloud コンソールから P2P を使用した &lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/accelerator-optimized-machines?hl=ja#g4-series"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud G4 VM&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をお試しください。GKE Inference Gateway を使用して推論プラットフォームの構築を開始できます。詳細については、Google Cloud セールスチームまたは販売パートナーにお問い合わせください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google、アクセラレータ ソフトウェア担当シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Cyrill Hug &lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google、ソフトウェア エンジニア &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Prashanth Prakash &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 11 Nov 2025 00:15:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/g4-vms-p2p-fabric-boosts-multi-gpu-workloads/</guid><category>AI &amp; Machine Learning</category><category>HPC</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>G4 VM の内部: マルチ GPU ワークロード向けのカスタムの高性能 P2P ファブリック</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/g4-vms-p2p-fabric-boosts-multi-gpu-workloads/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Cyrill Hug</name><title>Sr. Product Manager Accelerator Software, Google</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Prashanth Prakash</name><title>Software Engineer, Google</title><department></department><company></company></author></item><item><title>TPU「Ironwood」 の一般提供開始と推論時代を支える新しい Axion VM を発表</title><link>https://cloud.google.com/blog/ja/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 7 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の Gemini、Veo、Imagen、そして Anthropic の Claude など、今日の最先端モデルは Tensor Processing Unit（TPU）でトレーニングおよび提供されています。多くの組織において現在はモデルのトレーニングから、それらを用いた有用で応答性の高い対話を実現することへと焦点を移行しつつあります。絶えず変化するモデル アーキテクチャ、エージェント ワークフローの台頭、そして演算需要のほぼ指数関数的な成長が、この新しい&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;推論の時代&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を形作っています。特に、汎用コンピュートと機械学習のためのアクセラレータとの間のオーケストレーションと緊密な連携を必要とするエージェント ワークフローは、カスタム シリコンと垂直統合され最適化されたシステム アーキテクチャに新たな機会を生み出しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この変革に備え、本日、カスタム シリコンにて開発された 3 つの新製品の提供を発表します。推論とエージェント ワークロードに対して新しい機能を提供し、優れたパフォーマンスと低コストを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Ironwood：第 7 世代 TPU である Ironwood の一般提供を今後数週間で開始します。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood は、大規模なモデルトレーニングや複雑な強化学習（RL）から、大容量で低レイテンシの AI 推論やモデル提供まで、最も要求の厳しいワークロード専用に設計されています。第 5 世代と比較して、チップあたり10倍のピークパフォーマンス向上を実現し、前世代の第 6 世代の Trillium と比較して、トレーニングと推論の両ワークロードで チップあたり 4 倍以上のパフォーマンス向上を実現しており、当社で最も強力かつエネルギー効率に優れたカスタム シリコンです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;新しい Arm® ベースの Axion インスタンス：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;当社の N シリーズ仮想マシンで最もコスト効率に優れている &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;N4A&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; を、現在&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;プレビュー版&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;として提供しています。N4A は、同等の現世代 x86 ベースの VMと比較して最大 2 倍の価格性能を実現します。さらに、当社初の Arm ベースのベアメタル インスタンスである &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;C4A metal &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;も&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;近日中にプレビュー提供&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を開始します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-video"&gt;



&lt;div class="article-module article-video "&gt;
  &lt;figure&gt;
    &lt;a class="h-c-video h-c-video--marquee"
      href="https://youtube.com/watch?v=aQxcomQDHcw"
      data-glue-modal-trigger="uni-modal-aQxcomQDHcw-"
      data-glue-modal-disabled-on-mobile="true"&gt;

      
        

        &lt;div class="article-video__aspect-image"
          style="background-image: url(https://storage.googleapis.com/gweb-cloudblog-publish/images/Ironwood.max-1000x1000.jpg);"&gt;
          &lt;span class="h-u-visually-hidden"&gt;youtube video&lt;/span&gt;
        &lt;/div&gt;
      
      &lt;svg role="img" class="h-c-video__play h-c-icon h-c-icon--color-white"&gt;
        &lt;use xlink:href="#mi-youtube-icon"&gt;&lt;/use&gt;
      &lt;/svg&gt;
    &lt;/a&gt;

    
  &lt;/figure&gt;
&lt;/div&gt;

&lt;div class="h-c-modal--video"
     data-glue-modal="uni-modal-aQxcomQDHcw-"
     data-glue-modal-close-label="Close Dialog"&gt;
   &lt;a class="glue-yt-video"
      data-glue-yt-video-autoplay="true"
      data-glue-yt-video-height="99%"
      data-glue-yt-video-vid="aQxcomQDHcw"
      data-glue-yt-video-width="100%"
      href="https://youtube.com/watch?v=aQxcomQDHcw"
      ng-cloak&gt;
   &lt;/a&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood とこれらの新しい Axion インスタンスは、TPU、YouTube 向けの Video Coding Units（VCU）、モバイル向けの 5 世代にわたる Tensor チップなど、Google のカスタム シリコン イノベーションの長い歴史における最新の成果です。これらはいずれも、モデル研究、ソフトウェア、ハードウェア開発を一元的に行う深いシステム レベルの共同設計によってのみ可能となる、飛躍的なパフォーマンス向上を実現するために構築しました。このアプローチにより、10 年前に初の TPU を構築し、それが 8 年前 の Transformer の発明を可能にしました。Transformer は、現代の AI の根幹を支えるアーキテクチャとなっています。また、&lt;/span&gt;&lt;a href="https://cloud.google.com/titanium?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Titanium&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; アーキテクチャや、2020 年以来フリート全体稼働率が約 99.999% のギガワット規模で展開する高度な&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/topics/systems/enabling-1-mw-it-racks-and-liquid-cooling-at-ocp-emea-summit"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;液体冷却&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;といった最近の進歩にも影響を与えています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_E4cJ2SM.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="wdacc"&gt;3 つの Ironwood TPU が液体冷却に接続されている Ironwood ボード&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_BWW5xwl.max-1000x1000.jpg"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="wdacc"&gt;Ironwood スーパーポッドに液体冷却を提供する第 3 世代冷却分配ユニット&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Ironwood：モデル トレーニングから惑星規模の推論への最短経路&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood は発表直後から非常に大きな反響を呼んでいます。Anthropic は現在、大規模な Claude モデルのトレーニングから数百万のユーザーへの提供に至るまでのプロセスを加速させ、価格性能比が目覚ましく向上することを高く評価しています。実際、Anthropic は&lt;/span&gt;&lt;a href="https://www.googlecloudpresscorner.com/2025-10-23-Anthropic-to-Expand-Use-of-Google-Cloud-TPUs-and-Services" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;最大 100 万 TPU へのアクセスを計画&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;しています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Anthropic.max-1000x1000.jpg"
        
          alt="Anthropic"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="fembv"&gt;&lt;i&gt;「Fortune 500 企業からスタートアップまで、当社のお客様は最も重要な業務に Claude を活用しています。需要が指数関数的に増加し続ける中、当社は AI 研究と製品開発の限界に挑戦しながら、コンピューティング リソースを拡大しています。当社は、Ironwood で推論パフォーマンスとトレーニングのスケーラビリティの両方を効率的に向上させることで、お客様が期待するスピードと信頼性を維持しています。」&lt;/i&gt;&lt;b&gt;— Anthropic コンピューティング部門責任者 James Bradbury 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood は、あらゆる規模や業界の組織で利用されています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/lightricks.max-1000x1000.jpg"
        
          alt="lightricks"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="fembv"&gt;&lt;i&gt;「Lightricks のミッションは、オープンな創造性の最先端を確立することであり、それには摩擦やコストを大規模に排除する AI インフラストラクチャが必要です。当社は、Google Cloud TPU とその大規模な ICI ドメインを活用し、主要なオープンソース マルチモーダル生成モデルである LTX-2 において画期的なトレーニング効率を達成しました。推論時代を迎える今、Ironwood の初期テストの結果は非常に有望です。Ironwood により、世界中の数百万のお客様向けに、より繊細で精密、忠実度の高い画像および動画の生成を提供できると確信しています。」&lt;/i&gt;&lt;b&gt;— Lightricks 生成 AI 基盤モデル リサーチ ディレクター Yoav HaCohen 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/essential_ai.max-1000x1000.jpg"
        
          alt="essential ai"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="fembv"&gt;&lt;i&gt;「Essential AI の使命は、強力でオープンなフロンティアモデルを構築することです。私たちは大規模で効率的なスケールを必要としており、Google Cloud の Ironwood TPU はまさにそれを提供してくれます。このプラットフォームは非常に簡単に導入でき、当社のエンジニアはすぐにその能力を活用し、AI のブレークスルーを加速させることに集中できました。」&lt;/i&gt;&lt;b&gt;— Essential AI インフラストラクチャ リード Philip Monk 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;システム レベルの設計で推論パフォーマンス、信頼性、コストを最大化&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU は、コンピューティング、ネットワーキング、ストレージ、およびソフトウェアを統合し、システム レベルのパフォーマンスと効率を向上させる統合型スーパーコンピューティング システムである &lt;/span&gt;&lt;a href="https://cloud.google.com/solutions/ai-hypercomputer?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI Hypercomputer&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;の重要な要素です。最近の IDC のレポートによると、AI Hypercomputer を活用されているお客様は、平均して3 年間で 353% の ROI、28% の IT コスト削減、55% の IT チームの効率向上を達成しています。&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood TPU は、お客様が規模と効率の限界をさらに押し広げることを支援します。TPU をデプロイすると、システムは個々のチップをお互いで接続させ、単一ユニットとして機能する相互接続された TPU のグループであるポッドを作ります。Ironwood では、9.6 Tb/s の画期的な Inter-Chip Interconnect（ICI）ネットワーキングにより、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;単一のポッド内で最大 9,216 個のチップ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;まで拡張できます。この大規模な接続性により、数千のチップが相互に迅速に通信し、驚異的な 1.77 ペタバイトの共有 High Bandwidth Memory（HBM）にアクセスでき、最も要求の厳しいモデルでもデータ ボトルネックを克服します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_WZEo7he.max-1000x1000.png"
        
          alt="TPU"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="wdacc"&gt;単一ドメインで 9,216 個の Ironwood TPU を直接接続する Ironwood スーパーポッドの一部&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この規模のサービスは中断のない可用性が求められます。そのため、当社の Optical Circuit Switching（OCS）テクノロジーが動的で再構成可能なファブリックとして機能し、サービスの稼働を維持しながら、障害を瞬時に迂回してワークロードを復旧させます。さらなるパワーが必要な場合、Ironwood はポッドを越えて、数十万の TPU からなるクラスターへと拡張します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_fFI906U.max-1000x1000.png"
        
          alt="4"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="wdacc"&gt;Jupiter データセンター ネットワークにより、複数の Ironwood スーパーポッドを数十万の TPU のクラスターに接続&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI Hypercomputer の優位性：より速く、効率的な成果を生むハードウェアとソフトウェアの共同設計&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このハードウェアの上には共同設計されたソフトウェア層を重ねており、Ironwood の大規模な処理能力とメモリを最大化し、AI ライフサイクル全体で容易に利用できるようにすることを目指しています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;TPU のお客様は、Google Kubernetes Engine の &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Cluster Director 機能&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を利用し、フリートの効率と運用を向上できます。これには、インテリジェントなスケジューリングと高可用性クラスターのためのトポロジー認識が含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;事前および事後トレーニング向けに、高性能なオープンソース LLM フレームワークである &lt;/span&gt;&lt;a href="https://maxtext.readthedocs.io/en/latest/" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;MaxText&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; の新たな機能強化&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を公開します。これにより、Supervised Fine-Tuning（SFT）や Generative Reinforcement Policy Optimization（GRPO）などの最新のトレーニングおよび強化学習の最適化手法の実装がより容易になります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;推論については、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/in-q3-2025-ai-hypercomputer-adds-vllm-tpu-and-more"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;vLLM&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; における TPU のサポート強化を発表しました。これにより、開発者はわずかな設定変更で GPU と TPU を切り替えたり、両方を同時に実行したりできます。また、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; も発表し、TPU サーバー間でインテリジェントに負荷分散を行い、time-to-first-token（TTFT）レイテンシを 最大 96% 削減、提供コストを最大 30% 削減します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このソフトウェア層により、AI Hypercomputer が大規模かつ要求の厳しい AI ワークロードのトレーニング、チューニング、および提供において、高いパフォーマンスと信頼性を実現できます。データセンター全体のハードウェア最適化からオープン ソフトウェアやマネージド サービスまで、スタック全体にわたる深い統合により、Ironwood TPU はこれまでで最も強力でエネルギー効率に優れた TPU となっています。ハードウェアとソフトウェアの共同設計に対するアプローチについては、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/inside-the-ironwood-tpu-codesigned-ai-stack?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Axion：汎用コンピューティングを再定義&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最新アプリケーションの構築と提供には、高度に専門化されたアクセラレータと、強力で効率的な汎用コンピューティングの両方が必要です。これが、日常的なワークロードに対して優れたパフォーマンス、コスト効率、およびエネルギー効率を提供するよう設計された、当社のカスタム Arm Neoverse® ベース CPU である Axion のビジョンです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本日、Axion ポートフォリオを以下で拡充します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;N4A（プレビュー版）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;は、当社の第 2 世代汎用 Axion VM であり、マイクロサービス、コンテナ化アプリケーション、オープンソース データベース、バッチ処理、データ分析、開発環境、実験、データ準備、そして AI アプリケーションを支えるウェブ サービング ジョブに最適です。N4A の詳細は、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/axion-based-n4a-vms-now-in-preview"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;&lt;strong style="vertical-align: baseline;"&gt;C4A metal（まもなくプレビュー版公開予定）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;は、当社初の Arm ベース ベアメタル インスタンスで、Android 開発、車載システム、厳格なライセンス要件を持つソフトウェア、スケール テスト ファーム、または複雑なシミュレーションといった専門的なワークロード向けに専用の物理サーバーを提供します。C4A metal の詳細は、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm" style="font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, Oxygen, Ubuntu, Cantarell, 'Open Sans', 'Helvetica Neue', sans-serif;"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5_nH8lIVk.max-1000x1000.png"
        
          alt="5"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本日の発表により、Axion ポートフォリオには、N4A、C4A、および C4A metal という 3 つの強力な選択肢が加わります。C シリーズと N シリーズは、パフォーマンスやワークロード固有の要件を損なうことなく、ビジネス運営の総コストを削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;div align="center"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;&lt;table&gt;&lt;colgroup&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;/colgroup&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;strong style="vertical-align: baseline;"&gt;Axion ベースのインスタンス&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;strong style="vertical-align: baseline;"&gt;最適な用途&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;strong style="vertical-align: baseline;"&gt;主な機能&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4A（プレビュー版）&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;価格性能比と柔軟性&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Custom Machine Types、Hyperdisk Balanced および Throughput ストレージをサポートする、最大 64 vCPU、512 GB の DDR5 メモリ、50 Gbps のネットワーキング。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;C4A metal（プレビュー版）&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ハイパーバイザーやネイティブ Arm 開発などの特殊なワークロード&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最大 96 vCPU、768 GB の DDR5 メモリ、Hyperdisk ストレージ、最大 100 Gbps のネットワーキング。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;C4A&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;一貫して高いパフォーマンス&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最大 72 vCPU、576 GB の DDR5 メモリ、100 Gbps の Tier 1 ネットワーキング、最大 6 TB のローカル容量を持つ Titanium SSD、高度なメンテナンス制御、そして Hyperdisk Balanced、Throughput、Extreme のサポート。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt; &lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Axion 固有の効率性は、最新の AI ワークフローにとっても貴重な選択肢となります。Ironwood のような専用のアクセラレータがモデル提供の複雑なタスクを担う一方で、Axion は大容量のデータ準備や取り込みをサポートし、インテリジェントなアプリケーションをホストするアプリケーション サーバーを実行するなど、運用のバックボーンにおいて優位性を発揮します。Axion はすでに顧客に影響を与え始めています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_ZB4gdHF.max-1000x1000.jpg"
        
          alt="4"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="fembv"&gt;&lt;i&gt;「Vimeo では、大規模な動画トランスコーディング プラットフォームを効率的に管理するために、長年 Custom Machine Types を利用してきました。新しい Axion ベースの N4A インスタンスに対する初期テストは非常に説得力があり、新たなレベルの効率性を解き放ちました。同等の x86 VM と比較して、中核的なトランスコーディング ワークロードで 30% のパフォーマンス向上を確認しています。これは、運用モデルを変更することなく、ユニット エコノミクスを改善し、サービスをより収益性高くスケールするための明確な道筋を示しています。」&lt;/i&gt;&lt;b&gt;— Vimeo ホスティング＆デリバリー業務担当 シニア ディレクター Joe Peled 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_3I8oyl8.max-1000x1000.jpg"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="fembv"&gt;&lt;i&gt;「ZoomInfo では、効率が最優先の大規模なデータ インテリジェンス プラットフォームを運営しています。お客様にタイムリーな洞察を提供するために不可欠な、当社の中核的なデータ処理パイプラインは、Dataflow および GKE 内の Java サービスで広範に実行されています。新しい N4A インスタンスのプレビューでは、これらの重要なワークロードにおいて、x86 ベースに対応する同等インスタンスと比較して 60% の価格性能比の向上を計測しました。これにより、プラットフォームをより効率的にスケールし、より迅速により多くの価値をお客様に提供することができます。」&lt;/i&gt;&lt;b&gt;— ZoomInfo チーフ インフラストラクチャ アーキテクト Sergei Koren 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5_m4GINGe.max-1000x1000.jpg"
        
          alt="5"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="fembv"&gt;&lt;i&gt;「Google Cloud の Axion ポートフォリオへの移行は、当社に決定的な競争優位性をもたらしました。当社の Supply-Side Platform（SSP）バックエンド サービスなどの C4A インスタンスを利用することで、低く安定したレイテンシを維持しながら、コンピューティング消費を 20% 削減しました。さらに、C4A により、インスタンス サイズに関係なく、ステートフル ワークロードに必要な IOPS を正確に備えた Hyperdisk を活用できるようになりました。この柔軟性により、お客様のためにより多くの広告オークションを獲得すると同時に、マージンを大幅に改善できます。現在、当社の API リレー サービスなど、最も柔軟性を必要とする主要なワークロードを実行することで、N4A ファミリーをテストしています。本番環境で実行されているいくつかのアプリケーションが、以前のインフラストラクチャと比較して CPU 消費量を 15% 削減しており、ワークロード特性に必要な適切なインスタンスがバックアップされていることを保証しながら、コストをさらに削減していることについて嬉しく思います。」&lt;/i&gt;&lt;b&gt;— Rise クラウド＆ソフトウェア アーキテクト Or Ben Dahan 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI と日常的なコンピューティングのための強力な組み合わせ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;絶えず変化するモデル アーキテクチャ、ソフトウェア、および技術の時代で優位性を確立するには、モデル トレーニングと提供を担う&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;専用の AI アクセラレータ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;と、AI アプリケーションをサポートするワークロードを含む日常的なワークロードを処理する&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;効率的な汎用 CPU&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; の組み合わせが鍵となります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood と Axion を併用する場合も、AI Hypercomputer で利用可能な他の&lt;/span&gt;&lt;a href="https://cloud.google.com/products/compute?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;コンピューティング オプション&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;と組み合わせて使用する場合でも、このシステム レベルのアプローチは、最も要求の厳しいワークロードに対応できる究極の柔軟性と機能を提供します。&lt;/span&gt;&lt;a href="https://cloud.google.com/resources/ironwood-tpu-interest?utm_source=cgc-blog&amp;amp;utm_medium=blog&amp;amp;utm_campaign=FY25-Q2-global-ENT33820-website-cs-ironwood-tpu-interest&amp;amp;utm_content=ironwood_announcement_blog&amp;amp;utm_term=ironwood&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Ironwood&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;、Axion &lt;/strong&gt;&lt;a href="https://forms.gle/HYY5FWRKewYuDMB27" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;N4A&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; および &lt;/strong&gt;&lt;a href="https://forms.gle/tzYAWwMBBhkkR4yHA" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;C4A metal&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; のテストに今すぐお申込みください。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Amin Vahdat&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;, VP &amp;amp; GM, AI and Infrastructure, Google Cloud&lt;br/&gt;&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mark Lohmeyer&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;, VP &amp;amp; GM, Compute and AI Infrastructure, Google Cloud&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 07 Nov 2025 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><media:content height="540" url="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_WZEo7he.max-600x600.png" width="540"></media:content><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>TPU「Ironwood」 の一般提供開始と推論時代を支える新しい Axion VM を発表</title><description></description><image>https://storage.googleapis.com/gweb-cloudblog-publish/images/3_WZEo7he.max-600x600.png</image><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Amin Vahdat</name><title>SVP and Chief Technologist, AI and Infrastructure</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mark Lohmeyer</name><title>VP and GM, AI and Computing Infrastructure</title><department></department><company></company></author></item><item><title>NVIDIA とのパートナーシップを拡大: A4X Max、Vertex AI Training などの提供を開始</title><link>https://cloud.google.com/blog/ja/products/compute/now-shipping-a4x-max-vertex-ai-training-and-more/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 10 月 29 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/now-shipping-a4x-max-vertex-ai-training-and-more?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今日の AI モデルは、数十億パラメータから数兆パラメータに進化し、複雑なマルチモーダル推論が可能になっています。この飛躍的な高度化に対応するには、次世代モデルの膨大なコンピューティング要件とメモリ要件を処理するための、専用に構築された新しいクラスのインフラストラクチャとソフトウェアが必要です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、デベロッパーや組織が AI の未来を構築、デプロイできるよう支援することに注力しています。そして本日、NVIDIA とのパートナーシップをさらに深め、AI ライフサイクル全体に対応するプラットフォームを強化する一連の新機能を発表しました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA の GB300 NVL72 を搭載した&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;新しい A4X Max インスタンス&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（マルチモーダル AI 推論向けに設計）&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Google Kubernetes Engine（GKE）で &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Dynamic Resource Allocation Kubernetes Network Driver &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;DRANET&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;）&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;がサポートされ、分散 AI/ML ワークロードの帯域幅が向上&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE Inference Gateway &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; が &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA NeMo Guardrails と統合&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Vertex AI Model Garden&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; で NVIDIA Nemotron モデルを提供&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA NeMo フレームワークと NeMo-RL をベースにした &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/new-capabilities-in-vertex-ai-training-for-large-scale-training?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Vertex AI Training&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; レシピ&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;では、これらの機能について詳しく見ていきましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA GB300 GPU 搭載 A4X Max&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X Max が本番環境で提供開始されました。NVIDIA GB300 NVL72 を搭載したこれらの新しいインスタンスは、最も要求の厳しいマルチモーダル AI 推論ワークロード向けに最適化されています。A4X Max には、NVIDIA の第 5 世代高速 GPU インターコネクトである NVIDIA NVLink で接続された 72 個の Blackwell Ultra GPU と 36 個の NVIDIA Grace CPU が含まれており、共有メモリと高帯域幅通信を備えた単一の統合コンピューティング プラットフォームとして機能します。Google の Titanium ML アダプタと Google Cloud の Jupiter ネットワーク ファブリックを組み合わせた A4X Max は、非ブロッキングのレール最適化クラスタで数万個の GPU にスケールするように設計されています。NVIDIA GB200 NVL72 を搭載した A4X と比較して、A4X Max は各システムで 2 倍のネットワーク帯域幅を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X Max は Google Cloud の &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/managed-slurm-and-other-cluster-director-enhancements?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cluster Director&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を活用し、最適化されたコンピューティング、ネットワーキング、Google のストレージ サービスを組み合わせて、まとまりのある、パフォーマンスの高い、管理しやすい環境を実現します。Cluster Director は、NVL72 ドメインにおけるプロビジョニングから、トポロジを考慮した配置、強力な可観測性と耐障害性の提供まで、A4X Max クラスタのライフサイクル全体を管理します。Managed Lustre などの最適化されたストレージ ソリューションと統合されており、事前構成されたマネージド Slurm 環境は、A4X Max のフォールト トレラントでスケーラブルなジョブ スケジューリングを提供します。Cluster Director は、GPU、NVLink、DC ネットワーキング ファブリック全体にわたるジョブとシステム パフォーマンスの詳細なオブザーバビリティも提供します。スループットを最大化するために、Cluster Director は、自動ストラグラー検出やジョブ内復元などの機能で高い信頼性を確保します。トポロジを考慮したスケジューリング、メンテナンス管理、障害のあるノードの報告などの Cluster Director 機能も、Google Kubernetes Engine（GKE）を通じて透過的に利用できるため、お客様は A4X Max を実行しながら GKE 環境に留まることができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;これらの変更がワークロードにもたらすメリット:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;推論の最適化: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;72 個の GPU を備えた NVLink ドメインにより、A4X と比較して 1.5 倍の FP4 FLOP、1.5 倍の HBM メモリ容量、2 倍のネットワーク帯域幅を実現する A4X Max は、低レイテンシの推論、特に最大規模の推論モデルに特化して設計されています。GKE Inference Gateway と統合すると、プレフィックス対応のロード バランシングのメリットが得られ、プレフィックスを多用するワークロードの最初のトークンまでのレイテンシが短縮されます。また、分離型サービングを有効にすることで、パフォーマンスをさらに最適化できます。これは、推論ゲートウェイ、llm-d、vLLM を組み合わせて活用することで実現され、スループットが大幅に向上します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;トレーニングとサービングのパフォーマンスの強化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; GB300 NVL72 システムあたり 1.4 エクサフロップを超える性能を備えた A4X Max は、NVIDIA H100 GPU 搭載の A3 VM と比べて、LLM のトレーニングとサービングのパフォーマンスが 4 倍向上しています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;最大のスケーラビリティと並列化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; RDMA over Converged Ethernet（RoCE）を基盤とする A4X Max のネットワーキング ファブリックは、分散トレーニングと分離型サービング ワークロード向けに、低レイテンシで高性能な GPU 間コレクティブを提供します。新しいデータセンター スケーリング設計を活用することで、A4X Max クラスタは A4X クラスタの 2 倍の規模に拡張できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X Max インスタンスのプレビューは、NVIDIA RTX PRO 6000 Blackwell Server エディション GPU を搭載した&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/g4-vms-powered-by-nvidia-rtx-6000-blackwell-gpus-are-ga"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;新しい G4 VM&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と NVIDIA Omniverse ライブラリのサポートに続くものです。これらの取り組みを総合すると、あらゆる AI ワークロードに対応するエンドツーエンドのプラットフォームを提供するという Google のコミットメントが明確になります。さらに、NVIDIA とのパートナーシップを深めることで、次世代の AI を支える強力で包括的なエコシステムを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE DRANET で RDMA のパフォーマンスが向上&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本日、Google は、A4X Max を皮切りに、マネージド DRANET を本番環境にデプロイします。DRANET は、GPU と RDMA ネットワーク インターフェース カードのトポロジを認識したスケジューリングを可能にすることで、分散 AI/ML ワークロードにおける all-gather および all-reduce オペレーションの&lt;/span&gt;&lt;a href="https://github.com/google/dranet/blob/main/site/static/docs/kubernetes_network_driver_model_dranet_paper.pdf" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;バス帯域幅を向上&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;させます。これにより、VM の利用率が向上し、費用対効果が高まります。これは、RDMA デバイスと GPU の接続が可能な限り最適なノードに GKE Pod をスケジュールすることで実現されます。DRANET は、RDMA デバイスを GKE 内のファーストクラスのネイティブ リソースとして扱うことで、RDMA 管理を簡素化します。GKE の DRANET の詳細については、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/networking/introducing-managed-dranet-in-google-kubernetes-engine"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE と NVIDIA NeMo Guardrails&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;組織が AI モデルを本番環境にデプロイする際には、安全性、セキュリティ、責任ある動作を確保する必要があります。このたび、NVIDIA NeMo Guardrails と &lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の統合を発表いたします。GKE Inference Gateway は、生成 AI アプリケーションの提供を目的として GKE Gateway を拡張したものです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE Inference Gateway は、モデル対応ルーティングや自動スケーリングなどの機能でモデル提供を最適化します。一方、NeMo Guardrails は安全面で重要なレイヤを追加し、モデルが望ましくないトピックに関与したり、悪意のあるプロンプトに応答したりすることを防ぎます。これらを組み合わせることで、安全でスケーラブルかつ管理しやすい推論ソリューションが実現し、AI イニシアチブを加速させることができます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Vertex AI Model Garden に NVIDIA Nemotron モデルが追加&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;デベロッパーの選択肢とパフォーマンスを向上させるため、&lt;/span&gt;&lt;a href="https://cloud.google.com/model-garden?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt; Vertex AI Model Garden&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、NVIDIA NIM マイクロサービスとして NVIDIA の Nemotron ファミリーのオープンモデルをまもなくサポートする予定です。この統合により、NVIDIA Llama Nemotron Super v1.5 モデルの提供開始を皮切りに、デベロッパーや組織は Vertex AI 内から直接 NVIDIA の最新のオープンウェイト モデルにアクセスできるようになります。Vertex AI のマネージド デプロイを使用すると、パフォーマンス、費用、コンプライアンスを管理しながら、Nemotron モデルを搭載したカスタム AI エージェントを迅速に開発、デプロイできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Vertex AI を通じてデプロイされたモデルには、次のようなメリットがあります。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;デプロイに対して&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;きめ細かい制御&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;が可能で、幅広いマシンタイプや Google Cloud リージョンを選択することで、パフォーマンスやコストを最適化できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;モデルを完全に独自の VPC 内にデプロイし、VPC-SC ポリシーを遵守することで、堅牢な&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;セキュリティ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;使いやすさ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;は抜群で、最先端のモデルを数回クリックするだけで発見、ライセンス取得、デプロイできます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA NeMo との統合による Vertex AI Training&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/new-capabilities-in-vertex-ai-training-for-large-scale-training?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Vertex AI Training&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、企業が基盤モデルを自社データに適応させるために必要な制御と柔軟性を提供します。Google では、高精度のプロプライエタリ モデルをより迅速に作成できるよう、大規模モデルの開発への道を簡素化し、加速する Vertex AI Training の拡張機能を発表します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;お客様は、大規模なトレーニングを簡素化する、フルマネージドで復元力のある Slurm 環境を利用できます。自動化された復元機能により、クラスタの稼働時間が向上し、Google の包括的なデータ サイエンス ツールにより、複雑なモデル開発における推測の多くが不要になります。最後に、NVIDIA NeMo や NeMo-RL などの標準化されたフレームワーク上に構築された、キュレート済みかつ最適化された事前・事後トレーニングのレシピにより、開発者は新しいアイデアから本番環境に対応したドメイン特化型モデルへの移行を、より迅速かつ効率的に行うことができます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;次のステップ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらのアップデートにより、AI ワークロードを実行するための Google Cloud プラットフォームの機能性と柔軟性がさらに強化されます。Google Compute Engine または Cluster Director を使用した GKE による Infrastructure as a Service（IaaS）の柔軟性と制御、あるいは、モデルのトレーニング、チューニング、管理のための安全でスケーラブルかつ簡素化されたワークフローを提供する Vertex AI のフルマネージド エンドツーエンド エクスペリエンスのいずれかを選択できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらのインフラストラクチャのイノベーションは、AI の開発とデプロイのための完全なプラットフォームを提供するという Google の使命を大きく前進させるものです。Google Cloud のインフラストラクチャと NVIDIA の最新テクノロジーを組み合わせることで、次世代の AI アプリケーションを構築するための強固な基盤が提供されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X Max プレビューの利用を開始するには、Google Cloud の営業担当者にお問い合わせください。一方、Vertex AI Training には、モデルをビジネス上の優位性を定義する独自の資産に変えるために必要なものがすべて揃っています。エンタープライズ グレードのセキュリティと効率性で AI モデルを大規模にデプロイ、管理するには、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway が推論ワークロードの処理にどのように役立つか&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。皆様がどのようなものを構築されるか楽しみにしております。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-コンピューティングおよび AI Infrastructure 担当、バイス プレジデント兼ゼネラル マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mark Lohmeyer&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 31 Oct 2025 03:10:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/now-shipping-a4x-max-vertex-ai-training-and-more/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>NVIDIA とのパートナーシップを拡大: A4X Max、Vertex AI Training などの提供を開始</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/now-shipping-a4x-max-vertex-ai-training-and-more/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mark Lohmeyer</name><title>VP and GM, AI and Computing Infrastructure</title><department></department><company></company></author></item></channel></rss>