<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:media="http://search.yahoo.com/mrss/"><channel><title>コンピューティング</title><link>https://cloud.google.com/blog/ja/products/compute/</link><description>コンピューティング</description><atom:link href="https://cloudblog.withgoogle.com/blog/ja/products/compute/rss/" rel="self"></atom:link><language>ja</language><lastBuildDate>Fri, 08 May 2026 08:52:43 +0000</lastBuildDate><image><url>https://cloud.google.com/blog/ja/products/compute/static/blog/images/google.a51985becaa6.png</url><title>コンピューティング</title><link>https://cloud.google.com/blog/ja/products/compute/</link></image><item><title>エージェント型エンタープライズのためのクロスクラウド インフラストラクチャのイノベーション</title><link>https://cloud.google.com/blog/ja/products/compute/cross-cloud-infrastructure-at-next26/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 23 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/cross-cloud-infrastructure-at-next26?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント型 AI の時代が人間の速度から機械の速度へと運用を加速させていますが、それと同時に、以前のテクノロジー インフラストラクチャに深刻なストレスを与えています。数千もの内部メッセージと複雑なクエリを生成するエージェントが、しかもさらに多くのエージェントを生み出すという新たな現実は、基盤となるシステムを限界に追い込んでいるのです。この状況の中、従来のネットワークやデータベースでは瞬く間に手に負えなくなり、新たなセキュリティ脆弱性が顕在化する可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェントの時代に AI の可能性を最大限に引き出すには、安全で適応性の高い基盤が必要です。Google ではこれを、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェント型エンタープライズ向けクロスクラウド インフラストラクチャ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;と呼んでいます。Google は Google Cloud Next ‘26 で、このインフラストラクチャの 4 つの分野における一連の新しいイノベーションを発表します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;最新情報:&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Fluid Compute: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Google Compute Engine サービスと Kubernetes サービスの連携により、新しいコンピューティング機能とオーケストレーション機能が追加されます。これらの機能は、費用対効果と速度に優れた AI エージェントとエンタープライズ ワークロードを実現するものです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;安全なクロスクラウド接続: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Agent Gateway、Cloud Armor などのツールで、AI エージェント向けの安全で管理されたネットワーキング基盤を簡素化します。この基盤には、クラウド間のエージェント トラフィックのオブザーバビリティも組み込まれています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;統合データレイヤ: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;スマート ストレージ、Knowledge Catalog などのイノベーションで、受動的なデータ アーカイブを動的な推論エンジンへと変換します。この推論エンジンが、実行に必要となるコンテキストを AI エージェントに渡します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;デジタル主権: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Confidential External Key Management と、Google Distributed Cloud の新機能により、データの保存場所を問わずに Google の最先端のモデルと AI イネーブラーを利用できるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これら 4 つの分野それぞれの最新ニュースを詳しくご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Fluid Compute&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント ワークロードは動的であり、予測することはできません。このことは、従来のエンタープライズ アプリケーションにも AI エージェント自体にも影響を与えます。そこで、Fluid Compute を実現するために、Google Compute Engine サービスと Google Kubernetes サービスが連携して動的にワークロードに適応し、リアルタイムで重みをシフトします。これにより、すべてのお客様にとって、費用対効果と速度に優れた AI エージェントとエンタープライズ向け運用ワークロードの実現が可能になります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/ai-infrastructure-at-next26?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI Hypercomputer が大規模な AI モデル トレーニング向けの素の処理能力を提供&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;する一方で、Fluid Compute によって運用ワークロードとエージェントのニーズに対応します。エージェントが推論と強化学習へと移行する中、CPU は中心的な役割を取り戻しつつあります。CPU は、エージェント ワークフローに必要な「分岐」ロジック、複雑な制御フロー、安全なコード実行サンドボックス（エージェント オーケストレーション、RL、SLM 推論、RAG 向けのサンドボックスなど）において優れた能力を発揮するためです。さらに、CPU はエージェントを安全に実行するために重要となるエージェントの隔離を可能にし、トレーニングで使用される GPU と TPU の並列処理能力を補完します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、従来のワークロードと AI エージェントを安全かつ大規模に実行できるようにするための新しい CPU ファミリー、GKE 機能、Hyperdisk ブロック ストレージ機能を導入しています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Google C4N シリーズ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: このシリーズの VM は、エージェント型 AI の需要によってエンタープライズ ワークロードの速度が低下しないように、1 秒あたり最大 9,500 万パケットを処理します。これは、他の主要なハイパースケーラーと比べて最大 40% 高速なパフォーマンスです。これにより、セキュリティ アプライアンス、ストリーミング メディア、オープンソース データベースなどの要求の厳しいワークロードで、より小さいインスタンス サイズを使用するとしても、I/O ボトルネックが解消されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk Extreme を使用した Google M4N シリーズ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: M4N は、エージェント、分析、ミッション クリティカルなデータベースからの膨大なデータ I/O の処理のニーズに対処するために、データ パイプラインのボトルネックを解消してオーバープロビジョニングの必要をなくし、業界トップクラスのコアあたりの IOPS とスループットを実現しています。vCPU あたり 26.57 GB の RAM を提供する M4N を使用すれば、ミッション クリティカルなワークロードをより少ないコアでスケールして、優れた費用対効果を実現できます。たとえば、Hyperdisk Extreme を使用した M4N は、主要なハイパースケール クラウドと比較して、Oracle ワークロードの総所有コストを 20% 以上削減します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE Agent Sandbox: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;このソリューションは、信頼できる gVisor でエージェントを隔離して保護し、クラスタごとに 1 秒あたり最大 300 個のサンドボックスを起動して需要の急増に対応します。GKE Agent Sandbox は、主要なハイパースケール クラウドの間で唯一利用可能なマネージド サンドボックス テクノロジーを基盤としています。GKE Agent Sandbox で Google Axion N4A を使用して AI エージェントを実行する場合、競合他社よりも最大 30% 優れたコスト パフォーマンスを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Wayfair の AI 戦略は、Google Cloud での長年にわたる体系的なインフラストラクチャ モダナイゼーションに基づいて構築されています。この戦略には、コアの e コマース エンジンとデータベースをレガシー システムから移行すること、モノリシックなサービスをクラウドネイティブ アーキテクチャに分解すること、データと分析プラットフォームを統合することが含まれています。Gemini Enterprise Agent Platform という基盤があるからこそ、他のすべてが可能になります。現在、カタログの拡充から、お客様が自分にぴったりの家を建てられるよう生成 AI が支援するショッピング エクスペリエンスまで、あらゆるものを Gemini Enterprise Agent Platform によって強化しています。また、私たちはこの同じ基盤を頼りに、AI が単に支援するだけでなく、あらゆる顧客タッチポイントとビジネス全体で積極的に発見、パーソナライズ、コマースを推進するエージェントとなる時代に向けて準備を整えています。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;- Wayfair、最高技術責任者、Fiona Tan 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最新のコンピューティング イノベーションについては、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/whats-new-in-compute-at-next26?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちらのブログ記事&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;安全なクロスクラウド接続&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント型 AI は、予測可能な人間のリクエストを自律的な「推論ループ」に置き換えます。このループでは、エージェントが他のエージェントを呼び出し、そのエージェントが LLM を呼び出すため、コンピューティングとマシン間のトラフィックが急増することになります。こうしたエージェント型へのシフトは、ネットワークの予測可能性と人間以外の ID のセキュリティに関して他には見られない課題をもたらします。エージェント型 AI 向けに最適化されたクロスクラウド ネットワークは、さまざまな環境間でデータを移動して、可視性とセキュリティによって従業員、顧客、エージェントをつなげます。クロスクラウド ネットワークの新機能は次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Agent Gateway:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/introducing-gemini-enterprise-agent-platform?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Gemini Enterprise Agent Platform&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の「航空管制官」として、企業のエージェント トラフィックを管理およびオーケストレートします。MCP や A2A などのエージェント プロトコルをネイティブに理解し、すべてのエージェントのやり取りを検査して管理します。Google とサードパーティの ID および AI の安全性に関するサービスと連携して、アクセスの検証、攻撃のブロック、機密データの保護を目的とした詳細な検査を可能にし、コアビジネス全体でコンプライアンスを維持します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Cloud Network Insights&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: ハイブリッド クラウドとマルチクラウドのインフラストラクチャ全体にわたる幅広い可視性を提供し、トラブルシューティングとネットワーク解決を迅速化します。Google Cloud、AWS、Azure、データセンター、インターネット アプリケーション、エージェント ワークロード全体で、エージェント、ネットワーク、ウェブのエンドツーエンドのパフォーマンスを継続的にモニタリングします。Cloud Network Insights は、合成トラフィック分析を使用して、ホップごとのネットワーク パスを可視化し、パフォーマンス低下の原因を特定できるよう支援します。また、オペレーションの自律性を高めるために、Cloud Network Insights には Gemini Cloud Assist の AI を活用した分析情報が結合されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;強化された Cloud Next Generation Firewall（NGFW）と Cloud Armor&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: AI が生成するポリモーフィック マルウェアやゼロデイ エクスプロイトの急増に対処するために、AI を活用した機械の速度での保護を提供します。Cloud NGFW の高度なマルウェア サンドボックスは、AI によって生成された脅威をリアルタイムでその場で防止します。一方、Cloud Armor のマネージド ルールは、既知および未知の共通脆弱性識別子（CVE）の両方に対する自動保護を提供します。これらのサービスは Model Armor と連携して、AI エージェントのコミュニケーションのインテントと内容を分析します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google がデータセンター内外で AI 向けにネットワーキングを最適化した方法について詳しくは、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/networking/whats-new-in-cloud-networking-at-next26"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;統合データレイヤ&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI エージェントの能力は、アクセスできるデータと与えられたコンテキストによって決まります。構造化データと非構造化データを使用するアプリケーションやプラットフォームが増えていますが、それらのデータを大規模にカタログ化、検索、活用するのは容易なことではなく、それが原因でエージェントの対応が非効率になる可能性があります。このギャップを埋めるためにエージェントに必要となるのは、すべてのデータがまとめられたクエリ可能なナレッジ エンジン、つまり統合データレイヤです。これにより、エージェントは正確な情報源を特定してアクセスできるようになります。Next ‘26 では、統合データレイヤを強化する次の機能を取り上げます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;スマート ストレージ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: このソリューションは、新しいセマンティック インテリジェンスをデータ オブジェクトに直接埋め込むことで、ダークデータを AI エージェントとトレーニングのための強力な知識アセットに変換します。自動アノテーション、エンティティ抽出、セマンティック検索などの新しい Google Cloud Storage 機能により、エージェントは必要とする特定のデータが組織全体にわたって存在するスプレッドシート、PDF、その他の非構造化形式のどれに隠されているかどうかにかかわらず、そのデータを瞬時に検出して使用できます。これにより、AI ソリューションの開発とデプロイが大幅にスピードアップします。AI ワークロードを加速するストレージ イノベーションについて詳しくは、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/storage-data-transfer/next26-storage-announcements"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Knowledge Catalog&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Knowledge Catalog は、エージェントが最も正確な結果を提供できるように、データ エステート全体にわたってビジネスの意味をマッピングし、グラウンディングされた信頼できる情報源を提供します。この基盤により、AI のトレーニングと推論が可能になり、データの移行が不要になります。エージェントは、データがどこにあっても、完全なコンテキストとガバナンスに沿って直接データとやり取りするため、モダナイゼーションが容易になります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の &lt;/span&gt;&lt;a href="https://cloud.google.com/transform/shift-system-of-action-architecting-the-agentic-data-cloud-AI"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Agentic Data Cloud&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の一部となっているスマート ストレージと Knowledge Catalog により、データを受動的なアーカイブから動的な推論エンジンに変換できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「お客様のスマートホームとセキュリティ ソリューションをよりインテリジェントで便利なものにするためには、AI が不可欠です。Google Cloud のスマート ストレージを活用すれば、BigQuery で配信される豊富なメタデータに自動的にアノテーションを付けることができます。データ検出とキュレーションの取り組みを拡大し、加速させたことで、AI 開発プロセスを数か月から数週間に短縮できたと同時に、信頼を築き、全体的な家庭環境を向上させるイノベーションを継続的に提供できるようになりました。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;- Vivint、プロダクトおよび AI 担当バイス プレジデント、Brandon Bunker 氏&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;デジタル主権&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェントの時代において、管理を犠牲にすることなくイノベーションを加速させようと目指す公共部門や企業のお客様にとって、デジタル主権は基本的な要件です。万能なソリューションというものは存在しません。そのため、Google ではパブリック クラウド、オンプレミス、ハイブリッドなど、あらゆる場所でさまざまなソブリン AI のニーズに対応できるよう、包括的な一連のサービスを設計しました。Google のソブリン AI ポートフォリオの新機能には、次のようなものがあります。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Confidential External Key Management:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 組織は Confidential External Key Management を使用して、暗号鍵の完全な未編入領域、管理権、制御権と、暗号鍵を管理するポリシーを維持できます。Confidential External Key Management は、&lt;/span&gt;&lt;a href="https://cloud.google.com/security/products/confidential-computing"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Confidential Compute&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を活用して、Google Cloud 内の改ざん防止環境で鍵管理エンドポイントをホストします。鍵の保存場所、鍵へのアクセスを許可するユーザー、アクセスを許可する状況は、お客様が管理できます。特権を持つ Google 管理者であっても、承認なしに鍵にアクセスすることはできません。また、承認はいつでも取り消すことができます。自社のデータを自社で管理できるというわけです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Distributed Cloud 上の Gemini: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;GDC 上の Gemini を使用すると、企業はデータ主権のニーズを満たしながら、機密性の高い環境に Gemini を安全にデプロイできます。デプロイモデルの選択肢には、接続されたハードウェア上のマネージド ソフトウェアや、エアギャップのある完全に切断されたソリューションなどがあります。最も制限の厳しい高度なセキュリティ環境であっても、強力な Gemini モデルから高度なコーディング、検索、その他のエージェント機能に至るまでの Google の最先端の AI 機能によるスケーリングが可能になりました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さらに、すべてのソブリン AI ワークロードを加速および強化できるよう、Google Distributed Cloud では最新世代の AI インフラストラクチャと Gemini モデルを組み合わせたエンドツーエンドの AI スタックをサポートしています。このスタックには以下が含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA Blackwell GPU:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; NVIDIA Blackwell（NVIDIA HGX B200）および NVIDIA Blackwell Ultra プラットフォーム（NVIDIA HGX B300）GPU は、第 5 世代 NVIDIA NVLink を活用して AI パフォーマンスを加速し、データセンター規模の帯域幅を環境に直接提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;新しい VM ファミリー:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 新しい A4 ファミリー パッケージは、最も要求の厳しい推論タスクを処理する能力を提供し、ピーク時のコンピューティングを 2.25 倍に向上させます。メモリ最適化 M2 および M3&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;は、オンプレミスで大規模な ERP とデータ分析のワークロードに必要となる&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;高いメモリ対 vCPU 比を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ストレージの強化: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;ゾーンあたりのストレージ容量が 6 倍に増え、パフォーマンスは 10 倍に向上しています。これによりストレージのボトルネックが解消されるため、オンプレミスで AI 推論を実行できます。今や、データ インフラストラクチャは AI 推論のスピードで進化しています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「弊社のお客様は、マルチテナントのリスクを伴わない、高性能なプライベート AI 推論を求めています。Google Distributed Cloud を使用すれば、機密データに関する厳格な要件を満たす、専用の低レイテンシ環境を提供できます。B200 と B300 で Gemini を実行できるため、推論速度を大幅に向上させ、スケーリングに必要となるトークン スループットをお客様に提供できます。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;- Cirrascale Cloud Services、CEO / 共同創設者、Dave Driggers 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ビジョンを現実にする&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以上の製品分野が収束した時点で、インフラストラクチャはエージェント時代に対応する高性能で安全かつ適応性のある基盤へと進化します。Google は単にツールを提供するだけでなく、企業や公共部門が AI とエージェントの力を最大限に活用できるようにするためのアーキテクチャ ブループリントを提供しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI インフラストラクチャの主要な業界トレンドについて詳しくは、&lt;/span&gt;&lt;a href="https://cloud.google.com/resources/content/state-of-infrastructure-in-the-agentic-ai-era?utm_source=cgc-blog&amp;amp;utm_medium=blog&amp;amp;utm_campaign=FY26-Q1-GLOBAL-STO121-website-dl-State-AI-Infra-172614&amp;amp;utm_content=state-of-infra-agentic-ai-era-report&amp;amp;utm_term=state-of-infra-agentic-ai-era-report"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;エージェント型 AI 時代のインフラストラクチャの現状に関するレポート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;コンピューティング プラットフォーム部門プロダクト管理担当バイス プレジデント、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Nirav Mehta&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Distributed Cloud 担当バイス プレジデント、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Muninder Sambi&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 08 May 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/cross-cloud-infrastructure-at-next26/</guid><category>Networking</category><category>Storage &amp; Data Transfer</category><category>Infrastructure</category><category>Google Cloud Next</category><category>Compute</category><media:content height="540" url="https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_4_Light.max-600x600.jpg" width="540"></media:content><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>エージェント型エンタープライズのためのクロスクラウド インフラストラクチャのイノベーション</title><description></description><image>https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_4_Light.max-600x600.jpg</image><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/cross-cloud-infrastructure-at-next26/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Nirav Mehta</name><title>VP, Product Management, Compute Platforms</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Muninder Sambi</name><title>VP, Google Distributed Cloud</title><department></department><company></company></author></item><item><title>Cloud TPU と vLLM で LLM 推論を試そう — リソース確保からベンチマークまで</title><link>https://cloud.google.com/blog/ja/products/infrastructure/lets-try-llm-inference-with-cloud-tpu-and-vllm/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;こんにちは、Google Cloud でインフラ領域を担当している佐藤です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今回は、Cloud TPU v6e 上で vLLM を使い、大規模言語モデル Qwen3-32B の推論環境を構築する手順をハンズオン形式でお届けします。DWS Flex Start によるリソース確保から、パラメータ チューニング、INT8 量子化、ベンチマークまで一通りカバーしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最近、大規模言語モデル（LLM）の推論環境への需要が急速に高まっています。しかし、ハイパフォーマンスなインフラをオンデマンドで調達しようとすると、特定の GPU/TPU Type やリージョンによっては「オンデマンド リソースの即時確保が困難」という課題に直面した—そんな経験はありませんか？&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本記事では、Google Cloud の Dynamic Workload Scheduler (DWS) Flex Start モードを活用し、待機キュー経由でリソースの確保を効率的に行いつつ、オープンソースの高スループット LLM 推論エンジンである vLLM を用いて、大規模モデルである Qwen3-32B の推論環境を構築する実践的なハンズオン手順をご紹介します。このガイドを通じて、リソース確保からデプロイ、そしてパフォーマンスのベンチマークまでの流れを解説していきましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h2&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 確保方法の比較と DWS Flex Start モードの長所&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud の GPU/TPU リソースを確保する方法にはいくつかの種類があります。それぞれの長所と短所を理解することで、ワークロードに最適な選択が可能になります。&lt;/span&gt;&lt;/p&gt;
&lt;div align="left"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;&lt;table&gt;&lt;colgroup&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;/colgroup&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;オプション&lt;/span&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;特徴とユースケース&lt;/span&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;期間 / 制限&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;オンデマンド&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;必要なときに即座にリソースを要求します。空きがあればすぐに利用可能ですが、需要が高い時期や特定のハードウェア（TPU v6e など）ではリソース枯渇により確保できない場合があります。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Min 1 分 / 制限なし&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;予約&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ユーザーが指定した構成で 1 つ以上の VM の容量を確実に確保できます。Compute Engine のコミットメントである CUD (Commited use discounts) を利用して、 1 年や 3 年の期間で割引を適用することもできます。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Min 1 分 / 制限なし&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;CUD 利用時は&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;1 年 / 3 年固定&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;DWS Flex Start&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;【本記事の対象】キュー（列）に並んでリソースを待つ方式です。「利用可能になり次第」プロビジョニングされ、一度確保されれば最大 7 日間中断されることなく実行可能です。割引価格が適用されるため、コスト パフォーマンスに優れます。即時性は不要ですが、検証やバッチ推論を完了させたい場合に適しています。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Min 1 分 / Max 7 日&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;スポット&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;余剰リソースを利用するため非常に安価ですが、いつでも Google 側から停止される可能性があります。耐障害性のあるワークロード向け。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Min 1 分 / Max 24 時間&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Flex_Start.max-1000x1000.png"
        
          alt="Flex Start"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;では、なぜ Flex Start を使うのでしょうか。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;オンデマンドや Spot では、「今すぐ使いたいがリソースがない」というエラーが返されることがありますが、DWS Flex Start を使用することで「キュー」にリソース要求が登録されます。バックグラウンドでリソースの空き状況が監視され、確保可能になった瞬間にプロビジョニングが行われるため、張り付いてリソース作成を連打する必要がなく、リソースプロビジョニングの成功率をぐっと上げられるのが大きな長所です。&lt;/span&gt;&lt;/p&gt;
&lt;h2&gt;&lt;strong style="vertical-align: baseline;"&gt;vLLM と vLLM-TPU の違いとは？&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ハンズオンに入る前に、今回利用する vllm-tpu イメージについて補足します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;vLLM（通常版）：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 主に NVIDIA GPU (CUDA) や AMD GPU (ROCm) 向けに高度に最適化された LLM 推論エンジンです。PagedAttention というメモリ管理技術により、KV キャッシュの断片化を防ぎ、高いスループットを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;vLLM-TPU：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google のカスタムシリコンである TPU アーキテクチャ上で、vLLM の PagedAttention や最適化技術を動作させるために特化した拡張実装・環境です。内部的には 2 つのモデルレジストリを確認した上でモデルコードを取得・実行します（下図参照）。そして Torchax によって PyTorch モデルコードが JAX として扱われ、TPU 上での最適な推論実行が可能になります。本ハンズオンでは vllm/vllm-tpu の Docker イメージを利用することで、複雑な依存関係やコンパイラの設定を意識することなく、すぐに TPU のパワーを推論に活用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/vllm-serve-model.max-1000x1000.png"
        
          alt="vllm-serve-model"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="a4trh"&gt;&lt;a href="https://vllm.ai/blog/vllm-tpu から引用"&gt;https://vllm.ai/blog/vllm-tpu から引用&lt;/a&gt;&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h2&gt;&lt;strong style="vertical-align: baseline;"&gt;ハンズオンガイド&lt;/strong&gt;&lt;/h2&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;1. TPU リソースのリクエスト (Flex Start)&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;まず、通常の gcloud compute tpus tpu-vm create ではなく、queued-resources create コマンドを使用します。&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;このコマンドによって、1 章で触れた Flex Start によるリソース調達を自動化することができます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;export TPU_NAME=takashix-tpuv6e\r\nexport ZONE=us-east5-a\r\nexport PROJECT=takashix-tpu\r\nexport QR_ID=takashix-qr-request # e.g. my-qr-request\r\n\r\ngcloud alpha compute tpus queued-resources create $QR_ID \\\r\n    --node-id $TPU_NAME \\\r\n    --project $PROJECT --zone $ZONE \\\r\n    --accelerator-type v6e-4 \\\r\n    --runtime-version v2-alpha-tpuv6e \\\r\n    --provisioning-model flex-start \\\r\n    --max-run-duration 24h&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9f40&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;コマンドの意味について&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;--provisioning-model flex-start を指定することで、キューにリソース要求がエンキューされます。--max-run-duration 24h によって、利用開始から 24 時間後に自動的に終了するように設定しています。消し忘れによる課金防止にも役立ちますね。Spot VM で起動したい場合は、コマンドから alpha を外して --spot を指定することで起動できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;キューに格納したいリソースを上記コマンドで作成した後は&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/tpu/docs/queued-resources?hl=ja"&gt;&lt;span style="vertical-align: baseline;"&gt;ステータス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;に則って調達されます。ステータスの確認には以下のコマンドを実行してください。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;gcloud alpha compute tpus queued-resources list --project $PROJECT --zone $ZONE&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9640&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;STATE が qr-request-spot のように ACTIVE になれば調達完了です。一方で takashix-qr-request のように WAITING_FOR_RESOURCES の場合、まだ調達できておらずリソース確保を待っている状態です。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/qr2.max-1000x1000.png"
        
          alt="qr2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※調達できない （STATE が Active にならない）場合は代わりに以下のコマンドを実行してください。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;gcloud alpha compute tpus queued-resources create $QR_ID \\\r\n    --node-id $TPU_NAME \\\r\n    --project $PROJECT --zone $ZONE \\\r\n    --accelerator-type v6e-4 \\\r\n    --runtime-version v2-alpha-tpuv6e \\\r\n    --labels=purpose=flex-start&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9550&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;2. インスタンスへの接続と Docker 環境設定&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;リソースが「ACTIVE」になったら、SSH 接続して環境を準備しましょう。本ガイドでは Qwen3-32B を利用することを想定し、Hugging Face の Token を設定します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;SSH 接続&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;gcloud alpha compute tpus tpu-vm ssh $TPU_NAME --project $PROJECT --zone=$ZONE&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9e80&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Docker Image の設定&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;export DOCKER_URI=vllm/vllm-tpu:latest&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9520&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Hugging Face Token の設定（&amp;lt;your HF token&amp;gt; はご自身の Token に置き換えてください）&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;export HF_HOME=/dev/shm\r\nexport HF_TOKEN=&amp;lt;your HF token&amp;gt;&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9cd0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;3. vLLM サーバーの起動とパラメータ・チューニング&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Docker コンテナを --privileged および --net=host で起動します。これは TPU デバイスへの直接アクセスと、ホストの高速なネットワークをコンテナに許可するためです。また --shm-size 100gb を指定して、モデルの重みや共有メモリ領域が不足しないようにしています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;sudo docker run -it --rm --name $USER-vllm --privileged --net=host \\\r\n    -v /dev/shm:/dev/shm \\\r\n    --shm-size 100gb \\\r\n    --entrypoint /bin/bash ${DOCKER_URI}&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9dc0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以下のようにイメージのダウンロードが完了したら vLLM サーバーの起動完了です。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/vllmsv.max-1000x1000.png"
        
          alt="vllmsv"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;上記コマンドにより root@ から始まるプロンプトになっていれば、コンテナ内へのアクセスが成功したことになります。いよいよ vllm serve コマンドでモデルをデプロイしましょう。ここでのパラメータ設定が、推論のパフォーマンス指標であるスループットやレイテンシに大きく影響を与えます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;export MAX_MODEL_LEN=4096\r\nexport TP=4\r\n\r\nvllm serve Qwen/Qwen3-32B \\\r\n    --seed 42 \\\r\n    --disable-log-requests \\\r\n    --gpu-memory-utilization 0.98 \\\r\n    --max-num-batched-tokens 2048 \\\r\n    --max-num-seqs 256 \\\r\n    --tensor-parallel-size $TP \\\r\n    --max-model-len $MAX_MODEL_LEN&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9b50&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;div align="left"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;&lt;table&gt;&lt;colgroup&gt;&lt;col/&gt;&lt;col/&gt;&lt;/colgroup&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;パラメータ&lt;/span&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;チューニングの解説と影響&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;--tensor-parallel-size $TP&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;モデルの重みをいくつの TPU チップに分割して配置するかを指定します。今回は v6e-4 (チップ 4 つ) を利用するため 4 を設定。32B という巨大なモデルを単一チップのメモリ内に載せることは不可能ですが、並列処理によって高速に分散処理が可能になります。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;--gpu-memory-utilization&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU の HBM（High Bandwidth Memory）のうち、どれだけを KV キャッシュ領域等のために予約するかの割合。デフォルト値よりも高い 0.98 まで引き上げることで、より多くのリクエストを同時処理（バッチ化）できるようになり、全体スループットが向上します。ただし、高すぎるとメモリ不足 (OOM) でクラッシュするリスクがあります。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;--max-model-len&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;入力プロンプトと出力トークンの最大合計長。モデル本来の最大コンテキスト長（例: 32k など）をそのまま受け入れる設定にすると大量の KV キャッシュ用メモリを事前確保してしまい、結果的にバッチサイズが小さくなります。ユースケースに合わせて 4096 などに制限することで、同時並行処理数（max-num-seqs）を最大化でき効率的です。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;--max-num-seqs / -batched-tokens&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;一度に処理するシーケンスの最大数とトークンの最大数。これらを増やすと全体のスループット (tok/s) は上がりますが、個々のリクエストのレスポンスタイム（TTFT など）が低下するトレードオフの関係にあります。ユースケースに合わせて調整します。&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;4. [オプション] INT8 量子化 (W8A8) を用いた Serving&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU v6e の性能をさらに引き出し、巨大なモデルのメモリ使用量を削減するために、INT8（W8A8）量子化を有効化してモデルをサーブすることが可能です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;vLLM-TPU では内部的に Qwix と呼ばれる JAX 向け量子化ライブラリを使用します。量子化のためのコンフィグファイルはコンテナ内にすでに存在していることがほとんどですが、なかった場合は以下の手順で YAML 形式の設定ファイルを作成し、そのファイルを --additional-config オプションを用いてサーバー起動時に読み込ませてください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;量子化設定ファイル (int8_default.yaml) の作成&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;quot;cat &amp;lt;&amp;lt;EOF &amp;gt; int8_default.yaml\r\nqwix:\r\n  rules:\r\n    - module_path: &amp;#x27;.*&amp;#x27;\r\n      weight_qtype: &amp;#x27;int8&amp;#x27;\r\n      act_qtype: &amp;#x27;int8&amp;#x27;\r\nEOF&amp;quot;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9af0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;INT8 有効化による vLLM サーバーの起動&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;export MAX_MODEL_LEN=4096\r\nexport TP=4\r\n\r\nvllm serve Qwen/Qwen3-32B \\\r\n    --seed 42 \\\r\n    --disable-log-requests \\\r\n    --gpu-memory-utilization 0.98 \\\r\n    --max-num-batched-tokens 2048 \\\r\n    --max-num-seqs 256 \\\r\n    --tensor-parallel-size $TP \\\r\n    --max-model-len $MAX_MODEL_LEN \\\r\n    --additional-config=\&amp;#x27;{&amp;quot;quantization&amp;quot;: &amp;quot;int8_default.yaml&amp;quot;}\&amp;#x27;&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9040&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ファイルの意味と量子化の仕組みについて&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;設定ファイル (int8_default.yaml) の役割:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Qwix に対する量子化ルールの定義ファイルです。module_path: '.*' によってモデル内のすべてのレイヤーを対象とし、重み (weight_qtype) と活性化関数 (act_qtype) の双方を int8 フォーマットとして扱うよう指示します。これを W8A8 (Weight 8-bit, Activation 8-bit) 量子化と呼びます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;量子化の方法:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; vLLMがモデルをロードして XLA コンパイルする際、このルールに基づき動的に計算グラフが書き換えられます。ロードされる FP16/BF16 の重みは TPU メモリである HBM 上で INT8 に圧縮・変換され、推論時にも INT8 の行列積として実行されます。これにより、メモリ帯域のボトルネックが緩和されると同時に、TPU v6e に搭載された強力な INT8 演算器の性能が引き出され、スループットの向上とレイテンシの削減が期待できるでしょう。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;利用するモデル:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Qwen3-32B-GPTQ-Int8 などの FP8 や INT8 ですでに Weight が保存されたモデルはフォーマットが vllm-tpu でサポートされていない可能性があるため、基本的には BF16 の重みをロードできるように HF 上の Qwen3-32B などのデフォルトモデルを利用して Post-Quantization を行うことを推奨します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;上記の vllm serve コマンドでモデルの serve に成功すると Application startup complete. というメッセージが表示されます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/modelserv.max-1000x1000.png"
        
          alt="modelserv"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;5. 動作確認とベンチマーク&lt;/strong&gt;&lt;/h3&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Step 5.1. API エンドポイントへのテストリクエスト&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;別のコンソールを開いて VM およびコンテナへ接続し、OpenAI 互換の API エンドポイント経由で推論テストを行いましょう。新しいコンソールの方で環境変数を設定していない場合は、以下のように再度設定を行ってから SSH コマンドを実施してください。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;export TPU_NAME=takashix-tpuv6e\r\nexport ZONE=us-east5-a\r\nexport PROJECT=takashix-tpu&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9490&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;VM への SSH 接続&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;gcloud compute tpus tpu-vm ssh $TPU_NAME --project $PROJECT --zone=$ZONE&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9df0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;コンテナへの接続&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;sudo docker exec -it $USER-vllm bash&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591ab9610&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;推論テストの実施&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;curl http://localhost:8000/v1/completions \\\r\n    -H &amp;quot;Content-Type: application/json&amp;quot; \\\r\n    -d \&amp;#x27;{\r\n        &amp;quot;model&amp;quot;: &amp;quot;Qwen/Qwen3-32B&amp;quot;,\r\n        &amp;quot;prompt&amp;quot;: &amp;quot;I love the mornings, because &amp;quot;,\r\n        &amp;quot;max_tokens&amp;quot;: 200,\r\n        &amp;quot;temperature&amp;quot;: 0\r\n    }\&amp;#x27;&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f65911b1fd0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以下のようにレスポンスが返ってくれば成功です。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;{&amp;quot;id&amp;quot;:&amp;quot;cmpl-aa8f0d83a90554a0&amp;quot;,&amp;quot;object&amp;quot;:&amp;quot;text_completion&amp;quot;,&amp;quot;created&amp;quot;:1773895036,&amp;quot;model&amp;quot;:&amp;quot;Qwen/Qwen3-32B&amp;quot;,&amp;quot;choices&amp;quot;:[{&amp;quot;index&amp;quot;:0,&amp;quot;text&amp;quot;:&amp;quot;1) I get to see the sun rise and 2) I get to see the sun rise. I know, I know, it\&amp;#x27;s the same thing, but I like to think of it as two different reasons. Anyway, I was out there this morning, and I saw the sun rise. It was beautiful. The sky was all pink and orange and yellow, and the sun was just coming up over the horizon. I took a picture of it, but it didn\&amp;#x27;t turn out very well. The colors were all washed out, and the sun was just a white blob. I guess that\&amp;#x27;s why they say a picture is worth a thousand words. I can\&amp;#x27;t even describe how beautiful it was. I was so inspired, I went inside and made a pot of coffee. I used my favorite coffee beans, the ones that are from Ethiopia. They have a really strong flavor, and they make my coffee taste like it\&amp;#x27;s from a coffee shop. I added some milk and a little&amp;quot;,&amp;quot;logprobs&amp;quot;:null,&amp;quot;finish_reason&amp;quot;:&amp;quot;length&amp;quot;,&amp;quot;stop_reason&amp;quot;:null,&amp;quot;token_ids&amp;quot;:null,&amp;quot;prompt_logprobs&amp;quot;:null,&amp;quot;prompt_token_ids&amp;quot;:null}],&amp;quot;service_tier&amp;quot;:null,&amp;quot;system_fingerprint&amp;quot;:null,&amp;quot;usage&amp;quot;:{&amp;quot;prompt_tokens&amp;quot;:7,&amp;quot;total_tokens&amp;quot;:207,&amp;quot;completion_tokens&amp;quot;:200,&amp;quot;prompt_tokens_details&amp;quot;:null},&amp;quot;kv_transfer_params&amp;quot;:null}&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f65906e2be0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Step 5.2. ベンチマークテストの実施&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;推論サーバーが正しく稼働していることが確認できたら、vLLM に同梱されている公式ベンチマークスクリプトを用いて、本番環境を模した負荷テストを実施しましょう。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;export MAX_INPUT_LEN=1800\r\nexport MAX_OUTPUT_LEN=128\r\nexport HF_TOKEN=&amp;lt;your HF token&amp;gt;\r\n\r\ncd /workspace/vllm\r\nvllm bench serve \\\r\n    --backend vllm \\\r\n    --model &amp;quot;Qwen/Qwen3-32B&amp;quot;  \\\r\n    --dataset-name random \\\r\n    --num-prompts 1000 \\\r\n    --random-input-len=$MAX_INPUT_LEN \\\r\n    --random-output-len=$MAX_OUTPUT_LEN \\\r\n    --seed 100&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f65906e23a0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ベンチマークパラメータの意味と影響：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ここでは、1000 個のリクエスト（--num-prompts 1000）を並行してサーバーに投げ込んでいます。--random-input-len と --random-output-len を変えることで、たとえば入力を長くすれば RAG のような prefill 負荷が高いケースを、入出力を同程度にすれば翻訳や対話のような decode 負荷が高いケースを再現できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;入力トークン長（今回は 1800）を長く設定すると、モデルの Prefill（初回計算）フェーズの負荷が高まり、TTFT（Time To First Token: 最初のトークンが出力されるまでの時間）が増大する傾向があります。逆に、このベンチマーク環境で出力スループットを示す Output token throughput (tok/s) が大きく表示されていれば、TPU の並列計算能力をしっかり引き出せている証拠となります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ベンチマーク結果の例：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;結果 1 - 本ガイド記載のパラメータ通りでのベンチマーク (INT8 量子化なし)&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;============ Serving Benchmark Result ============\r\nSuccessful requests:                     1000      \r\nFailed requests:                         0         \r\nBenchmark duration (s):                  112.72    \r\nTotal input tokens:                      1800000   \r\nTotal generated tokens:                  128000    \r\nRequest throughput (req/s):              8.87      \r\nOutput token throughput (tok/s):         1135.59   \r\nPeak output token throughput (tok/s):    2965.00   \r\nPeak concurrent requests:                1000.00   \r\nTotal token throughput (tok/s):          17104.85  \r\n---------------Time to First Token----------------\r\nMean TTFT (ms):                          54347.41  \r\nMedian TTFT (ms):                        54432.95  \r\nP99 TTFT (ms):                           108306.56 \r\n-----Time per Output Token (excl. 1st token)------\r\nMean TPOT (ms):                          99.48     \r\nMedian TPOT (ms):                        104.55    \r\nP99 TPOT (ms):                           105.25    \r\n---------------Inter-token Latency----------------\r\nMean ITL (ms):                           99.49     \r\nMedian ITL (ms):                         113.47    \r\nP99 ITL (ms):                            114.83    \r\n==================================================&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f659c1ecca0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;結果 2 - 本ガイド記載のパラメータ通りでのベンチマーク (INT8 量子化あり)&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;============ Serving Benchmark Result ============\r\nSuccessful requests:                     1000      \r\nFailed requests:                         0         \r\nBenchmark duration (s):                  99.15     \r\nTotal input tokens:                      1800000   \r\nTotal generated tokens:                  128000    \r\nRequest throughput (req/s):              10.09     \r\nOutput token throughput (tok/s):         1290.96   \r\nPeak output token throughput (tok/s):    3904.00   \r\nPeak concurrent requests:                1000.00   \r\nTotal token throughput (tok/s):          19445.13  \r\n---------------Time to First Token----------------\r\nMean TTFT (ms):                          47918.69  \r\nMedian TTFT (ms):                        47875.01  \r\nP99 TTFT (ms):                           95451.81  \r\n-----Time per Output Token (excl. 1st token)------\r\nMean TPOT (ms):                          97.67     \r\nMedian TPOT (ms):                        103.41    \r\nP99 TPOT (ms):                           103.56    \r\n---------------Inter-token Latency----------------\r\nMean ITL (ms):                           97.68     \r\nMedian ITL (ms):                         103.34    \r\nP99 ITL (ms):                            104.47    \r\n==================================================&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f659158a520&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;結果 3 - 非同期スケジューリング有効でのベンチマーク (INT8 量子化あり)&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;利用コマンド&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;vllm serve Qwen/Qwen3-32B \\\r\n    --seed 42 \\\r\n    --disable-log-requests \\\r\n    --gpu-memory-utilization 0.98 \\\r\n    --max-num-batched-tokens 2048 \\\r\n    --max-num-seqs 256 \\\r\n    --tensor-parallel-size $TP \\\r\n    --max-model-len $MAX_MODEL_LEN \\\r\n    --async-scheduling \\\r\n    --additional-config=\&amp;#x27;{&amp;quot;quantization&amp;quot;:&amp;quot;int8_default.yaml&amp;quot;}\&amp;#x27;&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f659c3dc5b0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;============ Serving Benchmark Result ============\r\nSuccessful requests:                     1000      \r\nFailed requests:                         0         \r\nBenchmark duration (s):                  91.67     \r\nTotal input tokens:                      1800000   \r\nTotal generated tokens:                  128000    \r\nRequest throughput (req/s):              10.91     \r\nOutput token throughput (tok/s):         1396.35   \r\nPeak output token throughput (tok/s):    4689.00   \r\nPeak concurrent requests:                1000.00   \r\nTotal token throughput (tok/s):          21032.45  \r\n---------------Time to First Token----------------\r\nMean TTFT (ms):                          44362.33  \r\nMedian TTFT (ms):                        44326.34  \r\nP99 TTFT (ms):                           88584.15  \r\n-----Time per Output Token (excl. 1st token)------\r\nMean TPOT (ms):                          90.71     \r\nMedian TPOT (ms):                        96.22     \r\nP99 TPOT (ms):                           96.39     \r\n---------------Inter-token Latency----------------\r\nMean ITL (ms):                           90.71     \r\nMedian ITL (ms):                         96.17     \r\nP99 ITL (ms):                            97.31     \r\n==================================================&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f659c4425b0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;非同期スケジューリングの有効化 (--async-scheduling)&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;CPU 側のリクエストスケジューリングと、TPU 側のモデル実行を非同期で行うことで、ホストとデバイス間の待機時間をなくし、スループットを数 % 〜 10 % 程度押し上げる効果が確認されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;結果の比較&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以下の表にそれぞれの条件でのスループットを比較したところ、INT8 での量子化を行い非同期スケジューリングの有効化も併用すると 123 % のパフォーマンス向上がみられました。&lt;/span&gt;&lt;/p&gt;
&lt;div align="left"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;&lt;table&gt;&lt;colgroup&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;/colgroup&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;strong style="vertical-align: baseline;"&gt;Configurations&lt;/strong&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;strong style="vertical-align: baseline;"&gt;Mean TTFT (ms)&lt;/strong&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;strong style="vertical-align: baseline;"&gt;Total token throughput (tok/s) &lt;/strong&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;strong style="vertical-align: baseline;"&gt;TTFT&lt;/strong&gt;&lt;strong style="vertical-align: baseline;"&gt;Improvement&lt;/strong&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;th scope="col" style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;strong style="vertical-align: baseline;"&gt;Throughput Improvement&lt;/strong&gt;&lt;/p&gt;
&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;INT8 量子化なし&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;54,347.41&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;17104.85&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;100 %&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;100 %&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;INT8 量子化あり&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;47918.69&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;19445.13&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;113 %&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;114 %&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;INT8 量子化あり +&lt;/span&gt;&lt;/p&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;非同期スケジューリングあり&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;44,362.33&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;21032.45&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;123 %&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p style="text-align: center;"&gt;&lt;span style="vertical-align: baseline;"&gt;123 %&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/benchchart.max-1000x1000.png"
        
          alt="benchchart"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;量子化に伴うモデル精度の変化には注意を払う必要がありますが、チューニングを行う際にはぜひ今回利用したオプションもご参照ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;6. クリーンアップ：リソースの削除&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;検証が完了したら、余分なコストや Quota の消費を防ぐため、リソースの削除を行います。通常の VM と異なり、キューに格納されたリソースは「SUSPENDED」などの状態に関係なく Quota の割り当てを消費し続けます。今後の別の要求がブロックされるのを防ぐため、明示的に削除コマンドを実行しましょう。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;gcloud alpha compute tpus queued-resources delete $QR_ID \\\r\n   --zone=${ZONE} --force&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6590acf700&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Warning:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ハンズオン終了後は、上記の queued-resources delete コマンドを実行してください。tpu-vm delete だけではキューのエントリが残り、Quota 消費の原因となる可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;h2&gt;&lt;strong style="vertical-align: baseline;"&gt;まとめ&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本記事では、TPU v6e 上で DWS Flex Start を活用した効率的なリソース調達と、vLLM を用いた推論環境の構築・評価までの一連の流れをご紹介しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;他の Model などの Recipe は以下のリポジトリに公開されていますのでご参照ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://github.com/AI-Hypercomputer/tpu-recipes/tree/main/inference/trillium/vLLM" rel="noopener" target="_blank"&gt;&lt;span style="vertical-align: baseline;"&gt;https://github.com/AI-Hypercomputer/tpu-recipes/tree/main/inference/trillium/vLLM&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Flex Start の活用によるリソース枯渇状態からのプロビジョニング成功率向上、vllm-tpu コンテナを用いた容易な最適化環境の構築、そして gpu-memory-utilization などのパラメータチューニングによるスループットとレイテンシのバランス調整は、本番環境における大規模モデル運用において非常に重要なノウハウとなります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ぜひみなさんの LLM ワークロードでも試してみてください。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 01 May 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/infrastructure/lets-try-llm-inference-with-cloud-tpu-and-vllm/</guid><category>Compute</category><category>Infrastructure</category><media:content height="540" url="https://storage.googleapis.com/gweb-cloudblog-publish/images/tpu_ESHp6K4.max-600x600.png" width="540"></media:content><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Cloud TPU と vLLM で LLM 推論を試そう — リソース確保からベンチマークまで</title><description></description><image>https://storage.googleapis.com/gweb-cloudblog-publish/images/tpu_ESHp6K4.max-600x600.png</image><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/infrastructure/lets-try-llm-inference-with-cloud-tpu-and-vllm/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Takashi Sato </name><title>AI Infrastructure Specialist, Google Cloud Japan</title><department></department><company></company></author></item><item><title>第 8 世代 TPU の内幕: アーキテクチャの詳細</title><link>https://cloud.google.com/blog/ja/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 23 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の TPU 設計理念では、常にスケーラビリティ、信頼性、効率性という 3 つの柱が中心に据えられてきました。AI モデルが高密度大規模言語モデル（LLM）から大規模な混合エキスパート（MoE）や推論重視のアーキテクチャへと進化するにつれて、ハードウェアは 1 秒あたりの浮動小数点演算（FLOPS）を増やすだけでなく、最新のワークロードに固有の演算強度に対応できるように進化する必要に迫られています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント型 AI の台頭により、長いコンテキスト ウィンドウと複雑な逐次ロジックを処理できるインフラストラクチャが必要になっています。同時に、現在のデータ アーキテクチャの次に必要となる進化として「世界モデル」が登場しています。つまり新しいエージェントは、リスクを伴う試行錯誤ではなく「想像力」を通じて、将来のシナリオをシミュレートし、結果を予測し、学習するものとなっています。第 8 世代 TPU（TPU 8t と TPU 8i）は、上述の課題に対する Google の答えです。すべてのワークロードが、トレーニングの最初のトークンからマルチターン推論チェーンの最終ステップまで可能な限り最も効率的なパスで実行されるようにします。TPU 8t と TPU 8i は Google DeepMind の Genie 3 のような世界モデルを効率的にトレーニングしてサービングできるように構築されているため、数百万のエージェントが多様なシミュレーション環境で推論をトレーニングして改良していくことができます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 8: 特化された設計&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;事前トレーニング、トレーニング後、リアルタイム サービングのインフラストラクチャ要件はそれぞれ異なることを踏まえ、第 8 世代 TPU では TPU 8t と TPU 8i という 2 つの異なるシステムを導入しています。これらの新しいシステムは、AI Hypercomputer という、ハードウェア、ソフトウェア、ネットワーキングを 1 つに統合して AI ライフサイクル全体を強化する Google Cloud のスーパーコンピューティング アーキテクチャの重要なコンポーネントになります。TPU 8t と TPU 8i のどちらのシステムも、Google AI スタックのコア DNA を共有して、AI ライフサイクル全体をサポートしますが、それぞれが対処するボトルネックと、効率の最適化を図る開発の段階は異なります。これに加え、第 8 世代 TPU システム全体に Arm ベースの Axion CPU ヘッダーを統合し、データ準備のレイテンシによって発生するホストのボトルネックを解消しました。Axion は、複雑なデータの前処理とオーケストレーションを処理するためのコンピューティング ヘッドルームを提供するため、TPU は常にフィードされた状態に維持されて、停止することがありません。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 8t: 事前トレーニングの原動力&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な事前トレーニングとエンベディングを多用するワークロード向けに最適化された TPU 8t は、実績のある 3D トーラス型ネットワーク トポロジを、1 つの Superpod で 9,600 個のチップというさらに大きなスケールで活用しています。TPU 8t は、トレーニングがスケジュールどおりに実行されるように、数百規模の Superpod 全体にわたって最大限のスループットを実現するように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU 8t は、前世代の TPU と比較して次のような点で進化しています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;SparseCore の利用&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: TPU 8t の中核となっている SparseCore は、エンベディング検索の不規則なメモリアクセス パターンを処理するために設計された専用のアクセラレータです。行列乗算ユニット（MXU）が行列演算を処理する一方で、SparseCore はデータ依存の all-gather 演算を他の集団演算とともにオフロードして、汎用チップでよく問題となるゼロ演算におけるボトルネックを回避します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;VPU / MXU のオーバーラップとバランスの取れたスケーリング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: TPU 8t は、プロビジョニングされた FLOP の使用率を最大化するように設計されています。このアーキテクチャは、よりバランスの取れた Vector Processing Unit（VPU）のスケーリングを実装することで、ベクトル演算の時間を最小限に抑えます。これにより、量子化、softmax、レイヤ正規化を MXU での行列乗算と効果的に重ねられるようになるため、チップは順次ベクトルタスクを待つことなく、常にビジー状態を維持します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ネイティブ FP4&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: TPU 8t では、メモリ帯域幅のボトルネックを克服するためにネイティブ 4 ビット浮動小数点（FP4）を導入しています。FP4 の導入により、低精度の量子化でも大規模モデルの精度を維持しながら MXU のスループットを倍増させています。パラメータあたりのビット数を減らすことで、プラットフォームでのエネルギー消費量の多いデータ移動が最小限に抑えられ、コンピューティングのピーク使用率に対応するローカル ハードウェア バッファに、より大きなモデルレイヤを収められるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_v4.max-1000x1000.png"
        
          alt="1 v4"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="c3frb"&gt;図 1: TPU 8t ASIC のブロック図&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Virgo Network トポロジと最大 4 倍のデータセンター ネットワークの増加&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: TPU 8t の膨大なデータ要件をサポートするために、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/networking/introducing-virgo-megascale-data-center-fabric"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Virgo Network を導入&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;しました。この新しいネットワーキング アーキテクチャにより、データセンター ネットワーク（DCN）を介した TPU 8t トレーニングでの DCN 帯域幅が最大 4 倍に増加しています。Virgo Network は、最新の AI ワークロードに伴う極めて厳しい要件に対応するように設計されたスケールアウト ファブリックです。Virgo Network は高基数スイッチを基盤としているため、スイッチあたりのポート数を増やしてネットワーク レイヤの数を削減できます。このことから、Virgo Network ではフラットな 2 レイヤのノンブロッキング トポロジを採用しています。このようにネットワーク階層を最小限に抑えることで、従来のデータセンター ネットワークと比べ、レイテンシが大幅に短縮されます。Virgo Network の特徴となっているのは、独立した複数の制御ドメインで TPU 8t チップを接続する、マルチプレーン設計です。コンピューティング サービスとストレージ サービスにアクセスするために、TPU 8t ラックは Jupiter の North-South ファブリックにも接続されます。この合理化されたアーキテクチャは、世界最大のトレーニング クラスタを、しかも高可用性を確保した状態で実現するために必要となる、大規模な二分割帯域幅と確定的低レイテンシを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;前世代比で、チップ間相互接続（ICI）のスケールアップ帯域幅が 2 倍、スケールアウト DCN 帯域幅が最大 4 倍の TPU 8t は、データ ボトルネックを大幅に削減します。さらに、フロンティア モデルの開発を加速するために、Google は単一のクラスタの枠を超えて分散トレーニングをスケールできるようにしています。具体的には、&lt;/span&gt;&lt;a href="https://docs.jax.dev/en/latest/index.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;JAX&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/ai-hypercomputer/docs/workloads/pathways-on-cloud/pathways-intro"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Pathways&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を組み合わせることで、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;単一のトレーニング クラスタ内で 100 万個を超える TPU チップに対して&lt;/strong&gt;&lt;a href="https://jax-ml.github.io/scaling-book/" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;スケーリングを提供できるようになりました&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;。Virgo Network では、1 つのファブリックで 134,000 個以上の TPU 8t チップをリンクして、最大 47 ペタビット/秒のノンブロッキング二分割帯域幅を使用できます。この場合のファブリックは、160 万エクサフロップスを超える演算能力を、ほぼ線形なスケーリング性能で提供します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_TPU_8t_rack_level_connectivity_to_Virgo_.max-1000x1000.png"
        
          alt="2 TPU 8t rack level connectivity to Virgo fabric"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="c3frb"&gt;図 2: TPU 8t ラックレベルでの Virgo ファブリックへの接続&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;ストレージ アクセスの高速化: &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;TPU 8t には &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;TPUDirect RDMA&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;TPUDirect Storage&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt; を導入しています。TPUDirect RDMA を使用すると、ホスト CPU と DRAM をバイパスして、TPU のメモリ（HBM）とネットワーク インターフェース カード（NIC）の間でデータを直接転送できます。これにより、レイテンシとホストシステムのボトルネックが低減されて、TPU 間通信の有効帯域幅が増加します。同様に、TPUDirect Storage は CPU ホストのボトルネックを回避するために、TPU と 10T Lustre などの高速マネージド ストレージ間の直接メモリアクセスを可能にします。したがって、大量のデータを転送する場合は帯域幅が実質的に倍増します。このアーキテクチャでは、シリコンがトレーニング データをラインレートで取り込めることから、大規模なマルチモーダル データセットを処理する場合でも。MXU は完全に飽和した状態に維持されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;数百ペタバイトのデータセットを直接シリコンにルーティングするために &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/storage-data-transfer/next26-storage-announcements"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Managed Lustre 10T&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と TPUDirect Storage を組み合わせることで、TPU 8t はデータ取り込みのボトルネックによって発生するトレーニングの遅延を防ぎます。これにより、第 7 世代の Ironwood TPU でトレーニングする場合と比較して、ストレージ アクセスが 10 倍高速化されます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_rq0yjyX.max-1000x1000.png"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="c3frb"&gt;図 3: 上の図は、TPUDirect Storage を使用しない場合のデータ転送パスを示しています。下の図は、TPUDirect Storage を使用した場合の 2 つの TPU 8t チップ間の TPU 8t データ転送と、Managed Lustre 10T ストレージを使用した TPUDirect Storage を示しています。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 8i: サンプリングとサービングのスペシャリスト&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;トレーニング後の高度な並列推論向けに最適化された TPU 8i は、Google の最高水準のオンチップ SRAM、新しい Collectives Acceleration Engine（CAE）と、Boardfly と呼ばれる、サービングに最適化されたネットワーク トポロジを使用して設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;大容量のオンチップ SRAM:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 前世代比で 3 倍のオンチップ SRAM を搭載した TPU 8i は、より大きな KV キャッシュを完全にシリコン上でホストできるため、ロングコンテキストのデコード中に発生するコアのアイドル時間を大幅に短縮できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_v1_nUZDsJM.max-1000x1000.png"
        
          alt="4 v1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="c3frb"&gt;図 4: TPU 8i ASIC のブロック図&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Collectives Acceleration Engine（CAE）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: TPU 8i は サンプリングのボトルネックを解消するために CAE を使用します。CAE は、特に自己回帰デコードと「chain-of-thought」処理で必要となる集約ステップと同期ステップを加速して、コア全体の結果をほぼゼロのレイテンシで集約します。各 TPU 8i チップには、コアダイ上に 2 つの Tensor Core（TC）と、チップレット ダイ上に 1 つの CAE があります。これらは、前世代の Ironwood TPU で使用されているコアダイ上の 4 つの SparseCore（SC）に代わるものです。TPU 8i は、専用の CAE を統合することで、集団演算のオンチップ レイテンシをさらに 5 分の 1 に短縮しています。集団演算あたりのレイテンシが短縮されるということは、待機時間が短縮されることを意味します。これは、数百万のエージェントを同時に実行するために必要なスループットの向上に直接つながります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Boardfly ICI トポロジ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 3D トーラスでは、数千個のチップを接続して 1 つの集合体として使用できますが、大規模なメッシュではチップ間のホップ数が多くなり、全対全レイテンシが高くなります。8i では、複数のチップが全結合ボードで接続され、こうしたボードがグループに集約されるという仕組みを変更しました。高基数設計を採用して、最大 1,152 個のチップを接続することで、ネットワーク直径と、データパケットがシステムを通過するために必要なホップ数を削減しています。全対全通信（MoE モデルと推論モデルの中核）に必要となるホップ数を大幅に削減する Boardfly は、通信集約型のワークロードのレイテンシを最大 50% 短縮します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5_I1mUzjb.max-1000x1000.png"
        
          alt="5"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="c3frb"&gt;図 5: TPU 8i の階層的な Boardfly トポロジ。4 つの全結合チップを構成要素とし、8 枚のボードで構成される全結合グループへと拡張。これらのグループ 36 個を全結合することで、1 つの TPU 8i ポッドを構成&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Boardfly は次の要素で構成されており、そのトポロジは本質的に階層型です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;構成要素（BB）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 各トレイは内部 ICI リンクを使用して 4 チップからなるリングを形成し、より広範なネットワーキングに対応するための 16 個の外部接続を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;グループ（G）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 8 枚のボードが銅線ケーブルで全結合されて、ローカル グループが作成されます。グループ内の通信には、利用可能な外部リンクのうち 11 個が使用されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Pod 構造:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 最終的なアーキテクチャは、光回路スイッチ（OCS）を介してリンクされた 36 のグループ（最大 1,024 個のアクティブなチップ）にスケールします。どのチップ間の通信でも、最大レイテンシは 7 ホップ分となります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;詳細: Boardfly とトーラスの数学&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;8i でトーラスから移行している理由は、突き詰めるところ、ネットワーク直径にあります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;3D トーラスでノードが配置されるグリッドでは、各次元がリングのように折り返されます。8 x 8 x 16（1,024 チップ）構成で最も遠いチップに到達するには、パケットが各リングの半分の距離を移動する必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;3D トーラス = 8/2（X）+ 8/2（Y）+ 16/2（Z）= 16 ホップ&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;トーラスは、高密度なトレーニングに通常伴う隣接ノード間の通信には非常に効率的ですが、全対全の通信パターンではレイテンシが犠牲になります。推論モデルと MoE の時代では、トークンをルーティングするために、どのチップも他のいずれかのチップと通信する可能性があるため、ホップ数が重要になります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Boardfly の高基数トポロジは、&lt;/span&gt;&lt;a href="https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/34926.pdf" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Dragonfly&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; トポロジの原則にヒントを得たものです。Google はボードのグループ間を直接結ぶ長距離の光リンクの数を増やすという方法で、ネットワークをフラット化しています。同じ 1,024 チップの Pod の場合、Boardfly はネットワーク直径を 16 ホップからわずか 7 ホップにまで削減します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ネットワーク直径が 56% 縮小するということは、テール レイテンシが短縮されることに直接つながるため、TPU 8i CAE はデータがポッド経由で到着するのを待機する必要がなくなります。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/6_Qu7H2lI.max-1000x1000.png"
        
          alt="6"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="c3frb"&gt;図 6: TPU 8i Pod の光回路スイッチを介した最大 7 ホップの ICI ネットワーク直径の視覚的表現&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 8t と TPU 8i の概要&lt;/strong&gt;&lt;/h4&gt;
&lt;div align="left"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;&lt;table&gt;&lt;colgroup&gt;&lt;col/&gt;&lt;col/&gt;&lt;col/&gt;&lt;/colgroup&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;機能&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 8t&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 8i&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;主なワークロード&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な事前トレーニング&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;サンプリング、サービング、推論&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ネットワーク トポロジ&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;3D トーラス&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Boardfly &lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;専用チップの機能&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;SparseCore（エンベディング）と LLM デコーダ エンジン&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;CAE（Collectives Acceleration Engine）&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;HBM 容量&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;216 GB&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;288 GB&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;オンチップ SRAM（Vmem）&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;128 MB&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;384 MB&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ピーク FP4 PFLOPS&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;12.6&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;10.1&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;HBM 帯域幅&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;6,528 GB/秒&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;8,601 GB/秒（TPU 8t の約 1.3 倍）&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;CPU ヘッダー&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Arm Axion&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: middle; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Arm Axion&lt;/strong&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ソフトウェアの有効化: パフォーマンス重視の AI スタック&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ハードウェアの性能は、それを動かすソフトウェアの性能に左右されます。第 8 世代の TPU は、第 7 世代の Ironwood TPU で Google が先駆けて開発したパフォーマンス重視のスタックを基盤に構築されています。このスタックは、高レベルのフレームワークの抽象化を犠牲にすることなく、カスタム カーネルを容易に開発できるように設計されたものです。このスタックには以下が含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Pallas と Mosaic&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Google は、Python でハードウェア対応のカーネルを記述できる &lt;/span&gt;&lt;a href="https://docs.jax.dev/en/latest/pallas/tpu/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Pallas&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; というカスタム カーネル言語に対するトップクラスのサポートを提供しています。これにより、TPU 8i CAE と TPU 8t SparseCore のパフォーマンスを最大限に引き出すことができます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ネイティブな PyTorch エクスペリエンス: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、&lt;/span&gt;&lt;a href="https://developers.googleblog.com/torchtpu-running-pytorch-natively-on-tpus-at-google-scale/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;TPU のネイティブな PyTorch サポート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;のプレビュー版が公開されました。現在 PyTorch でモデルを構築してサービングしている場合は、これまで以上に簡単に TPU の使用を開始できます。お客様が利用しているネイティブ機能（イーガーモードなど）を完全にサポートした状態で、既存のモデルをそのまま Google の TPU に移行できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ポータビリティ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Ironwood で実行される JAX、PyTorch、Keras のコードは、第 8 世代の TPU にスケールします。XLA（Accelerated Linear Algebra）は、Broadly トポロジと CAE 同期の複雑な変換を舞台裏で処理するため、ユーザーは相互接続ではなくモデルに注力できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;世代を重ねるごとにパフォーマンスが大幅に向上しています&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ハードウェアとソフトウェアを共同設計するという Google の取り組みは、引き続き成果を上げています。第 7 世代の Ironwood TPU と比較して、第 8 世代の TPU では次のような大きな改善が見られます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;トレーニングの費用対効果&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 大規模なトレーニングにおける TPU 8t の 1 ドルあたりのパフォーマンスは、Ironwood TPU のパフォーマンスの最大 2.7 倍です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;推論の費用対効果&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 特に大規模な MoE モデルの低レイテンシ ターゲットにおける TPU 8i の 1 ドルあたりのパフォーマンスは、Ironwood TPU と比べると、最大 80% 向上します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;エネルギー効率&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: どちらのチップでも、ワットあたりのパフォーマンスが最大 2 倍向上しています。次世代 AI をサステナブルにスケーリングするうえで、これら 2 つのチップは不可欠と言えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;今後の対応&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud のお客様がイノベーションの新たな波を切り開けるよう、Google は TPU 8t と TPU 8i を、AI ライフサイクルの多面的な将来の需要に合わせてカスタマイズされた 2 つの異なる専用システムとして開発しました。TPU 8t と 8i はそれぞれ、最も要求の厳しいトレーニング ワークロード専用、サービングワークロード専用に構築されており、AI Hypercomputer のソフトウェア スタック（JAX、PyTorch、vLLM、XLA、Pathways）と完全に統合されています。Google DeepMind との緊密なコラボレーションにより、目的に特化してゼロから再設計された第 8 世代の TPU は、卓越したコスト パフォーマンスと電力効率を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;第 8 世代アーキテクチャのモジュール性は、将来に向けた明確な、かつ固有のロードマップを可能にします。コンピューティング環境の大きな変化にはインフラストラクチャのブレークスルーが必要でしたが、エージェントの時代も同じです。継続的なフィードバック ループ内で計画、実行、学習を行う推論エージェントは、元々従来のトレーニングやトランザクション推論用に最適化されているハードウェアでは、最高の効率で動作できません。その動作強度は根本的に異なるからです。第 8 世代の TPU インフラストラクチャは、こうした固有の要件に真っ向から対処できるように進化しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;第 8 世代 TPU ファミリーについて、以下の方法で詳細をご確認ください。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/resources/tpu-interest?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;第 8 世代 TPU のお問い合わせフォームを送信する&lt;/strong&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://discuss.google.dev/c/google-cloud/cloud-ai-infrastructure/ai-infrastructure-tpus/247" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;コミュニティ フォーラムに参加する&lt;/strong&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://youtu.be/wOVtSeP4aAM" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;第 8 世代 TPU のお知らせ動画を見る&lt;/strong&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/tpu?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;TPU のウェブサイトにアクセスする&lt;/strong&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Cloud、上級エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Diwakar Gupta&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Cloud、グループ プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Sabastian Mugazambi&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Thu, 30 Apr 2026 01:40:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive/</guid><category>AI &amp; Machine Learning</category><category>Google Cloud Next</category><category>TPUs</category><category>Compute</category><media:content height="540" url="https://storage.googleapis.com/gweb-cloudblog-publish/images/eighth-generation_TPU.max-600x600.jpg" width="540"></media:content><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>第 8 世代 TPU の内幕: アーキテクチャの詳細</title><description></description><image>https://storage.googleapis.com/gweb-cloudblog-publish/images/eighth-generation_TPU.max-600x600.jpg</image><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Diwakar Gupta</name><title>Distinguished Engineer, Google Cloud</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Sabastian Mugazambi</name><title>Group Product Manager, Google Cloud</title><department></department><company></company></author></item><item><title>コンピューティングの最新情報: コア ワークロードとエージェント ワークロードのスケーリング</title><link>https://cloud.google.com/blog/ja/products/compute/whats-new-in-compute-at-next26/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 23 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/whats-new-in-compute-at-next26?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud Next では、エージェントの世界における中核的な汎用ワークロードと AI ワークロードを、より高いパフォーマンスと低コストで実現するための、さまざまなコンピューティング機能を発表します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;その重要性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; IT リーダーや開発者は、エージェント型 AI と、ウェブサーバー、データベース、エンタープライズ アプリケーションといった日々のカスタマー エクスペリエンスを支える汎用ユースケースとの間で、コンピューティングへの投資とリソースのバランスを取る必要に迫られています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェントはコンピューティング インフラストラクチャに予測不能な負荷をかけることがあり、その需要はしばしば指数関数的に増加します。1 回のユーザー インタラクションであっても、数百もの同時実行（高スループットかつ低レイテンシ）タスクが瞬時に開始される場合があります。一方、汎用ワークロードは、エージェントの世界を支えるために必要なデータを生成して保持します。静的でサイロ化されたインフラストラクチャに依存してこれらのワークロードを実行すると、パフォーマンスのボトルネックや費用の増大を招くおそれがあり、需要の急増に組織として対応できなくなる可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;世界規模の旅行アプリケーションを例に考えてみましょう。単純なバカンスの検索ひとつで、エージェントによる在庫チェック、動的料金設定モデル、AI によるパーソナライズされた旅行プラン作成といった、膨大なオーケストレーションが即座にトリガーされます。最新のアーキテクチャがなければ、このような需要の急増によってコアとなる予約データベースが過負荷状態になり、業務が停止してしまう可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、柔軟なコンピューティング基盤でこの課題に対処します。汎用ワークフローとエージェント ワークフローの両方に対応する Google Cloud インフラストラクチャにより、パフォーマンス、容量、スケールをリアルタイムで柔軟に調整することで、双方のワークフローのメリットを最大限に引き出します。この動的な柔軟性は、Google Kubernetes Engine（GKE）の自動オーケストレーションと新たに導入された Agent Sandbox に直接支えられており、安全で分離された実行環境をマシンレベルの速度で即座にプロビジョニングできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;それでは、Next ‘26 で発表された新しいコンピューティング機能を詳しく見ていきましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;AI ワークロードと汎用ワークロードを同時に実行&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェントによるプランニングや強化学習は、予測不能な自律タスクのバーストを処理するために、きわめて流動性の高いコンピューティングに依存しています。エージェントが生成したコードを分離するために静的インフラストラクチャに依存すると、プロビジョニングに深刻な遅延が生じ、クラウドの予算が大幅に膨らむ可能性があります。適応型のクラウド基盤を導入することで、こうしたボトルネックを解消できます。GKE Agent Sandbox を活用すると、チームは数千もの実行環境を安全に起動できるようになります。これらのスケーラブルなサンドボックスと効率的な Google Axion プロセッサを組み合わせることで、組織は総所有コストを最適化しながら、AI イノベーションを推進できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud コンピューティングに関する最新リリースと発表の内容は次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Axion N4A の一般提供開始:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google 独自のカスタム Arm ベース Axion CPU のアジリティを活用できます。Java アプリケーション、スケールアウト ウェブサーバー、スタートアップ / エンタープライズ / パートナーが構築する SaaS など、コスト重視のワークロードにおいて、同等の現行世代 x86 ベース VM と比較して&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/axion-based-n4a-vms-now-in-preview?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;最大 2 倍優れたコスト パフォーマンス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を実現します。詳しくは&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/general-purpose-machines#n4a_series"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;コスト パフォーマンスに優れた Axion N4A を搭載した GKE Agent Sandbox の一般提供開始: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;GKE Agent Sandbox は、ハイパースケーラーの中で唯一のネイティブ サンドボックス サービスとして、スケーラブルで低レイテンシのインフラストラクチャを提供します。パフォーマンスを損なうことなく、エージェントが信頼できないコードやツール呼び出しを安全に実行できるように設計されています。Google Axion を使用すると、費用や選択肢を妥協することなく、最先端のインフラストラクチャ上にエージェントを構築できます。Google Axion N4A インスタンスで実行される GKE Agent Sandbox は、他社主要ハイパースケール クラウド プロバイダと比較して最大 30% 優れたコスト パフォーマンスを実現します。GKE Agent Sandbox は&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/machine-learning/agent-sandbox"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;からお試しいただけます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Google 初の Axion ベアメタル インスタンス「Google Axion C4A.metal」のプレビュー版を公開:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; C4A.metal インスタンスは、ネストされた仮想化に伴うパフォーマンス オーバーヘッドや複雑さを排除し、Android 開発、自動車シミュレーション、CI / CD パイプライン、セキュリティ ワークロード、カスタム ハイパーバイザに対応します。C4A.metal は今年の夏に一般提供開始予定です。詳しくは、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm?e=48754805%E2%80%9D+with+%E2%80%9Chttps://docs.cloud.google.com/compute/docs/instances/bare-metal-instances&amp;amp;hl=ja#c4a-metal"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;をご覧ください。&lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;C4 インスタンスが、すべての構成において Intel Xeon 6（Granite Rapids）のサポートを拡充: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;ネイティブ FP16 サポートを備えた Intel AMX を活用して、LLM 推論やベクトル検索などの AI ワークロードでスループットの向上、レイテンシの短縮、パフォーマンスの向上を実現します。これにより、他の大手ハイパースケーラーが提供する同等の Intel Xeon 6 ベース VM と比較して、13% 優れたコスト パフォーマンスを提供します。C4 VM は、すべての構成で Intel Xeon 6 プロセッサを搭載できます。詳しくは&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/general-purpose-machines#c4_series"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;フレキシブル CUD の拡張サポートを一般提供開始:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; フレキシブル確約利用割引により、TCO を最適化しながら、複数のリージョンと VM ファミリーにわたって費用を移行できるようになりました。サポート対象が拡大され、メモリ最適化（M1～M4）VM ファミリーと HPC 最適化（H3、H4D）VM ファミリーに加え、Cloud Run にも対応しています。詳しくは&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/committed-use-discounts-overview"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;お客様からは次のような声が寄せられています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Unity: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Unity は、Unity Vector を使用してリアルタイム AI の費用構造を再定義しています。Unity はオンデマンドの特徴処理ワークロードを Google Axion N4A インスタンスに移行することで、レイテンシを犠牲にすることなく、費用対効果を 20% 改善しました。Unity Vector が需要の増加に対応するためにスケールアップする中でも、N4A インスタンスへの移行により、サステナブルな費用で業界トップクラスのパフォーマンスを提供し続けています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Deutsche Börse: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;ドイツを代表する市場インフラストラクチャ プロバイダの Deutsche Börse は、最新世代の C4 および C4D インスタンスを含む数十もの基幹金融アプリケーションを Google Compute Engine VM に移行、モダナイズしました。これにより、レイテンシの影響を受けやすい Oracle データベースやポストトレード処理を大規模にサポートするとともに、リリース速度、運用のアジリティ、復元力の向上を実現しました。これにより、日々数百万件に及ぶ金融取引を処理するために必要な一貫したパフォーマンスを実現し、&lt;/span&gt;&lt;a href="https://cloud.google.com/customers/deutsche-boerse?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;製品化までの時間を 58% 短縮、TCO を 33% 削減&lt;/span&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;しました。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;WP Engine&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: WP Engine は、ミリ秒単位の遅延も許されない数百万件のデジタル エクスペリエンスを支えています。C4D インスタンスと N4D インスタンスで GKE クラスタを実行することで、WP Engine はモバイル デバイス向けに最適化された REST API のレイテンシを最大 60% 削減し、データ量の多いアプリケーション リクエストの処理を最大 51% 高速化しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;eDreams ODIGEO:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; eDreams ODIGEO は、ミリ秒単位の差がカスタマー エクスペリエンスを左右する、AI を活用した大規模な旅行プラットフォームを運営しています。同社は、基盤となる Java ベースの e コマース モジュールを GKE から Axion 仮想マシンへ移行しました。これにより、数週間かかっていた手動によるコード最適化が不要になり、コードを一切変更することなく P95 レイテンシを 75% も改善できました。また、従来の x86 インフラストラクチャでは達成できなかったコスト効率で、グローバル サービスをスケールできる価格性能比も実現しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Chainguard:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 基盤となるソフトウェア ビルド システムで絶対的な分離を重視する Chainguard は、新しい Axion C4A ベアメタル インスタンスをデプロイしました。これにより、パッケージ ビルドの強固なハイパーバイザ セキュリティ境界を確立し、アーキテクチャのパリティを保ったまま開発パイプラインを保護します。さらに、ビルドのパフォーマンスを損なうことなく、堅牢な保護を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;I/O やレイテンシの影響を受けやすいワークロードを同時に実行&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI ワークロードとコア ワークロードはいずれも、データの保存、読み取り、移動を単一の高性能なオペレーションとして実行できる機能に依存しています。従来、これらの処理ステージは、vCPU 数に依存するネットワークやストレージの制限によって遅延が生じ、AI モデルが機能するために必要なデータが不足してしまうことがありました。高速データアクセスを実現する Hyperdisk の強化されたパフォーマンスと、一貫した転送を実現する高性能ネットワーキングを活用することで、これらの制約を解消できます。データ パイプラインをコンピューティングとは独立してスケールできるようにすることで、AI トレーニングや I/O の影響を受けやすいワークロードは、需要のピーク時でも必要な専用帯域幅を確保でき、安定したパフォーマンスを維持できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;C4N（プレビュー版）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; モバイルアプリの同時リクエストやリアルタイムの在庫更新といった高負荷ネットワーク アプリケーションを実行すると、トラフィックのピーク時にボトルネックが発生する可能性があります。C4N は、複雑なパケット処理をオフロードする Titanium アダプタを備えており、業界トップクラスの毎秒 9,500 万パケットというスループットを実現します。他の主要なハイパースケーラーと比較して、高トラフィック ネットワーク アプリケーションにおいて 40% の性能優位性を発揮します。大規模なデータセットの高速転送を目的に設計された C4N は、VM 間で最大約 400 Gbps の帯域幅を提供し、vCPU あたりの帯域幅が 4 倍に向上しています。また、インターネット ゲートウェイを介した下り（外向き）ネットワーク帯域幅は、C4 VM と比較して 8 倍に向上しています。また、Hyperdisk Extreme を搭載した C4N は、25 GiB/秒のブロック ストレージ スループットと約 100 万 IOPS を達成し、最新のデータベースやエンタープライズ AI アプリケーションに必要な低レイテンシかつ高速のデータアクセスを実現します。C4N プレビュー版へのアクセスは&lt;/span&gt;&lt;a href="https://forms.gle/tx1XV2yDrbMrcWgo8" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;からご登録いただけます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;M4N（プレビュー版）: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;メモリ使用量の多いデータベースを実行する場合、メモリ速度を確保するためにコンピューティング コア（vCPU）をオーバープロビジョニングする必要があり、ソフトウェア ライセンス費用の増加につながります。この問題を解決するために、新しい M4N シリーズを導入しました。Hyperdisk Extreme を搭載した M4N で Oracle ワークロードを実行すると、TCO を 20% 以上削減できます。また、vCPU あたり 26.57 GiB の RAM を活用することで、はるかに少ないコア数でスケールでき、より効率的に Oracle を実行できます。M4N と Hyperdisk Extreme を組み合わせることで、主要ハイパースケーラーのなかでも、ハイメモリ インスタンスにおけるコアあたりの IOPS とスループットでトップレベルの性能を発揮します。プレビュー版には、&lt;/span&gt;&lt;a href="https://docs.google.com/forms/d/e/1FAIpQLSeTBNw_Z5SkaeVlDMgbeFPnHS_wGsrTomEDO2cI6RIQlx93qA/viewform?usp=sharing&amp;amp;ouid=101252396062406318722" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;からご登録いただけます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Z4D の発表: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;新しい Z4D インスタンスにより、I/O 集約型のワークロードを最適化し、ネットワーク ベースのストレージ ボトルネックを解消します。ノード上で最大 84 TiB の高性能ローカル SSD を直接確保することで、組織は SQL、NoSQL、ベクトル データベース向けに膨大なデータセットを処理できるようになります。Z4D は、C4N および M4N と同等の、最大 400 Gbps の VM 間帯域幅を提供します。Z4D の仮想マシンとベアメタル インスタンスは、近日中にプレビュー版としてリリースされる予定です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;お客様から寄せられた声をご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Ericsson: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;5G コアのワークロードは本質的にネットワーク負荷が高く、高スループットのパケット処理と決定論的なレイテンシが求められます。標準的なパブリック クラウド インスタンスでは、大規模環境でこれらを維持するのは容易ではありません。Google Cloud C4N を活用することで、Ericsson On-Demand を支えるネットワーク パフォーマンスの最適な選択肢を見つけました。ネットワークに最適化されたコンピューティングに重点を置いた C4N のアーキテクチャにより、Ericsson の 5G Core-as-a-Service は、最近達成した 1 Tbps など、前例のないスループット レベルを実現しながら、顧客が期待するキャリア グレードの信頼性を維持しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Teradata: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Teradata の Autonomous Knowledge Cloud は、世界最大規模の企業がエンタープライズ インテリジェンスを活用し、信頼できるデータを測定可能なビジネス成果へと変換できるようにします。顧客は Teradata を活用し、パフォーマンスと効率が価値を直接左右する、ミッション クリティカルかつ I/O 集約型の分析を大規模に実行しています。C4N インスタンスは、このような要求の厳しいワークロードに適しており、優れたコスト パフォーマンスを実現するとともに、より効率的で最適化されたデプロイをサポートします。C4N を利用することで、Teradata は顧客のインサイト獲得を加速し、安心してスケールできる環境を提供します。さらに、データと AI への投資からより大きな成果を引き出せるよう支援します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;厳しいストレージ要件に対応&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ウェブサーバー、アプリケーション、データベースなどの基盤となるワークロードには、エージェントの世界が機能するために必要なデータが蓄積されています。この重要な情報を固定的なハードウェア上でサイロ化すると、ボトルネックが発生し、企業のモダナイゼーションが完全に停滞する可能性があります。たとえば、グローバルな小売ブランドがホリデー シーズンのプロモーションを実施しているとします。しかし、従来のハードウェアではエージェント型クエリの急増に処理が追いつかず、在庫データベースがタイムアウトして、顧客のリクエストが破棄されてしまいます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;組織は、データ配信を滞らせないように、vCPU あたりの IOPS とスループットに優れた、トップレベルのパフォーマンスを発揮するデータベース ホストを必要としています。これらのアプリケーションを最新のクラウド インフラストラクチャに移行することで、総所有コストと運用スループットが大幅に向上します。戦略的なクラウド移行を通じて、モダナイゼーションを妨げるアーキテクチャ上の障壁を排除し、AI 活用に向けてデータの価値を引き出せます。スループットと容量に左右されやすいワークロード向けの、Fluid Compute の新機能をご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk Balanced の改善: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Hyperdisk Balanced は、アプリケーションやリレーショナル データベースなどの汎用ワークロード向けに、高速で効率的なブロック ストレージを提供します。Hyperdisk Balanced を使用すると、ボリュームあたり最大 2.4 GiB/秒のスループットと 16 万 IOPS を実現します。これは、他のハイパースケーラーの汎用ブロック ストレージ サービスを上回る性能であり、平均レイテンシも代替サービスよりも低く抑えられます。Hyperdisk Balanced High Availability を使用すると、SQL Server や PostgreSQL などの高可用性データベースにおいて、ディスク全体のパフォーマンスをアクティブな VM に動的にルーティングすることで、4 倍のパフォーマンス向上を実現できます。これにより、ストレージのオーバープロビジョニングが不要になります。ゼロ ダウンタイムの暗号鍵のローテーションとインスタント スナップショットの整合性グループを活用することで、より簡単にセキュリティを強化できます。これらの機能により、汎用ワークロードでの TCO 削減、パフォーマンスの向上、ワークロードのレジリエンス強化を実現できます。詳しくは&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/disks/hyperdisks"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk ML のパフォーマンス向上と Hyperdisk Exapools の一般提供:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 合計スループットが（1.2 TiB/秒から）2 TiB/秒に向上した Hyperdisk ML は、AI ストレージのボトルネック解消に貢献します。ディスクあたりのスループットが競合製品の 200 倍以上でり、貴重なアクセラレータ クラスタをアイドル状態にさせません。これにより、AI コンピューティングの ROI を最大化しながら、次世代のインテリジェント エージェントを支えます。さらに Hyperdisk Exapools は、大規模なトレーニング要件に対応するため、あらゆるハイパースケーラーの中で、AI クラスタあたり最高水準の総合ブロック ストレージ性能と容量を提供します。&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/disks/hd-types/hyperdisk-ml"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk ML&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/disks/hyperdisk-exapools"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk Exapools&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; について、詳細をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Z4M の発表: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;最大 168 TiB のローカル SSD と最大 400 Gbps のネットワーク帯域幅、RDMA のサポート、ベアメタル シェイプを提供し、分散並列ファイル システムや大規模な AI / ML ワークロードの実行に対応します。Z4M は Cluster Director と統合され、アクセラレータとコロケーションするオプションを提供することで、データへの高速かつ低レイテンシのアクセスを実現します。Z4M VM とベアメタル インスタンスは、2026 年第 3 四半期にプレビュー版が提供される予定です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;お客様から寄せられた声をご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Shopify&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: ブラック フライデーの週末セール期間中、&lt;/span&gt;&lt;a href="https://cloud.google.com/customers/shopify-compute?e=4875480&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Shopify は 8,100 万人の購入者に対して 1 億 3,600 万個の荷物を追跡し、146 億ドルを超える取引を処理&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;しました。この処理は、Compute Engine の Z シリーズを基盤とするストレージ上に構築された Shop アプリを使用して行われ、その間、速度や信頼性を損なうことはありませんでした。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;HubX&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 迅速なモデル読み込みがユーザー エクスペリエンスを左右する、AI 搭載モバイルアプリの膨大なポートフォリオを運用する中で、&lt;/span&gt;&lt;a href="https://cloud.google.com/customers/hubx?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;HubX は GKE に Hyperdisk ML をデプロイ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;し、深刻な I/O ボトルネックを解消しました。この専用ストレージ レイヤを活用することで、HubX は数百の同時リーダーをサポートし、トラフィックが急増するピーク時でも Pod の初期化時間を 30 倍に短縮できました。これにより、アイドル状態のアクセラレータにかかる費用を大幅に削減し、複雑な推論ワークロードを想定どおりにスケールできました。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェントの時代に対応する流動的なインフラストラクチャ&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;基盤ワークロードとエージェントが容量やパフォーマンスを奪い合う必要がなくなります。Google Cloud の Fluid Compute を活用することで、ボトルネックを回避し、基盤ワークロードと AI ワークロードの双方が連携して最大限のパフォーマンスを発揮できる、適応型のクラウド インフラストラクチャを実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;準備ができたら、&lt;/strong&gt;&lt;a href="https://console.cloud.google.com/"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt; Google Cloud コンソール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;にアクセスして、次の大規模プロジェクトに向けて VM をスピンアップしましょう。または、&lt;/span&gt;&lt;a href="https://cloud.google.com/migration-center"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Migration Center&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の AI 搭載ツールセットを使用して、費用の見積もり、ビジネスケースの作成、モダナイゼーション オプションの評価を行い、移行計画を開始することもできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;コンピューティング プラットフォーム部門プロダクト管理担当バイス プレジデント&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;、Nirav Mehta&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Thu, 30 Apr 2026 01:30:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/whats-new-in-compute-at-next26/</guid><category>Google Cloud Next</category><category>Compute</category><media:content height="540" url="https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_12_Dark.max-600x600.jpg" width="540"></media:content><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>コンピューティングの最新情報: コア ワークロードとエージェント ワークロードのスケーリング</title><description></description><image>https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_12_Dark.max-600x600.jpg</image><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/whats-new-in-compute-at-next26/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Nirav Mehta</name><title>VP, Product Management, Compute Platforms</title><department></department><company></company></author></item><item><title>Google Distributed Cloud の新たなイノベーション</title><link>https://cloud.google.com/blog/ja/topics/hybrid-cloud/google-distributed-cloud-at-next26/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 23 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/topics/hybrid-cloud/google-distributed-cloud-at-next26?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたびの &lt;/span&gt;&lt;a href="https://www.googlecloudevents.com/next-vegas" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud Next&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; において、Gemini と Google の高度な AI スタックをデータの所在地に導入する &lt;/span&gt;&lt;a href="https://cloud.google.com/distributed-cloud?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Distributed Cloud&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（GDC）の新機能を発表いたしました。これにより、AI イノベーションと主権を両立させることが可能になります。これは、「ソブリン ネオクラウド」アーキテクチャの触媒として機能します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GDC を使用すると、Google Cloud をデータセンターやエッジなど、お客様が必要とする場所で利用できるようになります。特定のセキュリティとハードウェアの要件を満たすために、2 つの異なるモデルが用意されています。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;GDC エアギャップ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;は、最大限のセキュリティとコンプライアンスを確保するために設計された Google 提供の専用ハードウェアで実行される、ネットワークから完全に分離されたデプロイです。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;GDC 接続&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;では、独自のハードウェアで、Google が管理する統合ソフトウェア ライフサイクルを利用できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これまで、データに関する厳格な規制と主権の要件を持つ企業や政府機関は、最新の AI 機能を利用できませんでした。唯一の選択肢は、自社でシステムを構築することでしたが、これは複雑で、時間と費用がかかります。GDC はその苦労を解消します。お客様は労力をかけずに、世界クラスの AI イノベーションを独自の環境で実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GDC は、AI ワークロード向けに最適化されたマネージド インフラストラクチャ、Gemini またはオープンモデルの柔軟な選択肢、費用対効果の高い効率的な推論サービスなど、オンプレミスの完全な AI ソリューションを提供します。この基盤により、データを完全に制御しながら、セキュアな AI エージェントとアプリケーションを構築して実行できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Google_Distributed_Cloud.max-1000x1000.png"
        
          alt="1 Google Distributed Cloud"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GDC の新しいイノベーションがどのように連携して、お客様のソブリン AI ワークロードをサポートするかを見ていきましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;マネージド AI インフラストラクチャ&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;オンプレミスでソブリン AI のニーズをサポートするには、コンピューティング、ストレージ、ネットワーキングの膨大なパフォーマンス要求に対応できるマネージド インフラストラクチャが必要です。オンプレミスの AI ワークロードは動的で予測不可能なため、Google はさまざまな要件で&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;最高のパフォーマンス&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を実現する、以下の新しいインフラストラクチャ イノベーションを導入しています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA Blackwell GPU&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 第 5 世代の NVIDIA NVLink を活用してデータセンター規模の帯域幅を自社環境に直接提供する &lt;/span&gt;&lt;a href="https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA Blackwell&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（NVIDIA HGX B200）および &lt;/span&gt;&lt;a href="https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA Blackwell Ultra プラットフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（NVIDIA HGX B300）GPU で AI パフォーマンスを加速します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Cloud マシン ファミリー&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: GDC はすでに、汎用ワークロード向けに &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/general-purpose-machines"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;N2 および N3&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; マシン ファミリーをサポートしていますが、新たに &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/accelerator-optimized-machines#a3-ultra-vms"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;A4&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; マシン ファミリーもサポートするようになりました。A4 マシン ファミリーは、ピーク時のコンピューティング能力が 2.25 倍に向上しており、要求の厳しい推論タスクを処理できます。また、メモリ最適化 &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/memory-optimized-machines"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;M2 と M3&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; マシン ファミリーを GDC に導入し、ERP やデータ分析など、より高いメモリ対 vCPU 比率を必要とするワークロードに対応します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ストレージのスケールとパフォーマンスの強化&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: GDC は、ゾーンあたり 6 PB のオブジェクト ストレージをサポートするようになりました（以前は 1 PB）。これは、以前のストレージ容量の 6 倍です。さらに、ゾーンごとに 30 IOPS/GB（以前は 3 IOPS/GB）を提供するようになってパフォーマンスが 10 倍に向上し、ストレージのボトルネックが最小限に抑えられます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;データセンターの基盤モデル&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GDC を使用すると、Google のフラッグシップである Gemini モデルのパワーを自社環境に直接取り込むことができます。最新世代の NVIDIA Blackwell GPU を搭載した独自の境界内でのネイティブ デプロイが可能になるため、世界クラスの生成 AI と厳格なデータ主権のギャップを埋めることができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;最新の Gemini Flash モデル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;が、GDC 接続のお客様向けに NVIDIA Blackwell および Blackwell Ultra プラットフォームで（プレビュー版として）利用可能になりました。これにより、GDC エアギャップのお客様向けの&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/topics/hybrid-cloud/gemini-is-now-available-anywhere?e=0&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;既存のサポート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;が拡充されます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Google_Distributed_Cloud.max-1000x1000.png"
        
          alt="2 Google Distributed Cloud"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Google Distributed Cloud で Gemini をデプロイしたことで、当社のグローバルな製造が大幅に改善されました。最先端の AI をローカルで実行することで、IoT データを分析してリアルタイムの予測メンテナンスと品質管理を実現し、クラウドのレイテンシを回避できます。クラウドのようなアジリティを保持しながら、IP に対する厳格なデータ主権を維持しています。」- Samsung SDS、最高経営責任者、Junhee Lee 氏&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;AI 推論サービス: Google Distributed Cloud AI ゲートウェイの導入&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;パフォーマンスを最適化し、インフラストラクチャの複雑さを抽象化するために、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ソブリン環境向けの AI ゲートウェイを導入します&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;。このインテリジェントなミドルウェアは、モデルのコントロール プレーンとして機能します。これには、次のような利点があります。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;動的リクエスト ルーティング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 推論リクエストを、ハードコードされたロジックではなく、費用、レイテンシ、精度に基づいて適切な AI モデルに自動的にルーティングします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インテリジェントなロード バランシング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 推論効率を最適化するためにリクエストをルーティングし、使用率に基づいて GPU を選択します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;割り当て管理:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; リクエストに優先順位を付け、優先度の高いアプリケーションに必要なスループットを確保し、割り当て管理の目標を達成します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;オブザーバビリティ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; すべての推論呼び出しにトレースとロギングが組み込まれており、コンプライアンスが重視される環境での監査可能性を確保できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Google_Distributed_Cloud.max-1000x1000.png"
        
          alt="3 Google Distributed Cloud"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェント型 AI アプリケーションとエージェント&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エッジで AI を真に運用化するには、組織に基盤モデル以上のものが必要です。それは、エージェント型 AI アーキテクチャ上に構築された、アクションを実行できる自律的でセキュアなエージェントです。ここに、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Distributed Cloud 向けの新しいソブリン エージェント型 AI アーキテクチャ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を発表できることを嬉しく思います。Kubernetes 上にサードパーティ プロバイダと構築されたこのアーキテクチャにより、エージェント ワークフローが、セキュアなお客様の組織の境界内で完全に実行されるようになります。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_Google_Distributed_Cloud.max-1000x1000.png"
        
          alt="4 Google Distributed Cloud"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このエージェント アーキテクチャを使用すると、開発、コーディング、データ分析などのエージェント タスク用の強力な AI エージェントを、セキュアな境界内で構築してデプロイできます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Distributed Cloud で AI をどこでも利用可能に&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GDC は、Google やその他のモデルをオンプレミスで、接続された環境でもエアギャップのある環境でもサービングするのに最適なプラットフォームであり、すべてのお客様が主権を損なうことなく AI やエージェント ソリューションを活用できるようになります。これらのプロダクトの詳細については、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/distributed-cloud/docs"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ウェブサイト&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。ここで説明したイノベーションは、ソブリン AI 時代に必要な柔軟性とセキュリティを提供します。これらのプロダクトの実際の動作をご覧になるには、&lt;/span&gt;&lt;a href="https://cloud.withgoogle.com/next/25/session-library?filters=session-type-breakouts,interest-networking#all" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GDC ブレイクアウト セッション&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;または &lt;/span&gt;&lt;a href="https://www.googlecloudevents.com/next-vegas" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Next ’26 のショーケース&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;にご参加ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Distributed Cloud、バイス プレジデント、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Muninder Sambi&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 27 Apr 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/topics/hybrid-cloud/google-distributed-cloud-at-next26/</guid><category>Compute</category><category>Google Cloud Next</category><category>Hybrid &amp; Multicloud</category><media:content height="540" url="https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_9_Light.max-600x600.jpg" width="540"></media:content><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Google Distributed Cloud の新たなイノベーション</title><description></description><image>https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_9_Light.max-600x600.jpg</image><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/topics/hybrid-cloud/google-distributed-cloud-at-next26/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Muninder Sambi</name><title>VP, Google Distributed Cloud</title><department></department><company></company></author></item><item><title>Google AI インフラストラクチャの次なる展開：エージェンティック時代に向けたスケーリング</title><link>https://cloud.google.com/blog/ja/products/compute/ai-infrastructure-at-next26/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 22 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/ai-infrastructure-at-next26?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI は、質問に答える段階から、高度な推論を行い、タスクを実行する段階へと進化しています。今日のエージェンティック時代を牽引する企業には、これらの新しい要件に合わせて設計、最適化されたコンピューティング インフラストラクチャが必要です。本日、Google Cloud Next ‘26 において、イノベーションの加速、魅力的なユーザー体験と顧客体験の提供、そしてコストとエネルギー効率の最適化を大規模に実現する、新しい AI インフラストラクチャ機能を発表します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェンティック インテリジェンスへの移行&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェンティック時代では、たった一つの意図が連鎖反応を引き起こします。チャットとは異なり、主要な AI エージェントは目標を具体的なタスクへと分解し、専門化されたエージェント群がリアルタイムで連携し、状態を保持し、強化学習を用いて成果を出します 。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このプロセスは、インタラクションごとのインテリジェンスを拡張させる一方、従来のアーキテクチャではコストの急増やパフォーマンスのボトルネックなしには対応できない複雑性をもたらします。効率的かつ効果的にスケールするには、断片化したコンポーネントや技術を手動で統合する段階から脱却しなければなりません。スマートで高速かつ、スケーラブルでコスト効率に優れたエージェンティック体験を提供するには、専用ハードウェア、オープン ソフトウェア、柔軟な利用モデルにまたがる統一されたインフラストラクチャ スタックが必要です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の &lt;/span&gt;&lt;a href="https://cloud.google.com/solutions/ai-hypercomputer?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI Hypercomputer&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、エージェンティック時代のために構築され、これらの新しい要件を満たすように設計された AI 最適化インフラストラクチャです。これは、Google のフラッグシップ モデルである Gemini、コンシューマー向け AI サービス、およびエンタープライズ向け AI ソリューションを支える基盤と同じものです。本日、以下を含む AI インフラストラクチャ ポートフォリオの大幅な拡張を発表します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 8t および TPU 8i：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;第 8 世代 TPU &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;A5X ベアメタル インスタンス：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA Vera Rubin NVL72 を搭載 &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Axion N4A VM：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;カスタム Arm ベース CPU「Axion」を搭載 &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Compute Engine 第 4 世代 VM：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Intel および AMD の x86 ベース CPU を搭載 &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Virgo ネットワーク：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;AI ワークロード向けの革新的なデータセンター ファブリック &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Cloud Managed Lustre：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;高パフォーマンスな並列ファイル システム &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Z4M VM：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;大容量のローカル SSD ストレージと、オープンな並列ファイル システム向け RDMA を搭載 &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;専用 KV キャッシュ：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;スケーラブルなストレージ サブシステム &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ネイティブ PyTorch：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;TPU をサポート &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Kubernetes Engine (GKE) の新機能：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント ネイティブなワークロード運用に対応 &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_ai_hypercomputer.max-1000x1000.png"
        
          alt="1 ai hypercomputer"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの機能を組み合わせることで、モデルや複雑なエージェンティック ワークフローの開発を促進し、イノベーションを加速させ、有用でレスポンシブなサービスを顧客に提供しつつ、大規模なコスト削減と責任あるエネルギー利用を実現します 。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;詳細をご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェンティック AI 向けに構築された第 8 世代 TPU システム&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本日、エージェンティック時代に特化して設計された&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/infrastructure/eighth-generation-tpu-agentic-era/?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;第 8 世代 Tensor Processing Unit（TPU）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を発表します。今回初めて、用途の異なる 2 つのチップと専用システムが登場します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 8t&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; は、高スループットの AI ワークロード向けに設計されたトレーニングの原動力です 。AI 開発の規模を再定義し、前世代よりも 3 倍近く高い演算性能を提供することで、大規模モデルのトレーニング時間を短縮します。単一のスーパーポッドに 9,600 個のチップを搭載し、121 エクサフロップスの演算能力と 2 ペタバイトの共有メモリを高速な ICI（チップ間相互接続）でつなぎます。大規模なコンピューティング プール、統合メモリ、そして 2 倍になった ICI 帯域幅により、最も複雑なモデルでもほぼ線形のスケーリングと最大限のシステム利用率を実現します。Pathways と JAX によってオーケストレーションされた単一クラスター内の 100 万以上の TPU チップのパワーで、数ヶ月かかっていたトレーニングを数週間に短縮できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU 8i は、推論と強化学習（RL）のための革新的な推論システムであり、エージェンティック ワークフローや Mixture of Experts（MoE）モデルに必要な超低遅延を実現します。オンチップ SRAM を 384 MB に 3 倍増、高帯域幅メモリ（HBM）を 288 GB に増強し、大規模な KV キャッシュを完全にシリコン上に保持することで「メモリの壁」を打破しました。これにより、TPU 8i は前世代と比較して推論の価格パフォーマンスを 80% 向上させ、高速でインタラクティブなユーザー体験をコスト効率よく実現します。&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU 8t および TPU 8i は、まもなく Google Cloud のお客様に提供予定です。アーキテクチャの詳細については、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA Vera Rubin プラットフォームを搭載した A5X&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;私たちは、一つの手法がすべてに適合するわけではないことを理解しています。お客様ごとにワークロードや要件、ユースケースは異なります。そのため、Google は NVIDIA と深く連携し、最新の GPU プラットフォームを Google Cloud 上で信頼性と拡張性の高いサービスとして提供しています。本年後半に利用可能になる次世代の NVIDIA Vera Rubin プラットフォームに基づいたインスタンスは、いち早く提供予定です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;また、Open Compute Project を通じて、オープンソースの Falcon ネットワーク プロトコルを NVIDIA と共同開発しており、信頼性の高いトランスポート プロトコルの限界に挑んでいます。A5X には Falcon の革新的なコンセプトが数多く実装される予定です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;例えば、Thinking Machine Labs は Google の NVIDIA ベースのインフラストラクチャを活用して、特化型のユースケースに向けたフロンティア モデルの強化学習やファインチューニングを行うオープン プラットフォーム「Tinker」を構築しています。Google の AI Hypercomputer を使用することで、トレーニングとサービングの両方において 2 倍以上の高速化を実現しています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Axion、Intel、AMD によるエージェンティック ロジックと強化学習の推進&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GPU や TPU は AI モデルのトレーニングやサービングに優れていますが、コア AI モデルを取り巻く複雑なロジック、ツール呼び出し、フィードバック ループを処理するには、高パフォーマンスな CPU ベースのサービスで補完する必要があります。&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/whats-new-in-compute-at-next26"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;新しい Axion 搭載 N4A CPU インスタンス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、これらのエージェント ランタイムに対して優れたコスト パフォーマンスを提供します。実際、Google Axion N4A を搭載した GKE Agent Sandbox は、他のハイパースケーラー上のエージェント ワークロードと比較して、最大 30% 優れた価格パフォーマンスを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この効率性は、Intel および AMD の最新 x86 インスタンスを搭載した第 4 世代 Compute Engine VM ファミリーを含む、Google のポートフォリオ全体に及んでいます。これらは、RL の報酬計算、エージェント運用、ネストされた可視化など、幅広い RL タスク向けに最適化されており、あらゆる AI ワークロードに対して最適な機能を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;データセンター スケールアウト ファブリックのための Virgo ネットワーク&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI Hypercomputer の一部である &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/networking/introducing-virgo-megascale-data-center-fabric"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Virgo ネットワーク&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、大規模な AI ワークロードの厳しい要件を満たすよう設計されています。前世代の 4 倍の帯域幅を持つコラプスド ファブリック アーキテクチャにより、「スケーリングにかかるオーバーヘッド」を排除し、驚異的なピーク演算能力を提供します。この性能により、最も野心的な AI ワークロードもほぼ線形の効率でスケールできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Virgo ネットワークと TPU 8t を使用することで、一つのデータセンター内で 134,000 個の TPU を単一のファブリックに接続し、複数の拠点にわたって 100 万個以上の TPU を学習クラスターとして接続することが可能です。これにより、世界中に分散したインフラを、実質的に一つのシームレスなスーパーコンピュータへと変革できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;また、Virgo ネットワークを A5X（NVIDIA Vera Rubin NVL72 搭載）にも提供し、一つのデータセンターで最大 80,000 GPU、複数の拠点にまたがって最大 960,000 GPU をサポートします。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;ストレージ：データ ボトルネックの最小化&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模なコンピューティング クラスタの効果は、データを供給するストレージ システムの性能に依存します。コンピューティングの高速化に伴い、ストレージがボトルネックにならないよう、以下の 4 つの主要な進歩を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;トレーニングと推論の加速：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud Managed Lustre は 10 TB/s の帯域幅を実現しています。これは昨年比で 10 倍の向上、他のハイパースケーラーと比較して最大 20 倍高速化しています。また、容量を 80 ペタバイトまで拡張しました。これらの進歩は、新しい C4NX インスタンスと Hyperdisk Exapools によって実現しています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;遅延の最小化：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Managed Lustre は、新しい TPUDirect および RDMA を活用し、データがホストをバイパスしてアクセラレータへ直接移動することを可能にしています。この処理オーバーヘッドを排除することで、AI エージェントはユーザーが求めるほぼ瞬時の速度で応答できるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;トレーニングのピーク稼働率を維持：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud Storage の Rapid Buckets は、ミリ秒以下の遅延と毎秒 2,000 万オペレーションにより、オブジェクト ストレージを刷新します。これにより、大規模なトレーニングのチェックポイントとリカバリをほぼ瞬時に実行、アクセラレータの稼働率を 95% 以上に維持できるようになり、トレーニング サイクルを加速させると同時に、貴重な TPU や GPU のコスト効率も向上します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;カスタム ソリューションの構築：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ストレージ ソリューションを独自に構築したい ISV や組織向けに、Vast Data や Sycomp といった信頼性の高い並列ファイル システムを統合したいお客様向けに特別設計した Z4M インスタンスをリリースします。各 Z4M インスタンスは最大 168 TiB のローカル SSD 容量まで拡張可能で、数千台規模の RDMA クラスタに展開できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの新しいストレージ オプションは包括的なストレージ ポートフォリオを提供し、AI Hypercomputer スタックの圧倒的なパワーを、各ユースケースに最適なストレージ サービスとともに提供します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE：エージェント ネイティブ ワークロードの運用&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェンティック時代において、インテリジェンスはスケールできる速度に影響されます。そこで、GKE をエージェント ネイティブなワークロードのための主要なオーケストレーション エンジンへと進化させました。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;スタック全体でのレイテンシ削減&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;レスポンシブなエージェンティック応答をサポートするために、起動およびスケールアウト プロセスのあらゆる瞬間を最適化しています。需要の急増へのインフラストラクチャの対応を合理化することで、GKE はユーザーがシステムに関与した瞬間にエージェントが準備できていることを保証します。GKE の新機能は以下の通りです。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ノードおよびポッド起動の高速化：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;GKE ノードの起動は最大 4 倍高速化、ポッドの起動時間は最大 80% 短縮されました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;迅速なモデル ロード：&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;run:AI Model Streamer と Google Cloud Storage の Rapid Cache を活用することで、モデルの読み込み速度が 5 倍向上し、従来のストレージのボトルネックが解消されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;AI 搭載の Inference Gateway によるインテリジェントなルーティング&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;昨年公開した GKE Inference Gateway を基盤として、「AI のための AI」で大規模なサービングにおける複雑な課題を解決しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Inference Gateway の新しい予測型レイテンシ ブーストは、従来のヒューリスティックな推測を、機械学習によるリアルタイムのキャパシティを考慮したルーティングに置き換えます。このインテリジェントな運用により、手動でのチューニングなしに、Time-to-First-Token（TTFT）の遅延を 70% 以上削減します。企業にとって、より自然な音声会話や、さまざまなユースケースにおけるスムーズでリアルタイムなインタラクションに直結します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Inference Gateway は、Cloud Native Computing Foundation（CNCF）のサンドボックス プロジェクトとして&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/llm-d-officially-a-cncf-sandbox-project?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;承認&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;された、Kubernetes ネイティブの高パフォーマンスな分散 LLM 推論フレームワークである llm-d と共にデプロイ可能です。Google Cloud は、Red Hat、IBM Research、CoreWeave、NVIDIA と共に llm-d の創設メンバーであることを誇りに思っています。私たちは、「あらゆるモデル、あらゆるアクセラレータ、あらゆるクラウド」という、業界を定義する明確なビジョンのもとに団結しています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_loveable_quote.max-1000x1000.png"
        
          alt="3 loveable quote"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI ライフサイクル全体を支えるオープン ソフトウェア エコシステム&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ハードウェアは、共同設計されたソフトウェアにより、その潜在能力を発揮します。AI Hypercomputer は、JAX、PyTorch、vLLM などの業界で人気なフレームワークに対してネイティブかつ最適化されたサポートを提供することで、エンジニアの開発スピードを高速化します。このオープンなソフトウェア レイヤーが開発とデプロイの間の摩擦を軽減し、市場投入までの時間の短縮とリソース効率の向上を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;現在、一部のお客様を対象に、TPU 向けのネイティブ PyTorch サポート「TorchTPU」のプレビュー版で提供しています。TorchTPU を使用すると、Eager Mode などのネイティブ PyTorch 機能を完全にサポートしながら、モデルをそのままの形で TPU 上で実行できます。これに TPU 上での vLLM の強固なサポートを組み合わせることで、「オープン性とお客様の選択肢を常に重視して構築する」ことにコミットしています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェンティックな成長のための基盤&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェンティック時代において、迅速かつコスト効率よくイノベーションを実現するには、パフォーマンスと選択肢を妥協しない統合システムが必要です。それこそが AI Hypercomputer が提供するものです。シリコンからソフトウェアまですべてのレイヤーを共同設計することで、統合の負担を取り除き、お客様のチームがビジネスの推進に集中できるようにします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI Hypercomputer は、Google のハイレベル サービスのエコシステム全体を支える強力な基盤としても機能します。この統合されたスタックは、Gemini Enterprise から &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/introducing-gemini-enterprise-agent-platform/?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Gemini Enterprise Agent Platform&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; まで、あらゆるサービスを支えており、これらすべてのインフラストラクチャのイノベーションが直接的なビジネス価値へと変換されることを保証します。&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/vertex-ai/docs/training/overview?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;サーバーレス トレーニング サービス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;や新しい Managed RL API などのフルマネージド サービスを活用することで、AI Hypercomputer の圧倒的なパフォーマンス向上を適用して独自のビジネス ロジックで Gemini をカスタマイズし、高度なエージェント ベースのソリューションを実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この更新および拡張された AI プラットフォームを使って、皆様が次に何を構築されるのか、非常に楽しみにしています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Thu, 23 Apr 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/ai-infrastructure-at-next26/</guid><category>AI &amp; Machine Learning</category><category>Google Cloud Next</category><category>TPUs</category><category>Compute</category><media:content height="540" url="https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_18_Light.max-600x600.jpg" width="540"></media:content><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Google AI インフラストラクチャの次なる展開：エージェンティック時代に向けたスケーリング</title><description></description><image>https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_18_Light.max-600x600.jpg</image><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/ai-infrastructure-at-next26/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Amin Vahdat</name><title>SVP and Chief Technologist, AI and Infrastructure</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mark Lohmeyer</name><title>VP and GM, AI and Computing Infrastructure</title><department></department><company></company></author></item><item><title>AI インフラストラクチャの効率: Ironwood TPU で炭素効率が 3.7 倍向上</title><link>https://cloud.google.com/blog/ja/topics/systems/ironwood-tpus-deliver-37x-carbon-efficiency-gains/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 7 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/topics/systems/ironwood-tpus-deliver-37x-carbon-efficiency-gains?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/topics/sustainability/tpus-improved-carbon-efficiency-of-ai-workloads-by-3x?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI インフラストラクチャが環境に与える影響について透明性を確保&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;することに尽力しており、チップの製造からデータセンターでのチップの稼働まで、チップのライフサイクル全体における排出量の指標を公開しています。このたび、Google は第 7 世代 TPU である Ironwood の指標を更新します。Ironwood は、前世代のパフォーマンス最適化 TPU である TPU v5p と比較して、コンピューティング二酸化炭素排出原単位（CCI）が約 3.7 倍改善されています&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;つまり、AI が追加のコンピューティング リソースの需要を促進しているのは事実ですが、AI ハードウェアを最適化するための Google の継続的な取り組みは、AI ワークロードのエネルギー消費量と排出量の改善に役立っています。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;AI アクセラレータの効率を測定: コンピューティング二酸化炭素排出原単位（CCI）&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI ワークロードの環境への影響を管理するために、Google は AI アクセラレータ ハードウェアのコンピューティング二酸化炭素排出原単位（CCI）をモニタリングしています。CCI は、&lt;/span&gt;&lt;a href="https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=11097303" rel="noopener" target="_blank"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;An Introduction to Life-Cycle Emissions of Artificial Intelligence Hardware&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;2&lt;/span&gt;&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;で、利用される浮動小数点演算ごとに排出される CO2 換算量（CO2e / FLOP）の推定値として定義されています。この指標は、製造、輸送、データセンターの建設に関連する体化排出量（スコープ 3）と、データセンターでのチップの運用に関連する運用排出量（スコープ 1 と 2）の両方を含めることで、チップレベルの全体像を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Ironwood のメリット: 高パフォーマンス、低フットプリント&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の TPU CCI は、チップの世代ごとに改善され続けています。2026 年 1 月に測定された実証データによると、Ironwood は TPU v5p と比較して CCI が 3.7 倍も改善されています。これにより、TPU v4 と比較して TPU v5p の CCI が 1.2 倍向上し、Google のパフォーマンス最適化された TPU アーキテクチャの継続的な炭素効率の最適化が実証されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この効率性の向上は、マシンのエネルギー消費量と製造時の排出量の増加に比べて、TPU の世代間のコンピューティング パフォーマンスの向上が大きかったことによるものです。実際、TPU v5p から Ironwood までの全世代にわたるフリート全体の測定では、利用できる FLOP 数が 5 倍向上しています&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;3&lt;/span&gt;&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;。CCI の式（CO2e / FLOP）のパフォーマンス分母が排出量よりも速くスケールされるため、新しいチップごとに 1 オペレーションあたりの純炭素コストが大幅に低下します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Oan2vLj.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;図 1: 2026 年 1 月のワークロードにおいて、Google のパフォーマンス最適化 TPU コホートで測定された Ironwood の CCI 改善の加速&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;4&lt;/span&gt;&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Google の TPU フリートの運用効率がさらに向上&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU CCI 指標が更新されたことで、2025 年に公開された測定値との直接比較も可能にしました。具体的には、2024 年 10 月から 2026 年 1 月にかけて、Google の汎用 TPU コホートは、以前の報告よりも効率的に動作しました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;TPU v5e では、15 か月間で CCI の合計が 43% 削減され、228 gCO2e / EFLOP になりました。これは、平均使用率が 72% 増加したことによるものです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;第 6 世代の TPU である Trillium では、同じ期間に CCI の合計が 20% 削減され、排出原単位は 125 gCO2e / EFLOP になりました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_HRjRsFh.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;図 2: Google の汎用 TPU コホートは、2024 年 10 月から 2026 年 1 月までの同じ TPU 世代におけるデプロイ効率の向上を示しています&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;&lt;span style="vertical-align: super;"&gt;5&lt;/span&gt;&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;。&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの結果は、Google が AI インフラストラクチャの炭素効率を継続的に改善していることを示しています。AI に対する大規模な需要により、大量の電力が必要とされ、その量は増え続けていますが、Google のイノベーションにより、消費電力の単位あたりで大幅に高いコンピューティング パフォーマンスを実現できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;エネルギーと排出量をパフォーマンスから切り離す&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの改善は、何に起因すると考えられるでしょうか。Ironwood のハードウェアの基本性能に加え、Google のインフラストラクチャ全体にわたるソフトウェアとシステムレベルの綿密な最適化によって、CCI の向上はさらに促進されています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ソフトウェアの効率（MoE）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Mixture of Experts（MoE）などのスパース アーキテクチャが広く採用されることで、必要なパラメータにのみ計算がルーティングされます。これにより、モデルの容量や品質を犠牲にすることなく、推論やトレーニングのステップごとに必要なアクティブな FLOP を大幅に削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;低精度演算（FP8）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 8 ビット浮動小数点（FP8）形式を多用することで、16 ビット形式と比較して、コンピューティング スループットを 2 倍に高め、メモリ帯域幅の要件を半分に削減しています。これは、数学演算あたりのエネルギー コストを指数関数的に削減しながら、出力品質を維持できることを示しています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ワークロードのミックスとインテリジェントなスケジューリング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 高度なフリート オーケストレーションにより、インフラストラクチャ全体でワークロードのミックスが継続的にバランス調整されます。タスクをインテリジェントにスケジューリングすることで、継続的な使用率を高く保ち、デューティ サイクルを最適化し、アイドル電力消費による二酸化炭素排出量を最小限に抑えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Cloud でサステナブルにスケーリング&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI の発展には、二酸化炭素排出量を同程度に急増させることなく、指数関数的にスケールできるインフラストラクチャが必要です。TPU v5p から Ironwood で炭素効率が 3.7 倍向上したことは、ハードウェアとソフトウェアの慎重な共同設計を通じて、エネルギーと環境フットプリントの増加を最小限に抑えながら、より高いコンピューティング密度を実現できることを示しています。Ironwood の詳細と利用方法については、&lt;/span&gt;&lt;a href="https://cloud.google.com/resources/ironwood-tpu-interest?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちらのフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;からご登録ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;1. &lt;/span&gt;&lt;a href="https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=11097303" rel="noopener" target="_blank"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;2025 年 8 月の技術レポート&lt;/span&gt;&lt;/a&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;で公開された手法に従い、2026 年 1 月時点の Google の各世代の TPU を対象として、TPU ハードウェアのライフサイクル全体の排出量を特定時点のスナップショットとして定量化しました。この調査の機能単位は、データセンターにデプロイされた 1 台の AI コンピュータです。これには、1 つのホストトレイ（つまり、コンピューティング サーバー）に接続された 1 つ以上のアクセラレータ トレイ（TPU を含む）が含まれます。トレイ以外の周辺コンポーネント（ラック、棚、ネットワーク機器など）と補助的なコンピューティング リソースおよびストレージ リソースは、体化排出量と運用排出量の計算から除外されます。データセンターの冷却に使用される電力は、運用排出量に含まれます。ワークロード実行の電力消費に伴う運用上の排出量を推定するために、TPU フリート全体のマシン電力データを観測して 1 か月分のサンプルを用意し、Google の 2024 年のフリート全体の二酸化炭素排出原単位の平均を適用しました。製造、輸送、廃棄に由来する体化排出量を推定するために、ハードウェアのライフサイクル評価を実施しました。データセンターの建設に伴う排出量は、Google が開示した 2024 年の温室効果ガス排出量に基づき推定されました。これらの調査結果は、モデルレベルの排出量を表しているわけではありません。また、AI に関連する Google の排出を完全に定量化したものでもありません。TPU のロケーションに応じて、特定のワークロードに対応する CCI の結果が変わる可能性があります。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;2. この論文の共同執筆者の Ian Schneider、Hui Xu、Stephan Benecke、Parthasarathy Ranganathan、Cooper Elsworth に対して、これらの結果を可能にするために多大な協力をしてくれたことに、著者一同から感謝を申し上げたいと思います。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;3. この比較では、2026 年 1 月に Google のフリートにデプロイされた TPU v5p チップと Ironwood チップの間で利用される FLOPS（BF16）を考慮しています。この傾向は、v5p（459 FLOPS）と Ironwood（2,307 FLOPS）の間のピーク FLOPS（BF16）の改善と一致しています。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;4. GHG プロトコルは、運用排出量について 2 つの会計基準を提供しています。ここで示す結果は、カーボンフリー エネルギーの購入による影響を含む、市場ベースの排出量を考慮したものです。カーボンフリー エネルギーの購入を除外するロケーション ベースの会計では、運用 CCI はそれぞれ 793、712、195 gCO2e/EFLOP に上昇します。CCI の改善の割合は同程度で、Ironwood の体化 CCI は合計 CCI の 23% から 8% に減少します。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;5. さまざまな TPU 使用率で公平に比較できるように、この分析では &lt;/span&gt;&lt;a href="https://ieeexplore.ieee.org/iel8/40/11236092/11097303.pdf" rel="noopener" target="_blank"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;2025 年 8 月の技術レポート&lt;/span&gt;&lt;/a&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;の傾向スコア加重手法を再現し、2026 年 1 月の結果を 2025 年に公開された結果と比較しています。この統計手法では、デューティ サイクルの変動を調整して、特定の期間における TPU の比較のバランスを取ります。この経験的な手法により、計算された CCI の時間的期間間の変動が小さくなり、グローバル インフラストラクチャ全体での実際のエネルギー消費量とハードウェア使用率の変動が反映されます。&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google シニア データ サイエンティスト、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Keguo（Tim）Huang&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google 上級エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;David Patterson&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 20 Apr 2026 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/topics/systems/ironwood-tpus-deliver-37x-carbon-efficiency-gains/</guid><category>Compute</category><category>Sustainability</category><category>TPUs</category><category>Systems</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>AI インフラストラクチャの効率: Ironwood TPU で炭素効率が 3.7 倍向上</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/topics/systems/ironwood-tpus-deliver-37x-carbon-efficiency-gains/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Keguo (Tim) Huang</name><title>Senior Data Scientist, Google</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>David Patterson</name><title>Google Distinguished Engineer, Google</title><department></department><company></company></author></item><item><title>Ironwood TPU を使用したトレーニングに関するデベロッパー ガイド</title><link>https://cloud.google.com/blog/ja/products/compute/training-large-models-on-ironwood-tpus/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 24 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/training-large-models-on-ironwood-tpus?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;数兆単位のパラメータを扱う AI モデルへの移行により、演算リソースの需要が急激に高まり、従来のインフラストラクチャの限界が試されています。第 7 世代の Ironwood TPU は、Google がカスタム設計した AI インフラストラクチャです。チップ間相互接続（ICI）、光回路スイッチ（OCS）、データセンター ネットワーク（DCN）、および大規模な集約型高帯域幅メモリ（HBM）容量を組み合わせることで、最大 9,216 個のチップを格納できる Pod に対応する包括的なシステムとしてスケールできるように設計されています。さらに、Ironwood はハードウェア アーキテクチャとソフトウェアの統合された共同設計を特徴としており、コンパイラ中心の XLA、および Pallas や Mosaic などの Python ネイティブ カーネルといったイノベーションが導入されています。組織はこれらの機能を組み合わせることで、高度なフロンティア モデルをトレーニングおよび提供する能力を大幅に高め、AI ライフサイクル全体を最適化し、高いパフォーマンスを維持できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_YpVMWLp.max-1000x1000.jpg"
        
          alt="image1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この技術概要では、Ironwood ハードウェア上でのトレーニング効率の向上と、卓越したパフォーマンスの実現を目指して設計された、JAX および MaxText エコシステムにおける具体的な手法とツールについて説明します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Ironwood の主な最適化戦略&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. MaxText によるネイティブ FP8 の活用&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood は、行列乗算ユニット（MXU）で 8 ビット浮動小数点（FP8）をネイティブにサポートする最初の TPU 世代です。重み、アクティベーション、勾配に FP8 精度を利用することで、ユーザーは理論上、スループットを Brain Floating Point 16（BF16）の 2 倍に高められます。FP8 レシピを正しく構成すると、モデルの品質を損なうことなく効率を向上させることができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの FP8 トレーニング レシピを実装するには、&lt;/span&gt;&lt;a href="https://github.com/google/qwix" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Qwix&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; ライブラリから始めます。この機能は、MaxText 構成内で関連するフラグを指定すると有効になります。,  &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;詳しくは、Google デベロッパー フォーラムのブログ投稿 &lt;/span&gt;&lt;a href="https://discuss.google.dev/t/inside-the-optimization-of-fp8-training-on-ironwood/336681" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ironwood での FP8 トレーニングの最適化について&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. Tokamax カーネルによる加速&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://github.com/openxla/tokamax/tree/main" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Tokamax&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、TPU 向けに最適化された高パフォーマンスの JAX カーネルのライブラリです。これらのカーネルは、次のメカニズムを通じて特定のボトルネックを軽減するように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Splash Attention&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: このメカニズムは、標準的なアテンション プロセスに内在する I/O の制限に対処します。オンチップ SRAM 内で計算を維持することで、メモリ帯域幅が制約になることが多い長いコンテキストの処理に特に効果を発揮します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Megablox グループ化行列乗算（GMM）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: これは、混合エキスパート（MoE）モデルでよく見られる「不規則な」なテンソルを管理します。GMM を利用すると、システムは非効率的なパディングを回避し、MXU の使用率を高められます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;カーネル チューニング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Tokamax ライブラリには、ハイパーパラメータを最適化するための&lt;/span&gt;&lt;a href="https://github.com/openxla/tokamax/blob/main/tokamax/experimental/utils/tuning/tpu/README.md" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ユーティリティ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;が含まれています。これらのツールを使用すると、Ironwood TPU の特定のメモリ階層に合わせて、タイルサイズやその他の構成を調整できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;3. SparseCore への集団のオフロード&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ironwood の第 4 世代 SparseCore は、不規則なメモリアクセス パターンを管理するために特別に設計されたプロセッサです。ユーザーは、特定の &lt;/span&gt;&lt;a href="https://github.com/AI-Hypercomputer/maxtext/blob/c0abc4c0c0a98e02413d7b6c669927d013467045/benchmarks/xla_flags_library.py#L70-L116" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;XLA フラグ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用して、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;All-Gather&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Reduce-Scatter&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; などの集団通信演算を SparseCore に直接オフロードできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このオフロード メカニズムにより、TensorCore を主要なモデル計算に専念させながら、通信タスクを並行して実行できます。このような機能の重複は、通信のレイテンシを隠し、MXU へのデータ スループットを一定に保つための重要な戦略です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;4. VMEM 上でのメモリ パイプラインのファインチューニング&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU メモリ アーキテクチャの重要な部分である VMEM は、カーネルのパフォーマンスを最適化するように設計された高速なオンチップ SRAM です。現在の演算と将来の重みのプリフェッチの間で VMEM の割り当てを調整することで、実行速度を全体的に向上させることができます。たとえば、現在のスコープ用に予約されている VMEM を増やすと、カーネルで使用されるタイルサイズを大きくすることができます。これにより、潜在的なメモリストールが解消され、カーネルのパフォーマンスが向上します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU メモリ アーキテクチャの詳細については、&lt;/span&gt;&lt;a href="https://docs.jax.dev/en/latest/pallas/tpu/pipelining.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;TPU パイプライン&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;5. 最適なシャーディング戦略の選択&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最後に、MaxText は、すべての TPU で利用できるさまざまな並列処理手法をサポートしています。最適な選択は、モデルサイズ、アーキテクチャ（Dense や MoE）、シーケンス長によって異なります。適切なシャーディング戦略を選択すると、モデルのパフォーマンスを高められます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;完全にシャーディングされたデータ並列処理（FSDP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: これは、単一チップのメモリ容量を超える大規模モデルをトレーニングする場合に推奨される戦略です。FSDP は、モデルの重み、勾配、オプティマイザの状態を複数のチップにシャーディングします。デバイスごとのバッチサイズを増やし、より多くの演算を導入することで、All-Gather 演算のレイテンシを隠し、効率を向上させることができます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;テンソル並列処理（TP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 個々のテンソルをシャーディングします。Ironwood は演算密度が高いため、モデルの次元が極めて大きい場合に TP が最大の効果を発揮します。TP を 2 分割して活用すると、Ironwood のデュアル チップレット設計における高速なダイ間相互接続を利用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;エキスパート並列処理（EP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: MoE モデルでエキスパートをデバイス間で分散するのに役立ちます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;コンテキスト並列処理（CP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 非常に長いシーケンスに必要で、シーケンスの次元に沿ってアクティベーションをシャーディングします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ハイブリッド アプローチ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 大規模な実行で演算、メモリ、通信のバランスを取るには、戦略の組み合わせが必要になる場合が多いです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;上述の 2～5 の手法について詳しくは、デベロッパー フォーラムの投稿 &lt;/span&gt;&lt;a href="https://discuss.google.dev/t/optimizing-frontier-model-training-on-tpu-v7x-ironwood/336983/2" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Optimizing Frontier Model Training on TPU v7x Ironwood（TPU v7x Ironwood でのフロンティア モデル トレーニングの最適化）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Ironwood のメリット: システムレベルのパフォーマンス&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの最適化手法と、高速の 3D トーラス チップ間相互接続（ICI）や大容量 HBM などの Ironwood のアーキテクチャ上の強みを組み合わせることで、フロンティア モデルのトレーニング向け高性能プラットフォームが実現します。ハードウェア、コンパイラ（XLA）、フレームワーク（JAX、MaxText）間の緊密な共同設計により、AI インフラストラクチャから最大限のパフォーマンスを引き出すことができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI の取り組みを加速させる準備は整いましたか？以下のリソースで、各最適化手法について詳しく確認できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;関連情報&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://discuss.google.dev/t/inside-the-optimization-of-fp8-training-on-ironwood/336681" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ironwood での FP8 トレーニングの最適化について&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://discuss.google.dev/t/optimizing-frontier-model-training-on-tpu-v7x-ironwood/336983/2" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;TPU v7x Ironwood でのフロンティア モデル トレーニングの最適化&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;このブログ投稿に協力してくれた Hina Jajoo と Amanda Liang に感謝します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;プロダクト戦略およびオペレーション担当、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Lillian Yu&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google TPU 担当プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Liat Berry&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 30 Mar 2026 02:10:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/training-large-models-on-ironwood-tpus/</guid><category>AI &amp; Machine Learning</category><category>TPUs</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Ironwood TPU を使用したトレーニングに関するデベロッパー ガイド</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/training-large-models-on-ironwood-tpus/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Lillian Yu</name><title>Product Strategy &amp; Operations</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Liat Berry</name><title>Product Manager, Google TPUs</title><department></department><company></company></author></item><item><title>Google Cloud と NVIDIA が GTC 2026 で業界全体に AI イノベーションを拡大</title><link>https://cloud.google.com/blog/ja/products/compute/google-cloud-ai-infrastructure-at-nvidia-gtc-2026/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 17 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/google-cloud-ai-infrastructure-at-nvidia-gtc-2026?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント型 AI の時代により、企業インフラストラクチャのニーズは根本的に変化しています。組織が動的な推論と自律的な実行が可能なシステムを構築するにつれて、基盤となるインフラストラクチャも進化する必要があります。これらのエージェント ワークロードを大規模な混合エキスパート（MoE）アーキテクチャとともにスケールするには、細部まで最適化された共同設計のスタックが必要です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;こうした需要に応えるため、Google は AI に最適化された Infrastructure as a Service である Google Cloud AI Hypercomputer を構築しました。これは、パフォーマンスが最適化されたハードウェア、最先端のソフトウェア、オープン フレームワーク、柔軟な使用量モデルを包括的な単一システムに統合したものであり、超低レイテンシ、高スループット、費用対効果の高い推論を実現します。この統合アーキテクチャ内でお客様にさらに多くのオプションを提供するために、Google は NVIDIA とのパートナーシップを拡大しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今週開催される NVIDIA GTC 2026 で、Google Cloud と NVIDIA はパートナーシップを拡大し、共同設計した AI インフラストラクチャ基盤を紹介する一連の新しい発表を行います。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャとハードウェア&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA RTX Pro&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;™&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; 6000 Blackwell Server Edition を搭載した Google Cloud G4 VM の勢い&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA vGPU テクノロジーを使用した、柔軟な分割式 G4 VM のプレビュー版 - NVIDIA RTX Pro&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;™&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; 6000 Blackwell Server Edition では業界初&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA Vera Rubin NVL72 プラットフォームのサポート予定&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ソフトウェアとプラットフォーム&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA Dynamo と GKE Inference Gateway のインテグレーション&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Vertex AI Training と Model Garden 全体で NVIDIA のサポートを強化&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;エコシステム&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;ul&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;公共部門向け AI スタートアップ アクセラレータ プログラムの開始&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;発表内容を詳しく見ていきましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;G4 VM で AI ワークロードを高速化&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA RTX Pro 6000 Blackwell Server エディション GPU を搭載した G4 VM は、高度な空間コンピューティングから完全な AI 開発ライフサイクルまで、さまざまな高パフォーマンス ワークロードを強化するために構築されています。たとえば、Otto Group One.O や WPP などの企業は、G4 を使用して物理的に正確なシミュレーションやリアルタイムの 3D レンダリングを大規模に実行しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;シミュレーション以外にも、G4 はモデルのファインチューニングと推論で優れた性能を発揮し、特に 300 億から 1,000 億以上のパラメータを持つモデルに適しています。4 ビット浮動小数点（FP4）精度と Google のピアツーピア（P2P）通信を活用することで、お客様は&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/g4-vms-p2p-fabric-boosts-multi-gpu-workloads?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;モデル提供のスループットの向上とレイテンシの大幅な削減&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を実現し、リアルタイムのマルチモーダル AI エージェントや応答性の高い生成 AI アプリケーションという新しいクラスを可能にしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;お客様がすでに G4 VM のパフォーマンスと効率性を活用して、最も要求の厳しいワークロードを高速化させている例をいくつかご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Google Cloud の G4 VM は、膨大な量のフォトリアルなシミュレーションをパイプラインで処理するために必要とされる、スケーラブルな GPU バックボーンを提供してくれます。スループットが 4 倍に向上したことで、ML チームはより迅速にイテレーションを行い、より豊富なデータでトレーニングし、モデルが実環境に導入されるよりかなり前にエッジケースを検証できるようになりました。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;– General Motors、AI / ML エンジニアリング担当ディレクター、Sony Mohapatra 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;「&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;NVIDIA Blackwell を搭載した G4 VM を使用することで、マルチモーダル モデルをさらに進化させられるようになりました。推論の高速化、信頼性の向上、言語を問わない即時応答などです。目標は変わりません。企業規模で機能する音声エージェントを、妥協せずに作成することです。今後も共同で開発を続け、お客様がこのツールをどのように活用されるかを楽しみにしています。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;– ElevenLabs、共同創業者、Mati Staniszewski 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Google Cloud G4 VM は、当社のロボット連携レイヤの計算バックボーンを提供し、物流センター全体で自律型フリートをミリ秒単位の精度で同期できるようにします。忠実度の高いデジタルツインで複雑な倉庫環境をシミュレートすることで、サプライ チェーン全体を仮想的に最適化してから、ロボットに床を移動させることができます。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; - Otto Group One.O、CEO、Stefan Borsutzky 博士&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「G4 VM に移行したところ、Terraform スクリプトを更新するだけで、処理レイテンシが 50% 削減され、スループットが 6 倍に向上しました。運用オーバーヘッドを追加することなく、コア ワークロードのパフォーマンスをこれほど向上させることはめったにありません。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;– Imgix、エンジニアリング責任者、Alfonso Acosta 氏&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;分割式 G4 VM の導入&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、AI およびグラフィック ワークロード向けの非常に効率的で費用対効果の高いエントリー ポイントとなる、分割式 G4 VM のプレビュー版がリリースされました。NVIDIA 仮想 GPU（vGPU）テクノロジーを使用したこれらの新しい構成により、NVIDIA RTX PRO 6000 Blackwell Server エディション GPU のパワーを柔軟かつ小規模な単位で活用できるため、アプリケーションの特定の需要に合わせてインフラストラクチャを適切なサイズに調整できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「企業は、複雑なエージェント型 AI ワークロードをスケールするために、前例のないほどの柔軟性を必要としています。NVIDIA は Google Cloud とともに、NVIDIA RTX PRO 6000 を搭載した分割式 G4 VM を導入し、お客様が GPU 容量のサイズを適正化して ROI を最大化できるようにしました。Vertex AI 上の NVIDIA NeMo から GKE の NVIDIA Dynamo まで、共同設計されたスタックにより、次世代の推論モデルと MoE モデル向けのオープンで高性能なプラットフォームを提供します。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;- NVIDIA、ハイパースケール / HPC 担当バイス プレジデント兼ゼネラル マネージャー、Ian Buck 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;高度なハードウェアへのアクセスをより細かく制御できるため、分割式 G4 VM はパフォーマンスを犠牲にすることなく、リソース割り当てを最適化してオーバーヘッドを削減できます。特定のニーズに合わせて、追加の GPU スライスサイズから選択できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;1/2 GPU:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; LLM 推論、ロボット センサー シミュレーション、高忠実度 3D レンダリングなど、より負荷の高いタスクに最適です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;1/4 GPU:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 中程度のクリエイティブ デザイン、動画のコード変換、リアルタイムのデータ可視化など、主流のワークロード向けに最適化されています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;1/8 GPU:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; リモート デスクトップ、生産性向上ツール、エントリーレベルのストリーミング サービスなどの軽量アプリケーションに最適です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの柔軟な G4 サイズ ポートフォリオにより、次のことが可能です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャの適切なサイジング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 軽量なリモート デスクトップから集中的なデータ処理まで、GPU 容量をアプリケーションの需要に正確に一致させます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;費用効率を最大化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 特定のタスクに必要な分割 GPU リソースのみを利用して料金を支払うことで、運用オーバーヘッドを削減します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;多様なワークロードをスケール:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 高忠実度のクリエイティブ デザインやストリーミングから、複雑なロボット シミュレーションやリアルタイム推論まで、幅広いイノベーションを推進します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの部分的な G4 VM は Google Kubernetes Engine（GKE）で管理できるため、開発者は高度なコンテナ ビンパッキングを使用して、さらに高い費用対効果とリソース使用率を実現できます。Dynamic Workload Scheduler を使用して管理する場合、分割スライスにフォールバックの優先順位を設定できます。これにより、スケジューラが各ワークロードで利用可能な GPU 構成を自動的に検出できるようになるため、取得可能性が大幅に向上します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「G4 vGPU の柔軟なサイズ設定により、各分子シミュレーションの規模に合わせてコンピューティング リソースを正確に調整できるため、創薬パイプライン全体で最大限の効率を確保できます。このきめ細かい制御により、研究者は固定されたハードウェア構成に制約されることなく、小規模なワークフローと大規模な並列処理の間をシームレスに切り替えられます。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;– Schrödinger、EVP、CIO、Shane Brauner 氏&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA Vera Rubin NVL72 で AI Hypercomputer をスケーリング&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA との緊密なエンジニアリング パートナーシップを基盤として、Google は NVIDIA Blackwell アーキテクチャの後継である、先日発表された NVIDIA Vera Rubin プラットフォームをサポートできることを誇りに思います。Google は 2026 年下半期に NVIDIA Vera Rubin NVL72 ラック規模システムをいち早く提供するクラウド プロバイダとなる予定です。このシステムを Google の AI Hypercomputer アーキテクチャに統合し、次世代の推論 AI とエージェント型 AI を強化します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;AI インフラストラクチャ スタック全体で効率性を実現&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、完全にオープンなエコシステムへの取り組みの一環として、Dynamo と GKE &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Inference Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; のインテグレーションを発表いたしました。これにより、アプリケーション レイヤとハードウェア全体にわたってモジュール式のオープンソース コントロール プレーンが提供されます。Dynamo と GKE の Inference Gateway を組み合わせることで、チームはインフラストラクチャを正確なニーズに合わせて調整し、アクセラレータから最大限の費用対効果を引き出し、新しい AI モデルの市場投入までの時間を短縮し、デプロイを将来にわたって保証できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X VM（NVIDIA GB200 NVL72 と Dynamo を搭載）向けの新しい&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;高度なスケーリング レシピ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を通じて、大規模な MoE アーキテクチャのパフォーマンスを最大化する方法を学ぶことができます。これらの構成は、AI Hypercomputer で AI 推論ワークロードを実行する際に、メモリとインターコネクトのボトルネックを克服する方法を示しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;また、Dynamic Workload Scheduler を通じてリソースの取得可能性を高めています。A4X および A4X Max（NVIDIA GB300 NVL72 搭載）の Calendar モードと Flex Start、および G4 VM の新しい Flex Start サポートが提供されます。Dynamic Workload Scheduler を使用すると、必要な容量を正確に予約したり、柔軟な開始ウィンドウを使用したりできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud の長年の顧客である Snap は、主要なデータ処理パイプライン 2 つを NVIDIA L4 Tensor コア GPU を搭載した Google Cloud G2 VM に移行することで、大幅な費用削減を実現しました。これは、GKE 上の Spark と NVIDIA の新しい cuDF ライブラリを活用することで実現しました。cuDF ライブラリは、シャッフルを多用するワークロードの最適化を自動化し、GPU の効率を最大限に高めます。&lt;/span&gt;&lt;a href="https://www.nvidia.com/gtc/session-catalog/sessions/gtc26-s81678/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;詳しくは、GTC セッション S81678 をご覧ください。&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Vertex AI のトレーニングと Model Garden の進化&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/vertex-ai/docs/training/training-clusters/overview"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Vertex AI トレーニング クラスタ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;の 2 つの主要なインフラストラクチャの進歩により、次世代 AI の需要に対応しています。まず、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;A4X VM ドメイン&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;のサポートにより、Vertex AI のマネージド インフラストラクチャとフレームワーク機能を活用して、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA GB200 NVL72&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ラック スケール システムで大規模なトレーニングを行うことができます。これらの集中的なワークロードが中断されないようにするため、新しいハードウェアの復元機能により、構成可能な事前対応型の障害検出スキャンを適用できます。これにより、潜在的なハードウェアの問題を特定して軽減し、重要な「ヒーロー」トレーニングの実行が中断されるのを防ぎます。これらの機能により、グッドプットが向上し、数週間にわたるトレーニング ジョブが費用のかかる再起動なしで順調に進むようになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「私たちは Google および NVIDIA とともに、高性能で一貫性があり、正確で応答性の高い AI エージェントを提供するという、エージェント型エンタープライズの新たな基準を打ち立てています。NVIDIA GB200 NVL72 上の Vertex AI トレーニング クラスタを活用して Agentforce 360 プラットフォームを強化することで、インフラストラクチャのボトルネックを解消し、GPU を完全に飽和状態に保つことができました。この高パフォーマンスで復元力のあるアーキテクチャにより、研究者は大規模なイノベーションに集中でき、最も複雑な推論ワークロードで大きな成果を上げています。」- &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;Salesforce、最高科学責任者、Silvio Savarese 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;同時に、&lt;/span&gt;&lt;a href="https://console.cloud.google.com/vertex-ai/publishers/nvidia/model-garden/nemotron-3-super"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA の Nemotron 3&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; ファミリーのオープンモデルのサポートにより、Vertex AI Model Garden の範囲を拡大し続けています。たとえば、Nemotron 3 Nano はワンクリックでデプロイできるため、プライベート VPC への統合が簡単です。また、カタログを拡大し、NVIDIA Nemotron 3 Super 120B モデルを追加しました。これにより、高性能な大規模推論にすぐにアクセスできます。これらのモデルの価値を最大限に高めるため、Google は NVIDIA の最新のパフォーマンス ライブラリを Vertex AI に直接統合し、NVIDIA TensorRT-LLM で一般的なオープンソース モデルを最適化しました。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;公共部門向けの AI スタートアップを支援&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エコシステム内の継続的なイノベーションを促進するため、Google Public Sector と NVIDIA は AI スタートアップ アクセラレータ プログラムを開始します。この 1 年間のイニシアチブでは、公共部門向けのソリューションを構築する、AI に重点を置いた独立系ソフトウェア ベンダー（ISV）の選抜されたコホートをサポートします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;参加者は、NVIDIA Inception と Google Cloud の ISV アクセラレータ リソースの両方にアクセスできます。GTC で開始され、Google Cloud Next まで続くこの共同プログラムでは、ミッション クリティカルな公共部門アプリケーションをスケールするために必要な、共同設計されたインフラストラクチャ、技術ガイダンス、市場開拓サポートを、新興テクノロジーのリーダーに提供します。プログラムについて詳しくは、&lt;/span&gt;&lt;a href="https://docs.google.com/forms/d/e/1FAIpQLSci71lEfkHJKb9wVN2UmXVGaOk3DeB84mW5dve8ulo9kl60pg/viewform" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;お問い合わせフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;にご記入ください。今後、他のコホートも選出され、発表される予定です。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;共同エンジニアリングのコラボレーションが AI スタックのあらゆるレイヤを強化&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;複雑なエージェント型 AI への移行には、単なるコンピューティング能力以上のものが求められます。完全に最適化された共同設計のスタックが必要です。Google は、分割式 G4 インスタンスや今後リリースされる Vera Rubin プラットフォームなどの柔軟なハードウェアを AI Hypercomputer アーキテクチャに統合し、ソフトウェアの緊密な共同エンジニアリングと組み合わせることで、最も野心的な AI ビジョンを現実に変えるために必要なスケール、レジリエンス、効率性を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GTC に参加されますか？ブース番号 513 にぜひお立ち寄りください。詳細をご覧いただき、Google のチームと直接お話いただけます。Google と NVIDIA のコラボレーションの詳細については、&lt;/span&gt;&lt;a href="http://cloud.google.com/NVIDIA"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;cloud.google.com/NVIDIA&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt; &lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-AI およびコンピューティング インフラストラクチャ担当バイス プレジデント兼ゼネラル マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mark Lohmeyer&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 24 Mar 2026 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/google-cloud-ai-infrastructure-at-nvidia-gtc-2026/</guid><category>AI &amp; Machine Learning</category><category>Partners</category><category>Compute</category><media:content height="540" url="https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_Cloud_NVIDIA_Hero_Image_for_GTC26_Blo.max-600x600.jpg" width="540"></media:content><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Google Cloud と NVIDIA が GTC 2026 で業界全体に AI イノベーションを拡大</title><description></description><image>https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_Cloud_NVIDIA_Hero_Image_for_GTC26_Blo.max-600x600.jpg</image><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/google-cloud-ai-infrastructure-at-nvidia-gtc-2026/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mark Lohmeyer</name><title>VP and GM, AI and Computing Infrastructure</title><department></department><company></company></author></item><item><title>H4D VM の一般提供開始: HPC ワークロード向けに卓越したパフォーマンスとスケーリングを実現</title><link>https://cloud.google.com/blog/ja/products/compute/h4d-vms-now-ga/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 5 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/h4d-vms-now-ga?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、第 5 世代 AMD EPYC™ プロセッサを搭載した、最新のハイ パフォーマンス コンピューティング（HPC）向け最適化 VM である &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;H4D VM の一般提供&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を開始しました。H4D VM は、製造、ヘルスケアとライフ サイエンス、天気予報、電子設計自動化（EDA）などの業界に、優れたパフォーマンス、スケーラビリティ、価値を提供します。H4D は、Slurm を使用した Cluster Toolkit によるオーケストレーションと、Google Kubernetes Engine（GKE）によるオーケストレーションをサポートしています。どちらのアプローチでも、要求の厳しいワークロードをほぼ瞬時にデプロイしてスケールできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud の CPU ポートフォリオで、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Cloud Remote Direct Memory Access（RDMA）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を備えた VM ファミリーが登場するのは今回が初めてです。H4D の RDMA は &lt;/span&gt;&lt;a href="https://cloud.google.com/titanium"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Titanium ネットワーク アダプタ&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;上にあり、シングルノードの H4D パフォーマンスを複数のノードにスケールして、大規模な本番環境ワークロードを高速化できます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ドメインや規模を問わず、解決までの時間を短縮&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;第 5 世代 AMD EPYC CPU の高コア密度と、Google の革新的な低レイテンシ &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/topics/systems/introducing-falcon-a-reliable-low-latency-hardware-transport?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Falcon ハードウェア トランスポート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を搭載した H4D VM により、これまで以上に迅速なイテレーションと検出が可能になります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;業界標準のベンチマークを複数使用して H4D のパフォーマンスを実証し、さまざまなドメインと問題サイズにおける H4D の能力を示しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;医療とライフ サイエンス&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;医療とライフ サイエンス（HCLS）の研究者にとって、H4D VM は科学的発見に不可欠な複雑な分子シミュレーションを加速します。以前の C2D VM と比較して、H4D VM は 96 VM で LAMMPS（LJ ベンチマーク）を実行する際の速度が最大 4.3 倍向上し、18,000 コアで 95% の並列効率を実現します。創薬では、32 台の VM で GROMACS（water_33m）を使用し、6,000 個のコアで 72% の並列効率を実現して、5.8 倍の高速化を実証しました。H4D はスケーラビリティも向上しており、192 台の VM（約 37,000 コア）で LAMMPS LJ ベンチマークを実行し、92% の並列効率を維持することが実証されました（図 3 を参照）。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_JTLuwUW.max-1000x1000.jpg"
        
          alt="1-Figuer1&amp;amp;2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--medium
      
      
        h-c-grid__col
        
        h-c-grid__col--4 h-c-grid__col--offset-4
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2_RA1vjLg.jpg"
        
          alt="2-Figuer3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;製造&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;製造業では、H4D VM はミッション クリティカルなコンピュータ支援エンジニアリング（CAE）ワークフローのパフォーマンスを大幅に向上させることで、エンジニアが設計サイクルを短縮し、より大規模なシミュレーションを実行して、より迅速にイテレーションできるようにします。複雑な数値流体力学（CFD）シミュレーションを実行した際、以前の C2D VM と比較して、H4D VM は 32 個の VM で Ansys Fluent（F1_RaceCar_140m ベンチマーク）を 85% の並列効率で実行し、4.1 倍の高速化を実現しました。オープンソースの OpenFOAM（Motorbike_100m）を実行した際、C2D と比較して、16 個の VM を使用して 5.2 倍の高速化を実現し、122% の超線形並列効率を達成しました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3_9YSJuty.jpg"
        
          alt="3-Figuer4&amp;amp;5"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;HPC のコスト パフォーマンスの新たな基準&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;H4D VM は、優れたパフォーマンスと柔軟な使用量モデルを組み合わせることで、Google Cloud 上の HPC ワークロードに最適なコスト パフォーマンスを提供するように設計されています。H4D は Dynamic Workload Scheduler（DWS）をサポートしており、DWS は、ジャストインタイムの容量に対応する Flex Start モードと、予約を保証する Calendar モードでワークフローに適応します。これにより、長期契約なしで、コア時間あたり 3 セントという低料金でコンピューティングを利用できます。前世代の VM と比較したパフォーマンスと費用効率の結果は、図 6 と図 7 に詳しく示されています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/4_VFxG3YM.jpg"
        
          alt="4-Figuer6"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/5_FKrLh4Z.jpg"
        
          alt="5-Figuer7"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;包括的な HPC 管理&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;H4D VM の大規模で高密度のクラスタを管理、デプロイするには、Google Cloud の &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/ai-hypercomputer/docs/cluster-capabilities"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Cluster Director&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を活用できます。Cluster Director は、高度なメンテナンス機能（プレビュー版に&lt;/span&gt;&lt;a href="https://forms.gle/dppWNms5DF44gCwV9" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;から登録できます）と、ターンキー システム ブループリントによる迅速なクラスタ デプロイのための &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/cluster-toolkit/docs/overview"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Cluster Toolkit&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を提供します。ジョブとワークロードの管理については、H4D VM は Google Cloud のフルマネージド クラウドネイティブ サービスである &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/batch/docs/get-started"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Batch&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と統合されており、Batch によってキューイング、スケジューリング、リソース プロビジョニングが処理されます。さらに、&lt;/span&gt;&lt;a href="https://cloud.google.com/products/dws/pricing?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;DWS&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; もサポートされています。これは、将来の予約のための Calendar モードと、時間制限付きのオンデマンド使用のための Flex Start モードの両方で使用できます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;お客様とパートナー様の声&lt;/strong&gt;&lt;/h4&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/jump.max-1000x1000.jpg"
        
          alt="jump"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="ciutv"&gt;&lt;i&gt;「&lt;/i&gt;&lt;a href="https://www.jumptrading.com/"&gt;&lt;i&gt;Jump Trading&lt;/i&gt;&lt;/a&gt;&lt;i&gt;は早期アクセスで H4D プラットフォームをテストしましたが、その結果に非常に感銘を受けました。テストプロセスが成功したことで、H4D が要求の厳しい大量のオペレーションに必要なパフォーマンス、安定性、効率性を備えていることが実証されました。前世代のマシンと比較してコスト パフォーマンスが最大 50% 向上しており、現在、Google Cloud 上の重要なグリッド ワークロードとの統合を加速させています。」&lt;/i&gt;&lt;b&gt;- Jump Trading、最高技術責任者 Alex Davies 氏、HPC Linux エンジニアリング部門、Benjamin Stromski 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/hmx_labs.max-1000x1000.jpg"
        
          alt="hmx labs"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="ciutv"&gt;&lt;i&gt;「特に大規模でコンピューティング負荷の高い分野では、最速のシステムはオンプレミスで構築し、ベアメタル ハードウェアで実行するしかないという考え方が根強く残っています。ベアメタルで運用する正当な理由として、「ハイパーバイザ税」といった用語がよく使われます。しかし、私たちが行ったテストでは異なる結果が出ています。Google H4D VM は、当社の財務リスク ベンチマークにおいて、同世代の最上位 AMD CPU のベアメタルよりも優れたパフォーマンスを発揮します。」&lt;/i&gt;&lt;b&gt;- HMxLabs、CEO、Hamza Mian 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/totalcare.max-1000x1000.jpg"
        
          alt="totalcare"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="ciutv"&gt;&lt;i&gt;「要求の厳しい CAE および製造分野向けにマネージド HPC ソリューションを提供する大手プロバイダとして、H4D プラットフォームに対する当社の評価は、お客様の最大規模で最も密結合なシミュレーション ワークロードを処理できる能力に重点を置きました。その結果には非常に感銘を受けました。テストでは、基盤となる RDMA ファブリックが、大規模な並列処理に必要な優れた低レイテンシと高帯域幅のパフォーマンスを発揮することが確認されました。このレベルの相互接続効率は、衝突試験や CFD などの重要な製造シミュレーションを高速化するために不可欠です。H4D は、高スループットのエンジニアリング ワークロードの真のアクセラレータであることを自ら証明しました。当社は、エンジニアリング業界における HPC のパフォーマンス上限を再定義する可能性に期待しています。」&lt;/i&gt;&lt;b&gt;- TotalCAE、社長、Rodney Mach 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Google.max-1000x1000.jpg"
        
          alt="Google"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="ciutv"&gt;&lt;b&gt;&lt;i&gt;「&lt;/i&gt;&lt;/b&gt;&lt;i&gt;新しい H4D インスタンスは、当社の要求の厳しい次世代の TPU シミュレーション ワークロードにとって大きな前進です。C2D と比較して、さまざまな EDA ベンチマークにわたって 30% のパフォーマンス向上を確認しており、H4D の強力なシングルコア パフォーマンスが証明されました。これは、開発サイクルの高速化に直接つながり、エンジニアリング チームがより迅速にイテレーションできるようになります。」&lt;/i&gt;&lt;b&gt;- Google Cloud、チップ設計手法テクニカル リード、Trevor Switkowski&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;今すぐ H4D を体験&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;H4D は現在、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;us-central1-a（アイオワ）、europe-west4-b（オランダ）、asia-southeast1-a（シンガポール）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;でご利用可能で、追加のリージョンも近日中に提供予定です。&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/regions-zones#available"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;リージョンとゾーンのページ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;でリージョン別の提供状況をご確認のうえ、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/create-vm-with-rdma"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud RDMA&lt;/span&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;を活用して、特に要件の厳しい HPC ワークロードをデプロイしてください。&lt;/strong&gt;&lt;/p&gt;
&lt;hr/&gt;
&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;上述のベンチマークでは、次の構成が実行されました。LAMMPS バージョン 20250722、GROMACS バージョン 2023.1、OpenFOAM バージョン 2312、Ansys Fluent バージョン 2024R1。すべての実行で IntelMPI 2021.17.2 が使用されました。C2D / C3D / C4D は TCP を使用し、H4D は RXM と SAR_LIMIT=2G で RDMA を使用しました。すべての実行で、各プラットフォームで利用可能な最大 ppn（ノードあたりのプロセス数）を使用しました（C2D、C3D、C4D / H4D でそれぞれ 56、180、192）。Ansys Fluent の実行では、H4D で 168 ppn、C4D で可変 ppn が使用されました。SMT はすべてオフ。コスト比較は、DWS Flex Start 料金の H4D-highmem-192 と、オンデマンド料金の c3d-standard-360 および c2d-standard-112 のシングルノード間で行われました。&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;並列効率と最適なノード数は、入力サイズと通信パターンに依存するため、ワークロードによって異なります。&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt; Aysha Keen&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニア HPC テクノロジスト、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt; Felix Schürmann&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Thu, 12 Mar 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/h4d-vms-now-ga/</guid><category>HPC</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>H4D VM の一般提供開始: HPC ワークロード向けに卓越したパフォーマンスとスケーリングを実現</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/h4d-vms-now-ga/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Aysha Keen</name><title>Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Felix Schürmann</name><title>Senior HPC Technologist</title><department></department><company></company></author></item><item><title>課金の簡素化と費用削減: 新しい費用ベースの CUD に関する FinOps ガイド</title><link>https://cloud.google.com/blog/ja/topics/cost-management/a-finops-professionals-guide-to-updated-spend-based-cuds/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 2 月 13 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/topics/cost-management/a-finops-professionals-guide-to-updated-spend-based-cuds?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;クラウド費用の最適化は FinOps における効果的な取り組みの一つであり、確約利用割引（CUD）は依然として極めて有効な手段です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、2025 年 7 月より&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-multiprice?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;新しい費用ベースの CUD モデル&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;のロールアウトを開始し、これにより、費用と節約額が把握しやすくなりました。また、カバレッジが新しい SKU（Cloud Run や H3/M シリーズ VM など）にも拡大され、柔軟性が向上しました。このアップデートは、現在すべてのお客様にご利用いただけます。この新しいモデルが FinOps の実践をどのように簡素化するのか、詳しく見ていきましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;1. 費用ベースの CUD データモデルの変更内容&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最も重要な変更は、クレジットベースのシステムから、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-multiprice#consumption-model-intro"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;使用量モデル&lt;/span&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;を使用した直接的な割引価格モデル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;に移行することです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;従来の&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;クレジット モデル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;では、1 時間あたりのオンデマンド料金に対してコミットしていました。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;節約額&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;（実際に実現した費用削減額）を把握するには、オンデマンド料金の全額、コミットメント料金、相殺されるクレジットという 3 つの異なる数値を使用する必要がありました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;1. &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;従来の計算方法:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;$10.00（オンデマンド）+ $5.50（コミットメント料金）- $10.00（クレジット）= $5.50（純費用）&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;節約額 = $10.00（オンデマンド）- $5.50（純費用）= $4.50&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-multiprice#consumption-model-intro"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;直接的な割引モデル&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;では、純費用を計算するためにこのような計算を行う必要はありません。割引後の純支出額に直接コミットします。使用量はシンプルに割引された料金で請求されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;2. &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;新しい計算方法:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;$5.50（割引後の費用）&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;節約額 = $10.00（オンデマンド）- $5.50（割引後の費用）= $4.50&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;  &lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これにより、純費用を一目で確認できるようになります。節約額の計算も、オンデマンド料金（$10.00）と新しい割引料金（$5.50）を比較するだけで済み、その差が &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;$4.50/時間&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;であることがわかります。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;2. 変更前後の節約額を検証する方法&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;統合された &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/billing/docs/how-to/analyze-cuds"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;CUD 分析ツール&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、移行を監査したり、費用を詳しく分析したりするのに最適なリソースです。新しい費用ベースの CUD モデル用の CUD 分析では、新しいモデルで得られる節約額をすぐに確認できます。また、このツールを使用して、古いモデルと新しいモデルで節約額に違いがあるかどうかを比較検証できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;節約額の検証手順は以下のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;1. 移行を実施した日付を特定します。移行日は、請求の概要ページで確認できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_jzjRx1j.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;2. CUD 分析に移動して、移行前後の節約額を検証します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;3. 移行前の費用を定量化する場合:&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;移行の 1 日前のビューをフィルタします。この例では、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;2025 年 10 月 26 日&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;CUD プロダクトを選択します（&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Cloud SQL CUD など&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;この例では、 &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; $69.12 のクレジットを得るために $50.35 の CUD 料金を支払っています。この料金をクレジットから差し引くと、実際に&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;節約できた金額は $18.77&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; になります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_2jbhCzc.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;4. 移行後の費用を検証する場合:&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;日付を &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;2025 年 10 月 28 日&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;に変更します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: lower-alpha; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;新しいモデルでは、割引料金を前払いします。ダッシュボードには純費用 $50.35 が反映され、オンデマンド費用 $69.12 と比較した場合の&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;節約額が $18.77&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; であることが明確にわかります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_nQjMUwd.max-1000x1000.png"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さらに、このリリースでは&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-verify-discounts#example_cost_reports"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;費用レポート&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;の&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-verify-discounts#example_cost_reports"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;アップデート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;も行われており、「コスト削減プログラム」が追加されました。これにより、総クレジットではなく、実際の純節約額（上記の例では $18.77）が正確に反映されます。&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;費用レポートで移行前後のデータを比較する際は、コミットメントの全範囲を把握するために、使用量の SKU とコミットメント料金の SKU の両方を必ず含めてください。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;3. 新しい CUD 分析の他の機能&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しいモデルのサポートに加えて、新しい &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/billing/docs/how-to/analyze-cuds"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;CUD 分析ツール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;では、CUD のカバレッジと使用状況の可視性が高められています。これにより、最大 30 日間の&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;時間単位のデータ粒度&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;で CUD を分析できるようになりました。1 日の平均値では特定の時間帯に発生する使用率の急上昇が見逃されることが多いため、これは FinOps チームに大きなメリットをもたらします。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_HLosdOT.max-1000x1000.png"
        
          alt="4"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="rirdr"&gt;CUD 分析: コンピューティング フレキシブル CUD のカバレッジの分析&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5_9A7ZjUx.max-1000x1000.png"
        
          alt="5"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="rirdr"&gt;CUD 分析: CUD 購入ごとに使用状況を可視化&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;独自のデータ分析ツールを使用する場合は、新しい&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/billing/docs/how-to/export-data-bigquery-tables/cud-export"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;費用ベースの CUD メタデータのエクスポート&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を利用することで、費用ベースの CUD をプログラムで管理できます。このエクスポートを使用して、Billing BigQuery Export データセットと結合し、すべてのコミットメント データに対して詳細なプログラム分析を実行できます。また、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/billing/docs/how-to/analyze-cuds#download_your_report"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;CUD 分析ビューから CSV をエクスポート&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;することで、BigQuery の完全なエクスポートを必要とせずに、すべてのリソースとその料金の元データを確認することもできます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;4. どの程度のコミットメントを購入すべきか&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;購入するコミットメントを決定するための主要なツールとして、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-recommender"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;CUD の推奨事項&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を利用できます。先日強化された、コンピューティング フレキシブル CUD のコミットメントに関する推奨事項では、GKE、Cloud Run、Cloud Run functions、Compute Engine のデータを含めることで、精度を向上させました。さらに、CUD シナリオのモデリングにより、これらの提案をリアルタイムで調整できます。また、カバレッジのしきい値の調整、使用量が不規則な特定の日付の除外、最長 180 日間の分析のルックバック ウィンドウの延長などを行うことで、お客様のリスク プロファイルに沿った正確なコミットメント レベルを特定できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/6_MpUcC4f.max-1000x1000.png"
        
          alt="6"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="rirdr"&gt;CUD シナリオのモデリング: 複数のオプションを試して、理想的な CUD 戦略を特定&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;5. フレキシブル CUD についての関連情報&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい費用ベースのモデルのリリースにより、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/committed-use-discounts-overview#spend_based"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;フレキシブル CUD&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と GKE / Cloud Run CUD を組み合わせて使用する場合に影響していた&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;レポートの制限&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を解消しました。これまでは、Google の分析ツールで特定のクレジットのソースを正確に特定できなかったため、節約額、カバレッジ、使用状況などの KPI 指標に不一致が生じていました。新しい費用ベースの CUD モデルでは、この制限が解消されたため、CUD 分析において Google Cloud サービスごとの正確かつ詳細な節約額を確認できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい費用ベースのモデルの利用を開始するには、課金コンソールにアクセスしてください。詳しくは、以下のドキュメントをご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/docs/cuds-multiprice"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;費用ベースの CUD プログラムの改善&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/docs/cuds-multiprice-datamodel"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;複数価格データモデルに関する分析情報&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/docs/cuds-verify-discounts"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;移行後の節約額の確認&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Alfonso Hernandez&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Rahul Sharma&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-related_article_tout"&gt;





&lt;div class="uni-related-article-tout h-c-page"&gt;
  &lt;section class="h-c-grid"&gt;
    &lt;a href="https://cloud.google.com/blog/products/compute/expanded-coverage-for-compute-flex-cuds/"
       data-analytics='{
                       "event": "page interaction",
                       "category": "article lead",
                       "action": "related article - inline",
                       "label": "article: {slug}"
                     }'
       class="uni-related-article-tout__wrapper h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
        h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3 uni-click-tracker"&gt;
      &lt;div class="uni-related-article-tout__inner-wrapper"&gt;
        &lt;p class="uni-related-article-tout__eyebrow h-c-eyebrow"&gt;Related Article&lt;/p&gt;

        &lt;div class="uni-related-article-tout__content-wrapper"&gt;
          &lt;div class="uni-related-article-tout__image-wrapper"&gt;
            &lt;div class="uni-related-article-tout__image" style="background-image: url('')"&gt;&lt;/div&gt;
          &lt;/div&gt;
          &lt;div class="uni-related-article-tout__content"&gt;
            &lt;h4 class="uni-related-article-tout__header h-has-bottom-margin"&gt;Save more with expanded coverage for Compute Flex CUDs&lt;/h4&gt;
            &lt;p class="uni-related-article-tout__body"&gt;Compute Flexible Committed Use Discounts (Flex CUDs) now cover memory-optimized and HPC VM families and Cloud Run.&lt;/p&gt;
            &lt;div class="cta module-cta h-c-copy  uni-related-article-tout__cta muted"&gt;
              &lt;span class="nowrap"&gt;Read Article
                &lt;svg class="icon h-c-icon" role="presentation"&gt;
                  &lt;use xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="#mi-arrow-forward"&gt;&lt;/use&gt;
                &lt;/svg&gt;
              &lt;/span&gt;
            &lt;/div&gt;
          &lt;/div&gt;
        &lt;/div&gt;
      &lt;/div&gt;
    &lt;/a&gt;
  &lt;/section&gt;
&lt;/div&gt;

&lt;/div&gt;</description><pubDate>Tue, 24 Feb 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/topics/cost-management/a-finops-professionals-guide-to-updated-spend-based-cuds/</guid><category>Compute</category><category>Cost Management</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>課金の簡素化と費用削減: 新しい費用ベースの CUD に関する FinOps ガイド</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/topics/cost-management/a-finops-professionals-guide-to-updated-spend-based-cuds/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Alfonso Hernandez</name><title>Sr. Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Rahul Sharma</name><title>Sr. Product Manager</title><department></department><company></company></author></item><item><title>NVIDIA RTX PRO 6000 により、Cloud Run 上で高性能推論とサーバーレス コンピューティングが融合</title><link>https://cloud.google.com/blog/ja/products/serverless/cloud-run-supports-nvidia-rtx-6000-pro-gpus-for-ai-workloads/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 2 月 3 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/serverless/cloud-run-supports-nvidia-rtx-6000-pro-gpus-for-ai-workloads?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な推論モデルの実行には、クラスタ管理や VM の手動メンテナンスなど、運用面で大きな負担が伴うことが少なくありません。こうした負担を軽減する方法の一つが、基盤となるインフラストラクチャを意識せずに利用できるサーバーレスのコンピューティング プラットフォームを活用することです。Google はこのたび、Cloud Run で &lt;/span&gt;&lt;a href="https://www.nvidia.com/en-us/data-center/rtx-pro-6000-blackwell-server-edition/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA RTX PRO™ 6000 Blackwell Server Edition GPU&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; に対応するハイエンド推論においてサーバーレスの提供を開始いたしました。現在はプレビュー版が提供されており、Gemma 3 27B や Llama 3.1 70B といった大規模モデルも、Cloud Run でおなじみの「デプロイしたらあとは任せる」感覚でデプロイできます。予約は不要。クラスタ管理も不要。必要なのはコードだけです。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;強力な GPU プラットフォーム&lt;/strong&gt;&lt;/h4&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_qqUpivV.max-1000x1000.jpg"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA RTX PRO 6000 Blackwell GPU は、NVIDIA L4 GPU と比べて大幅な性能向上を実現しており、96 GB の vGPU メモリ、1.6 TB/秒の帯域幅に加え、FP4 および FP6 をサポートしています。これにより、基盤となるインフラストラクチャを自ら管理することなく、70B 超のパラメータを持つ大規模モデルを提供できます。Cloud Run では、NVIDIA RTX PRO 6000 Blackwell GPU を Cloud Run サービス、ジョブ、またはワーカープールに、予約不要でオンデマンドにアタッチできます。以下は、NVIDIA RTX PRO 6000 Blackwell GPU を活用してビジネスを加速できる主な活用例です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;生成 AI と推論:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; FP4 精度をサポートする NVIDIA RTX PRO 6000 Blackwell GPU の高効率な演算性能により、LLM のファインチューニングや推論を高速化できます。これにより、マルチモーダル モデルやテキストから画像を生成するモデルなど、リアルタイム性が求められる生成 AI アプリケーションを構築できます。さらに、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/services/gpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Run サービス上でモデルを実行&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;することで、迅速な起動とスケーリングのメリットも享受できます。インスタンス数が 0 の状態から、GPU ドライバがインストールされた GPU 環境を 5 秒未満で起動可能です。トラフィックが減少してリクエストがなくなると、Cloud Run は GPU インスタンスを自動的に 0 までスケールダウンします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ファインチューニングとオフライン推論&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: NVIDIA RTX PRO 6000 Blackwell GPU は、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/jobs/gpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Run ジョブ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;と組み合わせることで、モデルのファインチューニングに活用できます。第 5 世代 NVIDIA Tensor コアは AI モデルと連携し、レンダリング パイプラインの高速化やコンテンツ制作の効率向上に貢献します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;特定のワークロードに最適化されたスケーリング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/workerpools/gpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GPU 対応のワーカープール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用することで、GPU ワーカーをきめ細かく制御できます。外部のカスタム指標に基づく動的スケーリングや、複雑でステートフルな処理に対応するための「常時稼働」インスタンスの手動プロビジョニングなど、用途に応じた柔軟なスケーリングを実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cloud Run は、プロダクション レディな GPU アクセラレーテッド タスクを、最もシンプルに実行できるよう設計されています。Cloud Run の主な特長は次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟なコンピューティングを備えたマネージド GPU:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cloud Run では、必要な NVIDIA ドライバがあらかじめインストールされているため、インフラストラクチャの準備に煩わされることなく、コードの実装に集中できます。NVIDIA RTX PRO 6000 Blackwell GPU を使用する Cloud Run インスタンスでは、最大 44 vCPU と 176 GB の RAM を構成できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;本番環境レベルの信頼性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cloud Run はデフォルトでゾーン冗長性を提供しており、ゾーン停止に耐えるために十分な容量をサービスに確保できます。これは、Cloud Run で GPU を使用した場合にも適用されます。また、ゾーン冗長性をオフにして、ゾーン停止が発生した場合に GPU ワークロードのベスト エフォート フェイルオーバーを行うことにすれば、料金を低く抑えられるメリットがあります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;緊密な統合&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Cloud Run は、Google Cloud の他のサービスとネイティブに連携します。Cloud Storage バケットをローカル ボリュームとしてマウントすることで大規模なモデルの重みを読み込んだり、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/iap/docs/enabling-cloud-run"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Identity-Aware Proxy（IAP）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用して Cloud Run サービス宛てのトラフィックを安全に保護したりすることができます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;使ってみる&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA RTX PRO 6000 Blackwell GPU は、現在プレビュー版としてオンデマンドで利用可能です。対応リージョンは &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;us-central1&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; および &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;europe-west4&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; で、&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;asia-south2&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;asia-southeast1&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; では限定的に提供されています。オープンモデルを実行する最も簡単な方法の一つである &lt;/span&gt;&lt;a href="https://ollama.com/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ollama&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用すれば、NVIDIA RTX PRO 6000 GPU を有効化した Cloud Run 上に、次のコマンドで最初のサービスをデプロイできます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;gcloud beta run deploy my-service  \\\r\n--image ollama/ollama --port 11434 \\\r\n--cpu 20 --memory 80Gi \\\r\n--gpu-type nvidia-rtx-pro-6000 \\\r\n--no-gpu-zonal-redundancy \\\r\n--region us-central1&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f6591af3550&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;詳しくは、最新の &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/services/gpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Run ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;および &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/run/docs/configuring/services/gpu-best-practices"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI 推論のベスト プラクティス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;James Ma&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-シニア エンジニアリング マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Oded Shahar&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 09 Feb 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/serverless/cloud-run-supports-nvidia-rtx-6000-pro-gpus-for-ai-workloads/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><category>Serverless</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>NVIDIA RTX PRO 6000 により、Cloud Run 上で高性能推論とサーバーレス コンピューティングが融合</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/serverless/cloud-run-supports-nvidia-rtx-6000-pro-gpus-for-ai-workloads/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>James Ma</name><title>Sr. Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Oded Shahar</name><title>Sr. Engineering Manager</title><department></department><company></company></author></item><item><title>一般提供が開始された Axion ベースの N4A VM で費用対効果が 2 倍に</title><link>https://cloud.google.com/blog/ja/products/compute/axion-based-n4a-vms-now-in-preview/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 1 月 28 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/axion-based-n4a-vms-now-in-preview?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2026 年 1 月 27 日: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;N4A の一般提供が開始されました。使用を開始するには、&lt;/span&gt;&lt;a href="http://console.cloud.google.com/compute/instancesAdd"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud コンソールから N4A をデプロイ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;してください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;昨今の意思決定者と構築者は、クラウド費用の増加を管理しながら、顧客が求めるパフォーマンスを実現するという課題に絶えず直面しています。スケールアウト マイクロサービスを使用し、増え続けるデータを処理するようにアプリケーションが進化するにつれて、組織は増大する汎用ワークロードをサポートするために、基盤となるインフラストラクチャの効率性を最大限に高める必要があります。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image5_bCjzyyQ.max-1000x1000.png"
        
          alt="image5"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このニーズに応えるため、Google は最新の Axion ベースの仮想マシン（VM）シリーズである N4A を発表しました。現在、Compute Engine、Google Kubernetes Engine（GKE）、Dataproc、Batch でプレビュー版が提供されています。Dataflow やその他のサービスでも近日中にサポートされる予定です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4A は、現行の N シリーズ VM の中で最も費用対効果が高く、同等となる現行の x86 ベースの VM と比較して&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;費用対効果が最大 2 倍であり、ワットあたりのパフォーマンスも 80% 優れています&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;。そのため、幅広い汎用ワークロードの総所有コスト（TCO）をさらに最適化しやすくなります。これは、GKE でスケールアウト ウェブサーバーとマイクロサービスを実行するクラウド ネイティブ企業、バックエンド アプリケーション サーバーや中規模データベースを管理する企業チーム、大規模な CI / CD ビルドファームを運用するエンジニアリング組織で確認されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud では、オーケストレーターからランタイムまで、スタックのあらゆるレイヤのストレージ、ネットワーキング、ソフトウェアでコンピューティング サービスを共同設計し、優れたシステムレベルのパフォーマンスと費用対効果を実現しています。N4A の画期的な費用対効果を支えているのは、Arm® Neoverse® N3 コンピューティング コアを基盤とする最新世代の Google Axion プロセッサ、Google の&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/dynamic-resource-management"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;動的リソース管理&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（DRM）テクノロジー、ネットワーキングとストレージの処理をオフロードして CPU を解放する Google Cloud のカスタム設計のハードウェアおよびソフトウェア システムである &lt;/span&gt;&lt;a href="https://cloud.google.com/titanium"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Titanium&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; です。Titanium は、Google Cloud の垂直統合型ソフトウェア スタックの一部です。このスタックは、サーバー内のカスタム シリコンから、42 のリージョンを &lt;/span&gt;&lt;a href="https://cloud.google.com/about/locations"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;775 万キロメートルの陸上および海底ファイバー ケーブル&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;でつなぐ地球規模のネットワークまで、効率を最大化し、超低レイテンシと高帯域幅をグローバル規模でお客様に提供するように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;汎用コンピューティングを再定義し、AI 推論を可能にする&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4A は汎用性を重視して設計されており、汎用ワークロードと CPU ベースの AI ワークロードをサポートする一連の機能を備えています。事前定義されたカスタム シェイプで提供され、高 CPU（vCPU あたり 2 GB のメモリ）、標準（vCPU あたり 4 GB）、高メモリ（vCPU あたり 8 GB）の構成で、vCPU は最大 64 個、DDR5 は 512 GB、インスタンス ネットワーキングは最大 50 Gbps の帯域幅に対応します。N4A VM は、最新世代の Hyperdisk ストレージ オプション（Hyperdisk Balanced、Hyperdisk Throughput、Hyperdisk ML（近日提供予定）など）をサポートしており、インスタンスあたり最大 160,000 IOPS、2.4 GB/秒のスループットを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4A は、お客様が日々実行する主要なワークロードを代表する、さまざまな業界標準ベンチマークで優れたパフォーマンスを発揮します。たとえば、現行世代の同等となる x86 ベースの VM と比較して、コンピューティング能力に制約のあるワークロードで最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;105%&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、スケールアウト ウェブサーバーで最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;90%&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、Java アプリケーションで最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;85%&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、汎用データベースで最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;20%&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 優れた費用対効果を実現します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_q9MnCJ1.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="dxvss"&gt;脚注: 2025 年 10 月現在。パフォーマンスは、一般提供されている同等の最新世代の VM 上で汎用ストレージ タイプを使って本番環境として実行された、SPECrate®2017_int_base、SPECjbb2015、MySQL Transactions/minute（RO）、Google 内部 Nginx リバース プロキシ ベンチマークの推定スコアに基づいています。費用対効果に関する情報は、Google Cloud の公開済みおよび公開予定の正規料金に基づいています。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;実際、新しい N4A インスタンスの先行ユーザーの費用対効果は大幅に向上しています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_3I8oyl8.max-1000x1000.jpg"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="59dyk"&gt;&lt;i&gt;「ZoomInfo では、効率性が最優先事項である大規模なデータ インテリジェンス プラットフォームを運用しています。お客様にタイムリーな分析情報を提供するために不可欠な当社のコアデータ処理パイプラインは、GKE の Dataflow と Java サービスで広範に実行されています。新しい N4A インスタンスのプレビューでは、x86 ベースの同等のインスタンスと比較して、これらの主要なワークロードの費用対効果が 60% 向上していることがわかりました。これにより、プラットフォームをより効率的にスケールし、より高い価値をより迅速にお客様にお届けできるようになりました。」&lt;/i&gt;- &lt;b&gt;ZoomInfo、チーフ インフラストラクチャ アーキテクト、Sergei Koren 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_nDU2gjP.max-1000x1000.jpg"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="xulw1"&gt;&lt;i&gt;「AI 時代のコンピューティング需要を満たすには、パフォーマンス、効率性、柔軟性、スケーラビリティが組織に求められます。これには、Google Cloud とのパートナーシップの中核にある緊密なコラボレーションと共同設計が必要です。N4A は費用対効果を再定義するものであり、お客様は新たなレベルでインフラストラクチャを最適化できます。企業は Arm と Google Cloud を使用して、ワークロードの要件に最適なインフラストラクチャを選択できます。」&lt;/i&gt; - &lt;b&gt;Arm、インフラストラクチャ ビジネス、サーバー エコシステム開発担当ディレクター、Bhumik Patel 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;カスタム マシンタイプと Hyperdisk によるきめ細かな制御&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の N シリーズ VM の大きな強みは、これまでも柔軟性にありましたが、N4A ではその柔軟性をさらに進化させ、Axion ファミリーとして初めて、最も広く利用されている機能の一つであるカスタム マシンタイプ（&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/instances/creating-instance-with-custom-machine-type"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;CMT&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）を提供します。事前定義された構成にワークロードを合わせるのではなく、N4A の CMT ではアプリケーション固有のニーズに合わせて vCPU とメモリの量を個別に構成できます。インスタンスのサイズを適正化できるため、使用したリソースに対してのみ料金を支払うことになり、無駄を最小限に抑えて TCO を最適化できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;特定のワークロードにリソースを適合させるというこの原則は、ストレージにも適用されます。N4A VM は、最新世代の &lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/disks/hyperdisks"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をサポートしており、アプリケーションのニーズに最適なストレージ プロファイルを選択できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk Balanced:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; N4A VM あたり最大 160,000 IOPS で、ほとんどの汎用ワークロードに対して最適なパフォーマンスとコストの組み合わせを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk Throughput:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Hadoop や Kafka など、帯域幅を大量に消費する分析ワークロードで最大 2.4 GiBps のスループットを実現し、価値の高い大容量ストレージを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk ML&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（一般提供開始）&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; AI / ML ワークロード専用に構築されており、モデルの重みやデータセットが保存された単一のディスクを最大 32 個の N4A インスタンスに同時にアタッチして、大規模な推論やトレーニングのタスクを実行できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Hyperdisk ストレージ プール:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 容量とパフォーマンスをボリューム単位ではなく、まとめてプロビジョニングできるため、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/cost-saving-strategies-when-migrating-to-google-cloud-compute?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;コストを最大 50 %削減&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;しながら管理を簡素化できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_ZB4gdHF.max-1000x1000.jpg"
        
          alt="4"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="7cqx3"&gt;&lt;i&gt;「Vimeo では、大規模な動画コード変換プラットフォームを効率的に管理するために、長年にわたってカスタム マシンタイプを利用してきました。新しい Axion ベースの N4A インスタンスの初期テストでは非常に有望な結果が得られ、新たなレベルの効率性が実現しています。当社の主要なコード変換ワークロードのパフォーマンスは、同等の x86 VM と比較して 30% 向上しました。これにより、運用モデルを変更することなくユニット エコノミクスを改善し、より収益性の高い方法でサービスを拡大する明確な道筋が示されました。」&lt;/i&gt; - &lt;b&gt;Vimeo、ホスティングおよび配信オペレーション担当シニア ディレクター、Joe Peled 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;お客様の選択肢を広げる Arm ベースの Axion ポートフォリオの拡大&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;C シリーズ VM は、中規模から大規模のデータベースやインメモリ キャッシュなど、一貫して高いパフォーマンスを必要とするワークロード向けに設計されています。価格とパフォーマンスのバランスが良く、柔軟性を備えた N シリーズ VM は、Compute Engine の重要な柱となっており、スケールアウト Java / GKE ワークロードなど、リソースのニーズが変動するワークロードの実行コストを削減できます。2024 年 10 月、Google は初の Axion ベースのマシンシリーズである &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/try-c4a-the-first-google-axion-processor?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4A&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をリリースしました。N4A の導入によってこの C4A が補完され、ワークロードの正確なニーズに適したさまざまな Google Axion インスタンスを提供できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さらに、GKE は Axion ベースの C4A と N4A のマシンタイプをオーケストレートすることで、費用対効果を大幅に向上させます。また、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-custom-compute-classes"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム ComputeClass&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; でこれらのマシンタイプをプロビジョニングして組み合わせ、ワークロードを適切なハードウェアにマッチさせます。この自動化された異種クラスタ管理により、チームはアプリケーション スタック全体で TCO を最適化できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さらに、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4A.metal が Axion ファミリーに加わりました&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;。これは Google Cloud 初の Axion ベアメタル インスタンスで、自動車システム開発、厳格なライセンス要件があるワークロード、Android ソフトウェア開発など、仮想化されていない環境で特殊なアプリケーションを実行するために基盤となる物理サーバーへのアクセスが必要になるユースケースに対応します。&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4A.metal はまもなくプレビュー版で利用可能になります&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Axion の導入は、広範な成熟した Arm エコシステムに支えられ、これまで以上に簡単になっています。C4A と N4A を組み合わせることで、パフォーマンスやワークロード固有の要件に妥協することなく、ビジネス運営の総費用を削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;費用最適化と柔軟性に優れた N4A:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; スケールアウト ウェブサーバー、マイクロサービス、コンテナ化されたアプリケーション、オープンソース データベース、バッチ、データ分析、開発環境、データ準備、AI / ML のテストなど、価格とパフォーマンスのバランスが求められる汎用ワークロード向けに設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;一貫して高いパフォーマンス、予測可能性、制御性を実現する C4A:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 中規模から大規模のデータベース、インメモリ キャッシュ、費用対効果の高い AI / ML 推論、トラフィックの多いゲームサーバーなど、1 マイクロ秒が重要なワークロードを強化します。ミッション クリティカルなワークロード向けの制御されたメンテナンス エクスペリエンス、最大 100 Gbps のネットワーク帯域幅、次世代の Titanium ローカル SSD ストレージを提供し、一貫したパフォーマンスを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5_m4GINGe.max-1000x1000.jpg"
        
          alt="5"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="7cqx3"&gt;&lt;i&gt;「Google Cloud の Axion ポートフォリオに移行したことで、重要な競争上の強みを得られました。C4A インスタンス（サプライサイド プラットフォーム（SSP）バックエンド サービスなど）を使用することで、低くて安定したレイテンシを維持しながら、コンピューティング使用量を 20% 削減することができました。さらに、C4A を使用することで、インスタンス サイズに関係なく、ステートフル ワークロードに必要な IOPS で Hyperdisk を活用できるようになりました。この柔軟性により、クライアントの広告オークションの落札数を増やしながら、利益率を大幅に改善できています。現在、API リレーサービスなど、最も柔軟性が必要となるいくつかの主要なワークロードを実行して、N4A ファミリーをテストしています。本番環境で実行されている複数のアプリケーションで、以前のインフラストラクチャと比較して CPU の使用量が 15% 減り、コストもさらに削減できました。同時に、必要なワークロード特性を適切なインスタンスでサポートできるようになっています。」&lt;/i&gt; - &lt;b&gt;Rise、クラウドおよびソフトウェア アーキテクト、Or Ben Dahan 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;今すぐ N4A を使ってみる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4A は、Google Cloud リージョンの us-central1（アイオワ）、us-east4（バージニア）、us-east1（サウスカロライナ）、us-west1（オレゴン）、asia-southeast1（シンガポール）、europe-west1（ベルギー）、europe-west2（ロンドン）、europe-west3（フランクフルト）、europe-west4（オランダ）でご利用いただけます。今後、さらに多くのリージョンでご利用いただけるようになる予定です。N4A の詳細については、&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/general-purpose-machines#n4a_series"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちらのドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。N4A のデプロイは&lt;/span&gt;&lt;a href="http://console.cloud.google.com/compute/instancesAdd"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;コンソール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;から実行できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Nate Baum&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- グループ プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mo Farhat&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 06 Feb 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/axion-based-n4a-vms-now-in-preview/</guid><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>一般提供が開始された Axion ベースの N4A VM で費用対効果が 2 倍に</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/axion-based-n4a-vms-now-in-preview/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Nate Baum</name><title>Senior Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mo Farhat</name><title>Group Product Manager</title><department></department><company></company></author></item><item><title>Google Cloud A4X（GB200）と NVIDIA Dynamo を使用した WideEP Mixture-of-Experts 推論のスケーリング</title><link>https://cloud.google.com/blog/ja/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 1 月 23 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;組織が標準的な LLM から DeepSeek-R1 のような&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;大規模な Mixture-of-Experts（MoE）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;アーキテクチャに移行するにつれて、主な制約は、物理的な計算密度から通信レイテンシとメモリ帯域幅へと変化しました。Google はこのたび、エージェント型 AI 時代におけるインフラストラクチャのボトルネックの解消を目指して設計された 2 つの新しい検証済みレシピをリリースいたしました。これらの新しいレシピは、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA GB200 NVL72&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA Dynamo&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; を搭載した &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;A4X マシンシリーズ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;上のスループットとレイテンシの両方を最適化するための明確な手順を提供します。これは、2025 年 9 月に公開した A3 Ultra（NVIDIA H200）VM 上の分散型推論の&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/ai-inference-recipe-using-nvidia-dynamo-with-ai-hypercomputer?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;リファレンス アーキテクチャ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を拡張したものです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud の AI インフラストラクチャの多層スケーラビリティと A4X のラックスケールのアクセラレーションを組み合わせることで、両者の利点を AI インフラストラクチャにもたらします。これらのレシピは、&lt;/span&gt;&lt;a href="https://kubernetes.io/docs/concepts/scheduling-eviction/dynamic-resource-allocation/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;動的リソース割り当て&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（DRA）や&lt;/span&gt;&lt;a href="https://gateway-api-inference-extension.sigs.k8s.io/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;推論ゲートウェイ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;などの重要な推論インフラストラクチャへの投資を含む、Google Cloud と NVIDIA の間の広範なコラボレーションの一環をなすものです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;更新されたリファレンス アーキテクチャの一部を以下にご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; NVIDIA GB200 NVL72 を搭載した Google Cloud の A4X マシンシリーズで、第 5 世代の NVIDIA NVLink で接続された 72 個の GPU による単一の計算ドメインを構築します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;サービング アーキテクチャ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; NVIDIA Dynamo は分散ランタイムとして機能し、ラックスケールのファブリック全体で KV キャッシュの状態とカーネル スケジューリングを管理します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;パフォーマンス: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;8K / 1K の入力シーケンス長（ISL）/ 出力シーケンス長（OSL）の場合、スループット最適化構成では&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;合計 6,000 トークン/秒/GPU 超のスループット&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、レイテンシ最適化構成では &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;10 ミリ秒のトークン間レイテンシ（ITL）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を達成しました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;デプロイ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google Kubernetes Engine（GKE）をオーケストレーションに使用してこのスタックを Google Cloud にデプロイするために、検証済みのリファレンス アーキテクチャが現在利用可能です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;最新の推論スタック&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エクサスケールのパフォーマンスを実現するには、推論をモノリシックなワークロードとして扱うことはできません。そのためには、特定の目標スループットとレイテンシに合わせて各レイヤが最適化されたモジュール型アーキテクチャが必要です。AI Hypercomputer の推論スタックは、以下の 3 つの異なるレイヤで構成されています。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャ レイヤ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 物理的なコンピューティング、ネットワーキング、ストレージ ファブリック（例: A4X）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;サービング レイヤ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 特定のモデル アーキテクチャと最適化された実行カーネル（例: NVIDIA Dynamo、NVIDIA TensorRT-LLM、Pax）と、リクエスト スケジューリング、KV キャッシュの状態、分散コーディネーションを管理するランタイム環境。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;オーケストレーション レイヤ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; リソースのライフサイクル管理、スケーリング、フォールト トレランスのためのコントロール プレーン（例: Kubernetes）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以下で詳述するリファレンス アーキテクチャでは、NVIDIA エコシステム向けに設計されたこのスタックの高パフォーマンス インスタンス化に焦点を当てています。インフラストラクチャ レイヤの A4X と、モデル サービング レイヤの NVIDIA&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Dynamo を組み合わせ、GKE でオーケストレートします。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャ レイヤ: A4X ラックスケール アーキテクチャ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;2025 年 2 月の &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/new-a4x-vms-powered-by-nvidia-gb200-gpus?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;A4X のリリースに関するお知らせ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;で、スケジューラが利用できるトポロジを根本的に変化させる GB200 NVL72 アーキテクチャを実装することで A4X VM が帯域幅の制約をどのように解消したかについて説明しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVLink ドメインがサーバー シャーシ（通常は 8 個の GPU）にバインドされていた旧世代とは異なり、A4X は統合ファブリックを提供します。このファブリックは、以下の特徴を備えています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;72 個の NVIDIA Blackwell GPU&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; が NVLink Switch システムで相互接続され、統合共有メモリを備えた 1 つの巨大な GPU として動作します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;130 TB/秒の総帯域幅&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;により、オンボード メモリへのアクセスに匹敵するレイテンシ プロファイル（72 個の GPU x 1.8 TB/秒/GPU）でオールツーオール通信が可能です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;NVFP4 のネイティブ サポート:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Blackwell Tensor Core は 4 ビット浮動小数点の適合率をサポートし、互換性のあるモデルレイヤの 8 ビット浮動小数点と比較してスループットを実質的に 2 倍にします。このベンチマークでは、以前に公開された結果と同じ構成で比較できるよう、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;8 ビット浮動小数点の適合率スケーリング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を使用しました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;サービング レイヤ: NVIDIA Dynamo&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この規模のハードウェアには、同期オーバーヘッドを発生させることなく分散状態を管理できるランタイムが必要です。NVIDIA Dynamo は、この分散推論ランタイムとして機能します。単純なモデル提供にとどまらず、基盤となるインフラストラクチャ全体で推論リクエストの複雑なライフサイクルを調整します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;サービング レイヤは、次のメカニズムを通じて A4X の使用率を最適化します。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Wide Expert Parallelism（WideEP）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 従来の MoE サービングでは、1 つのノード（通常は 8 個の GPU）内でエキスパートをシャード化するため、特定のエキスパートが「稼働」状態になると負荷の不均衡が生じます。Google は、A4X の統合ファブリックを使用して、72 個の GPU を搭載したラック全体にエキスパートを分散します。この WideEP 構成は、大規模なコンピューティング プール全体で負荷を分散することで、バースト性の高いエキスパート活性化パターンを吸収し、単一の GPU がストラグラーになるのを防ぎます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Deep Expert Parallelism（&lt;/strong&gt;&lt;a href="https://github.com/deepseek-ai/DeepEP" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;DeepEP&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: WideEP がエキスパートを分散するのに対し、DeepEP は重要な「分離」と「結合」の通信フェーズを最適化します。DeepEP は、割り当てられたエキスパートにトークンをルーティングするために必要な高帯域幅のオールツーオール オペレーションを高速化します。このアプローチにより、大規模な MoE 推論のボトルネックとなる同期オーバーヘッドを最小限に抑えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;リクエスト処理の分離:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Dynamo は、計算依存型のプレフィル フェーズとメモリ依存型のデコード フェーズを分離します。A4X では、スケジューラがラック内の特定の GPU グループをプレフィルに割り当て（Tensor コアの飽和度を最大化）、他の GPU がデコードを処理（メモリ帯域幅の使用率を最大化）することで、リソースの競合を防止できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;グローバルな KV キャッシュ管理:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Dynamo は KV キャッシュの状態のグローバル ビューを維持します。そのルーティング ロジックは、関連するコンテキストを保持する特定の GPU にリクエストを転送し、冗長な計算とキャッシュの移行を最小限に抑えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;JIT カーネルの最適化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ランタイムは NVIDIA Blackwell 固有のカーネルを活用し、生成フェーズでジャストインタイムのオペレーション融合を実行してメモリアクセス オーバーヘッドを削減します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;オーケストレーション レイヤ: ソフトウェアとハードウェアのマッピング&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X が物理的なファブリックを提供し、Dynamo がランタイム ロジックを提供する一方で、オーケストレーション レイヤはソフトウェア要件をハードウェア トポロジにマッピングする役割を担います。GB200 NVL72 のようなラックスケール アーキテクチャでは、コンテナ オーケストレーションは標準的なスケジューリングを超えて進化する必要があります。オーケストレーターが物理的な NVLink ドメインを明示的に認識できるようにすることで、プラットフォームのパフォーマンスを最大限に引き出し、ワークロードを最適な場所に配置できるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE は、次のメカニズムを通じて、ハードウェアとソフトウェアの整合性を確保します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. ラックレベルのアトミック スケジューリング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; GB200 NVL72 では、「コンピューティングの単位」は単一の GPU や単一のノードではなく、ラック全体が高速コンピューティングの新たな基本的構成要素となります。Google は、特定のアフィニティ設定で GKE 容量予約を使用しています。これは、高密度なデプロイを保証する A4X インフラストラクチャの予約済みブロックを対象としています。この予約を使用することで、GKE は、Dynamo インスタンスを構成するすべての Pod が、NVLink ドメインを確立するために必要な特定の物理的に連続したラック ハードウェアに配置されるようにします。これにより、WideEP と DeepEP に必要なハード トポロジ保証が提供されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. GCS FUSE による低レイテンシのモデル読み込み: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な MoE モデルのサービングには、テラバイト単位の重みを高帯域幅メモリ（HBM）に読み込む必要があります。ローカル ディスクに重みをダウンロードする従来のアプローチでは、許容できない「コールド スタート」のレイテンシが発生します。&lt;/span&gt;&lt;a href="https://github.com/GoogleCloudPlatform/gcs-fuse-csi-driver" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GCS FUSE CSI ドライバ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を活用して、モデルの重みを Google Cloud Storage からローカル ファイル システムとして直接マウントします。これにより、Dynamo ランタイムはモデルを「遅延読み込み」し、データチャンクをオンデマンドで GPU メモリに直接ストリーミングできます。このアプローチでは事前ダウンロードのフェーズが不要になるため、新しい推論レプリカの準備が完了するまでの時間が大幅に短縮され、トラフィックの急増に対応した自動スケーリングがより迅速に行えるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;3. カーネル バイパス ネットワーキング（GPUDirect RDMA）: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;A4X の合計 130 TB/秒の帯域幅を最大化するには、ネットワーキング スタックで CPU と I/O の関与を最小限に抑える必要があります。Titanium ネットワーク アダプタで&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;GPUDirect RDMA&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を有効にするように GKE クラスタを構成します。特定の NCCL トポロジ構成を挿入し、コンテナで IPC_LOCK 機能を有効にすることで、アプリケーションが OS カーネルをバイパスし、GPU とネットワーク インターフェース間でダイレクト メモリ アクセス（DMA）オペレーションを実行できるようにします。この構成では、データパス管理から NVIDIA Grace CPU がオフロードされるため、高スループットのトークン生成時にネットワーク I/O がボトルネックになることはありません。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;パフォーマンスの検証&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;2 つの異なる最適化目標で SGLang を使用して DeepSeek-R1（8 ビットの浮動小数点形式）で 8K / 1K ワークロードのスケーリング特性を評価したところ、次のことがわかりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. スループットを最適化した構成&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;設定:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; DeepEP を使用する 72 個の GPU。5 ワーカー（TP8）の 10 個のプレフィル ノードと、1 ワーカー（TP32）の 8 個のデコード ノード。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;結果:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;6,000 超の合計トークン/秒/GPU&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（1,500 出力トークン/秒/GPU）を維持しました。これは、InferenceMAX が公開したパフォーマンス（&lt;/span&gt;&lt;a href="https://github.com/InferenceMAX/InferenceMAX/actions/runs/20356790608/job/58493812121" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ソース&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）と一致します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. レイテンシ最適化の構成&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;設定:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; DeepEP を使用しない 8 個の GPU（2 つのノード）。1 つのプレフィル ノードと 1 つのプレフィル ワーカー（TP4）、1 つのデコード ノードと 1 つのデコード ワーカー（TP4）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;結果:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 同時実行数 4 で、中央値 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;10 ミリ秒&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;のトークン間レイテンシ（ITL）を維持しました。これは、InferenceMAX が公開しているパフォーマンス（&lt;/span&gt;&lt;a href="https://github.com/InferenceMAX/InferenceMAX/actions/runs/20413316138/job/58653323053" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ソース&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）と一致します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;今後の対応&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;モデルが静的なチャット インターフェースから複雑なマルチターンの推論エージェントへと進化するにつれて、推論インフラストラクチャの要件は変化し続けます。Google は、AI 推論スタックの 3 つのレイヤすべてに投資してこれらの需要に対応しており、ベンチマークとレシピを積極的に更新、リリースしています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャ レイヤ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/now-shipping-a4x-max-vertex-ai-training-and-more?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;最近リリースされた A4X Max&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、単一の 72 GPU ラック構成の NVIDIA GB300 NVL72 をベースとしており、A4X と比較して 1.5 倍の NVFP4 FLOP、1.5 倍の GPU メモリ、2 倍のネットワーク帯域幅を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;サービング レイヤ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Google は、KV Block Manager と Google Cloud リモート ストレージのペアリング、Dynamo 指標の Cloud Monitoring ダッシュボードへの取り込みによるオブザーバビリティの強化、GKE カスタム コンピューティング クラス（CCC）の活用による容量と可用性の向上、FP4 適合率による新しいベースラインの設定など、NVIDIA Dynamo のコンポーネントとのより深い統合を積極的に検討しています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;オーケストレーション&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: llm-d の&lt;/span&gt;&lt;a href="https://llm-d.ai/docs/guide" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;明確なパス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;で確立された設計パターンに準拠し、インテリジェントな推論スケジューリング コンポーネントである&lt;/span&gt;&lt;a href="https://gateway-api-inference-extension.sigs.k8s.io/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;推論ゲートウェイ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;など、追加の最適化をこれらのテストに組み込む予定です。Google は、高度なトラフィック オーケストレーションのための集中型メカニズムを提供することを目指しています。このメカニズムは、ワークロードがサービング レイヤのランタイムに到達する前に、リクエストの優先順位付け、キューイング、マルチモデル ルーティングを処理します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な MoE モデルをデプロイする場合でも、次世代の推論エージェントを設計する場合でも、このスタックは、最先端の研究を本番環境で実現するために必要なエクサスケールの基盤を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;使ってみる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、お客様の AI ワークロード向けに、最もオープンで柔軟かつ高性能なインフラストラクチャを提供することに取り組んでいます。インテリジェントなルーティングとスケーリングから最新の NVIDIA AI インフラストラクチャまで、NVIDIA Dynamo スイートを完全にサポートすることで、LLM の大規模なサービングを可能にするプロダクション レディな完全ソリューションを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;A4X マシンクラスの 2 つの具体的なレシピでデプロイ リポジトリを更新しました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://github.com/AI-Hypercomputer/gpu-recipes/blob/main/inference/a4x/disaggregated-serving/dynamo/README.md#32-sglang-deployment-with-deepep-72-gpus" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;スループット最適化のレシピ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; - DeepEP を使用した 72 個の GPU&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://github.com/AI-Hypercomputer/gpu-recipes/blob/main/inference/a4x/disaggregated-serving/dynamo/README.md#sglang-wo-deepep" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;レイテンシ最適化のレシピ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; - DeepEP を使用しない 8 個の GPU&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;皆様がどのようなものを構築されるか楽しみにしております。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Sean Horgan&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Ling Lin&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 30 Jan 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x/</guid><category>AI &amp; Machine Learning</category><category>AI Hypercomputer</category><category>GKE</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Google Cloud A4X（GB200）と NVIDIA Dynamo を使用した WideEP Mixture-of-Experts 推論のスケーリング</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/scaling-moe-inference-with-nvidia-dynamo-on-google-cloud-a4x/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Sean Horgan</name><title>Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Ling Lin</name><title>Software Engineer</title><department></department><company></company></author></item><item><title>VM OS エージェントの大規模な管理を簡素化: VM Extensions Manager のご紹介</title><link>https://cloud.google.com/blog/ja/products/compute/introducing-vm-extensions-manager/</link><description>&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_d395npc.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 1 月 6 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/introducing-vm-extensions-manager?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;IT 管理者であれば、大規模な VM インスタンス フリート全体でオペレーティング システム（OS）エージェント（Google で拡張機能と呼んでいる機能）を管理するのが複雑で面倒な作業であることをご存じでしょう。実際、拡張機能によって強力なアプリケーション レベルの機能が利用可能になるにもかかわらず、VM フリートで拡張機能ベースのサービスを採用する際にこの運用オーバーヘッドが大きな障壁となる可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この問題を解決するため、Google は &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;VM Extensions Manager のプレビュー版&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を発表しました。これは、Compute Engine API に直接統合された新しい機能で、Google 提供の拡張機能のインストールと管理を簡素化するものです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;VM Extensions Manager はポリシー主導型の一元化されたフレームワークを採用しており、VM インスタンス上の Google Cloud 拡張機能のライフサイクル全体を管理できます。手動スクリプト、起動スクリプト、その他のカスタム ソリューションに頼る代わりに、ポリシーを定義することで、既存か新規かにかかわらず、すべての VM インスタンスがポリシーに準拠するように管理可能になります。これにより、運用オーバーヘッドを数か月から数時間に短縮できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;VM Extensions Manager の使用を開始する方法&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;VM Extensions Manager は compute.googleapis.com API に直接統合されているため、新しい API を検出したり有効にしたりする必要はなく、数分で使い始めることができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. 拡張機能ポリシーを定義する&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;まず、拡張機能の望ましい状態を指定するポリシーを定義します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;プレビュー版では、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;プロジェクト レベル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;で&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ゾーンポリシー&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を作成できます。このポリシーは、単一の特定のゾーン内にある VM インスタンスを対象とします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今後数か月以内に、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;グローバル ポリシー&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;と、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;組織レベル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;および&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;フォルダレベル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;のポリシーもサポート対象に追加される予定です。これにより、優先順位を使用して柔軟なポリシー階層を構築し、単一のコントロール プレーンから企業フリートの拡張機能を管理できるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このポリシーは、Google Cloud コンソールから直接作成できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_2Dllyl3.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Cloud コンソールを使用して VM 拡張機能のポリシーを作成するデモ&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3_Bayaqjl.gif"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. 拡張機能を選択する&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;ポリシーで、管理する Google Cloud 拡張機能を選択します。プレビュー版の VM Extensions Manager では、次のような重要な Google Cloud 拡張機能がサポートされています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/logging/docs/agent/ops-agent/agent-vmem-policies"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Ops エージェント&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（ops-agent）: Compute Engine インスタンスからテレメトリーを収集する主要エージェントです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/workload-manager/docs/evaluate/set-up-agent-for-sap"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;SAP 用エージェント&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（sap-extension）: Google Cloud の SAP 用エージェントは、Compute Engine インスタンスと Bare Metal Solution サーバーで実行される SAP ワークロードのサポートとモニタリングのために Google Cloud が提供しているエージェントです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/agent-for-compute-workloads"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;コンピューティング ワークロード用エージェント&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（workload-extension）: Compute Engine で実行されているワークロードをモニタリングして評価するために使用できるエージェントです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今後数か月以内に、拡張機能ベースのサービスがさらに追加される予定です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;拡張機能の特定のバージョンを指定するか、空のまま（デフォルト）にして最新の拡張機能をインストールできます。デフォルトを選択した場合、新しいバージョンのリリースを VM Extensions Manager が自動的に処理するため、ユーザーはすぐに新機能や改善機能にアクセスできます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;3. グローバル ポリシーをより細かく制御してロールアウト&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;VM Extensions Manager では、ロールアウトの速度を設定して、グローバル ポリシーの変更を複数のゾーンにわたってどのようにデプロイするかを制御することが可能です。ゾーンポリシーではロールアウト速度を設定できず、VM がオンラインになると瞬時に適用されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今後数週間以内に、まず gcloud を介してグローバル ポリシーのサポートを拡大し、関連情報をドキュメントに反映する予定です。UI の更新は今後数か月以内に行われます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;プレビュー版では、グローバル ポリシーで設定するロールアウト速度として次の 2 つから選択可能です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;SLOW（推奨）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 安全性を重視したデフォルトのオプションです。このオプションでは、Wave 間の組み込みの待ち時間を使用して、ゾーンごとのロールアウト（ポリシーの範囲内）をオーケストレートします。これにより、問題のある変更の潜在的な影響範囲を一定期間（デフォルトでは 5 日間）最小限に抑えます。このオプションは標準的なメンテナンスと更新に最適です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;FAST:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; このオプションでは、Wave 間の待ち時間がなくなり、ゾーンをまたぐフリート全体で変更が可能な限り迅速に行われます。これは、すべてのゾーンのすべての VM に、非常時特権アクセスを必要とする「ブレークグラス」緊急シナリオで重要なセキュリティ パッチをデプロイするなど、緊急のユースケースを対象としています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ポリシーを保存すると、VM Extensions Manager に処理が引き継がれます。基盤となるプログレッシブ ロールアウト エンジンによって複雑なオーケストレーションが管理され、その進行状況をモニタリングできます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;標準化と管理のための柔軟なシステム&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;VM Extensions Manager は、VM フリートの拡張機能を標準化し、制御できるように設計されています。今すぐプロジェクトにゾーンポリシーを適用して、拡張機能が正しいゾーンの VM インスタンスに正しくインストールされるようにしましょう。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Compute Engine VM インスタンスの拡張機能ポリシーの定義を開始するには、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/vm-extensions/about-vm-extension-manager?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を読んで最初のポリシーを作成してください。VM フリートの管理を標準化、保護、簡素化するために VM Extension Manager をご活用いただけますと幸いです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- プロダクト マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Omkar Suram&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- CE ディレクター、北米プラットフォーム スペシャリスト &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mike Columbus&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 20 Jan 2026 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/introducing-vm-extensions-manager/</guid><category>Management Tools</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>VM OS エージェントの大規模な管理を簡素化: VM Extensions Manager のご紹介</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/introducing-vm-extensions-manager/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Omkar Suram</name><title>Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mike Columbus</name><title>CE Director, Northam Platform Specialists</title><department></department><company></company></author></item><item><title>貴社のインフラストラクチャは AI エージェントに対応していますか？</title><link>https://cloud.google.com/blog/ja/products/compute/idc-on-the-ai-efficiency-gap/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 12 月 12 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/idc-on-the-ai-efficiency-gap?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;編集者注&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;: 本日は、AI インフラストラクチャの TCO（総所有コスト）危機とそれに対処する方法について、IDC の Dave McCarthy 氏にお話を伺います。同氏の分析をお読みください。&lt;/span&gt;&lt;/p&gt;
&lt;hr/&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI をめぐる状況は劇的に変化しています。ここ数年、業界はリソースを大量に消費する大規模なプロセスである生成 AI モデルのトレーニングに焦点を絞ってきました。しかし現在、焦点はさらに大きな新しい課題である推論へと急速に移行しつつあります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;推論（トレーニング済みモデルを使用してリアルタイムの予測を行うプロセス）は、もはや AI ライフサイクルの一部ではなくなり、急速に主要なワークロードになりつつあります。IDC が最近 1,300 人を超える全世界の AI 意思決定者を対象に実施したアンケート調査では、推論はすでに AI ワークロードの最大のセグメントとして挙げられ、すべての AI オペレーションの 47% を占めていました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この高い比率は、実世界のアプリケーションの膨大な数によるものです。モデルは定期的にトレーニングされながら、すべてのユーザークエリ、API 呼び出し、おすすめで推論のために休みなく使用されます。また、こうした推論の急増はハイブリッド環境全体に広がっていることを認識する必要があります。IDC のアンケートの回答者によると、ワークロードの 63% はクラウド内に存在します。クラウドは、常にコンテンツ作成や chatbot などのスケーラブルなアプリケーションの標準であり続けます。一方、ワークロードの 37% はオンプレミス インフラストラクチャにデプロイされます。これは通常、ロボット工学や実世界と直接やり取りするその他のシステムのユースケースに関連しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;現在、この需要を増大させている新たな要因が、自律型および半自律型の AI エージェントの台頭です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの「エージェント ワークフロー」は、AI の新たな論理的な進化の現れです。このワークフローでは、モデルは単一のプロンプトに回答するだけでなく、複雑な複数ステップのタスクを実行します。「パリ旅行の計画を立てて」と指示された AI エージェントは、フライトの検索、ホテルの空室状況の確認、レビューの比較、場所の地図表示など、数十もの互いに関連するオペレーションを実行する必要があります。各ステップは推論オペレーションであり、さまざまなシステム間でオーケストレートする必要がある一連のリクエストを作成します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;こうした需要の急増は、多くの組織で重大な脆弱性を露呈させています。それが AI 効率のギャップです。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェントの時代の TCO 危機&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI 効率のギャップとは、AI スタックの理論上のパフォーマンスと実世界のパフォーマンス実績の差異です。このギャップが TCO（総所有コスト）危機を招きます。ギャップの原因はシステム全体の非効率性です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;IDC の調査によると、半数以上（54.3%）の組織が複数の AI フレームワークとハードウェア プラットフォームを使用しています。この柔軟性は有益に思えますが、驚くべき短所があり、92% の組織が効率に悪影響を及ぼしたと報告しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最適化されていない異種サービスを寄せ集めた断片的な「パッチワーク」アプローチは、次のような問題を波及的に生じさせます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;回答者の 41.6% がコンピューティング費用の増加を報告&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 冗長なプロセスと低い利用率が支出を増加させます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;回答者の 40.4% がエンジニアリングの複雑化を報告&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: チームは、価値の創造よりも断片的なスタックの管理に多くの時間を費やしています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;回答者の 40.0% がレイテンシの増加を報告&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: システムの一部（ストレージやネットワーキングなど）のボトルネックにより、アプリケーションの全体的なパフォーマンスが低下します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;根本的な問題は、組織が高価で高性能なアクセラレータの料金を支払っているにもかかわらず、それらを十分に活用できていないことです。IDC のデータによると、浪費されている AI 予算全体の 29% は推論に関連しています。この浪費の直接的な原因は、GPU アイドル時間（回答者の 29.4% が報告）とリソースの非効率的な使用（22.3% が報告）です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;多くの場合、高価なアクセラレータがアイドル状態になるのは、低速なストレージ システムからのデータを待機しているか、アプリケーション サーバーが次のリクエストの準備をしているときです。これは、コンポーネントの障害ではなく、システムレベルの障害です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この障害は、AI エンジンの原動力となるデータ マネジメントに存在する大きな課題によってさらに悪化することがよくあります。アンケート回答者がこのギャップの原因として挙げた主な課題が 3 つあります。47.7% は、データ品質とガバナンスの確保に苦労しています。45.6% は、データ ストレージ管理と関連コストの課題に取り組んでいます。44.1% は、データ クリーニングとデータ準備の複雑さとそれらにかかる時間を挙げています。データ パイプラインが高速なアクセラレータに追いつかないと、インフラストラクチャ全体の効率が低下します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;ギャップを埋める方法: 断片化したスタックから統合されたシステムへ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI エージェントの時代に費用対効果の高いスケーリングを実現するには、個々のコンポーネントについて考えるのをやめ、システムレベルの設計に焦点を当てる必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;たとえば、エージェント ワークフローには、タイプが異なる次の 2 つのコンピューティング間の緊密な連携が必要です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;汎用コンピューティング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 運用上のバックボーンです。アプリケーション サーバーを実行し、ワークフローのオーケストレーションとデータの事前処理を行い、モデルに関するすべてのロジックを処理します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;専用アクセラレータ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: AI モデル自体を実行する高性能なエンジンです。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;断片化した環境では、これら 2 つの要素が非効率的に結び付き、レイテンシが急増します。今後取るべき道は、ソフトウェア、ネットワーキング、ストレージ、コンピューティング（汎用と専用の両方）が単一の包括的なシステムとして機能する最適化されたアーキテクチャです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この総合的なアプローチは、AI の TCO を管理する唯一のサステナブルな方法です。このアプローチでは、目標を再定義して、単に高速なアクセラレータを購入することから、エンドツーエンドのワークフロー全体の「費用対効果」と「ユニット エコノミクス」を改善することに切り替えます。組織は、ボトルネックを解消し、すべてのリソースの利用率を最大化して初めて、効率のギャップを埋めることができます。この成果を達成するために、組織は積極的に戦略を移行しています。IDC のアンケート調査によると、回答者の 28.9% はモデル最適化手法に優先的に取り組んでおり、26.3% は AI サービス プロバイダとの提携によってこの複雑な移行を乗り切ろうとしています。さらに、25% はチームのスキルアップのためのトレーニングに投資し、AI 投資の価値を高めようとしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;推論の時代がすでに到来し、その後にエージェントの時代が迫っています。イノベーションの次の波に乗るのは、最も強力なアクセラレータを持つ組織ではなく、効率と統合レベルと費用対効果が最も高いシステムを構築してアクセラレータを強化できる組織でしょう。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Cloud からのメッセージ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Cloud は、IT リーダーが「推論の時代」への重要な移行を乗り切るお手伝いをするために、この IDC の調査をスポンサーとして後援しました。Google Cloud は、この投稿で取り上げられている「効率のギャップ」（断片化したスタックとアイドル状態のリソースによって生じるギャップ）がサステナブルな費用対効果の主な障壁であることを認識しています。それゆえに、Google は AI Hypercomputer を作成しました。これは、要求の厳しい AI ワークロードで優れたパフォーマンスと効率性を実現できるように設計された統合スーパーコンピュータ システムです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;IDC は、全世界の IT リーダー 1,300 人を対象にアンケート調査を実施し、効率と費用対効果を最大化するために AI スタックをどのように設計しているかを明らかにしました。詳しくは、ホワイトペーパー「&lt;/span&gt;&lt;a href="https://cloud.google.com/resources/content/ai-efficiency-gap"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;The AI Efficiency Gap: From TCO Crisis to Optimized Cost and Performance&lt;/span&gt;&lt;/a&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;」（AI 効率のギャップ: TCO 危機を乗り越えてコストとパフォーマンスを最適化）を無料でダウンロードしてご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-IDC、クラウドおよびエッジ インフラストラクチャ サービス、調査担当バイス プレジデント、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Dave McCarthy 氏 &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Wed, 14 Jan 2026 00:10:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/idc-on-the-ai-efficiency-gap/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>貴社のインフラストラクチャは AI エージェントに対応していますか？</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/idc-on-the-ai-efficiency-gap/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Dave McCarthy</name><title>Research Vice President, Cloud and Edge Infrastructure Services, IDC</title><department></department><company></company></author></item><item><title>Cluster Director による AI および HPC クラスタ自動化の一般提供を開始</title><link>https://cloud.google.com/blog/ja/products/compute/cluster-director-is-now-generally-available/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 12 月 18 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/cluster-director-is-now-generally-available?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI トレーニング ワークロードとハイ パフォーマンス コンピューティング（HPC）ワークロードを支えるインフラストラクチャの複雑さは、チームの作業ペースを低下させる可能性があります。Google Cloud において、世界最大規模の AI 研究チームとの共同作業を重ねる中で、あらゆる場面でそのような状況を目にしています。たとえば、複雑な構成ファイルという障壁にぶつかっている研究者、自社開発スクリプトによる GPU の管理に苦労しているプラットフォーム チーム、数週間に及ぶトレーニング実行を阻む予測不能なハードウェア障害に絶えず奮闘している運用管理者などです。物理的なコンピューティングの利用だけでは十分ではありません。最先端の技術を利用するには、ハードウェア障害を克服する&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;信頼性&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、トポロジを尊重する&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;オーケストレーション&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、拡大するニーズに適応する&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ライフサイクル&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;管理戦略が必要です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび Google Cloud は、このような要求に応えるべく、&lt;/span&gt;&lt;a href="https://cloud.google.com/products/cluster-director"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Cluster Director&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; の一般提供（GA）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を開始し、Cluster Director サポートの&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;プレビュー版&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine?utm_source=google&amp;amp;utm_medium=cpc&amp;amp;utm_campaign=na-CA-all-en-dr-bkws-all-all-trial-e-dr-1710134&amp;amp;utm_content=text-ad-none-any-DEV_c-CRE_772382725406-ADGP_Hybrid+%7C+BKWS+-+EXA+%7C+Txt-AppMod-GKE-Kubernetes+Engine-KWID_335784956140-kwd-335784956140&amp;amp;utm_term=KW_kubernetes+google-ST_kubernetes+google&amp;amp;gclsrc=aw.ds&amp;amp;gad_source=1&amp;amp;gad_campaignid=22976548925&amp;amp;gclid=Cj0KCQiAgP_JBhD-ARIsANpEMxxNCV54Smw89kgAplcXoolCw8LdVBSA9buRDhHT_4QlTybV4LZoqKIaAqJcEALw_wcB&amp;amp;e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Kubernetes Engine（GKE）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;上の Slurm 向け）をリリースしました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director（GA）は、最新のスーパーコンピューティングの厳しい要件を満たせるように設計されたマネージド インフラストラクチャ サービスです。脆弱な DIY ツールの代わりに、トポロジを考慮した堅牢なコントロール プレーンを使用することで、最初のデプロイから 1,000 回目のトレーニング実行に至る Slurm クラスタのライフサイクル全体を処理します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、Cluster Director をさらに拡張して、GKE 上の Slurm のサポート（プレビュー版）を提供します。これにより、お客様は高パフォーマンス スケジューリングの慣れ親しんだ精度と Kubernetes の自動スケーリングという 2 つの強みを最大限に利用できます。これは、GKE ノードプールを Slurm クラスタの直接的なコンピューティング リソースとして扱い、既存の Slurm ワークフローを変更せずに Kubernetes のパワーでワークロードをスケーリングできるようにすることで実現されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Cluster Director の一般提供を開始&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director は、クラスタ ライフサイクルの各フェーズで高度な機能を提供します。フェーズには、インフラストラクチャの設計とキャパシティを決定する準備作業（0 日目）、クラスタが自動的にデプロイおよび構成されるデプロイ（1 日目）、パフォーマンス、ヘルス、最適化が継続的にトラッキングされるモニタリング（2 日目）があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この包括的なアプローチにより、お客様は詳細な構成が可能なインフラストラクチャのメリットを享受しながら、下位レベルのオペレーションを自動化して、コンピューティング リソースが常に最適化され、信頼性と可用性が確保されている状態を維持できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;では、これらすべてにかかる費用はどれくらいになるでしょうか？最大のメリットはそこにあります。Cluster Director の使用に追加料金はかかりません。料金は、基盤となる Google Cloud リソース（コンピューティング、ストレージ、ネットワーキング）に対してのみ発生します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Cluster Director によるデプロイの各フェーズのサポート&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;0 日目: 準備&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;通常、クラスタの立ち上げには数週間にわたるプランニング、Terraform のラングリング、ネットワークのデバッグが必要です。Cluster Director は、ワークロード要件に合わせて最適化されたインフラストラクチャ トポロジを設計するツールを備えており、「0 日目」の体験を完全に様変わりさせます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1_gBjYYUA.gif"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director は、0 日目のセットアップを効率化するため、以下を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;リファレンス アーキテクチャ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google の社内ベスト プラクティスを再利用可能なクラスタ テンプレートに体系化し、標準化された検証済みのクラスタを数分でスピンアップできるようにしました。これにより、組織内のすべてのチームが同じセキュリティ基準をデプロイに使用し、デフォルトで正しく構成されるインフラストラクチャ上で、ネットワーク トポロジやストレージのマウントにデプロイできるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ガイド付き構成:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; よく知られているように、オプションが多すぎると構成の停滞を招くことがあります。Cluster Director のコントロール プレーンは、効率化されたセットアップ フローを通してお客様をガイドします。お客様がリソースを選択すると、システムによって複雑なバックエンド マッピングが処理されます。これにより、デプロイに先立ってストレージ階層、ネットワーク ファブリック、コンピューティング シェイプの互換性が確保され、最適化されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;広範なハードウェア サポート:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cluster Director は、大規模 AI システム向けの&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/cluster-director/docs/compute"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;フルサポート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を提供します。これには、NVIDIA GB200 および GB300 GPU を搭載した Google Cloud の &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;A4X および A4X Max VM&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; や、費用対効果の高いログインノードとデバッグ パーティションに適した &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;N2 VM&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; などの多目的 CPU が含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟な使用オプション:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cluster Director は、重要なトレーニング実行時のキャパシティを確保する&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/reservations-overview"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;予約機能&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、動的スケーリング用の &lt;/span&gt;&lt;a href="https://cloud.google.com/products/dws/pricing?e=48754805&amp;amp;hl=en"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Dynamic Workload Scheduler&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt; Flex-start&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、低コストの随時実行に適した &lt;/span&gt;&lt;a href="https://cloud.google.com/solutions/spot-vms?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Spot VM&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をサポートしており、お客様が希望する調達戦略に合わせて柔軟に調整できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Google Cloud の Cluster Director は、大規模な AI と HPC の環境を管理できるように最適化されており、NVIDIA の高速コンピューティング プラットフォームのパワーとパフォーマンスを補完する役割を果たします。私たちは互いに協力して、次世代のコンピューティングの課題に対処できる簡素化された強力でスケーラブルなソリューションをお客様に提供します。」&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;- NVIDIA、高速コンピューティング プロダクト担当ディレクター、Dave Salvator 氏&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1 日目: デプロイ&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ハードウェアのデプロイとパフォーマンスの最大化はまったく別物です。1 日目は実行フェーズであり、お客様の構成が完全に動作するクラスタに変換されます。素晴らしいことに、Cluster Director は VM をプロビジョニングするだけでなく、ソフトウェアとハードウェアのコンポーネントが健全な状態にあり、適切にネットワーク化され、最初のワークロードを受け入れる準備ができているかどうかを検証します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2_MyVTseY.gif"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director は、高パフォーマンスのデプロイを保証するために、以下を自動化します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;健全性の証明:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Cluster Director は、ジョブが GPU に到達する前に、DCGMI 診断や &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;NCCL&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; パフォーマンス検証などの厳格なヘルスチェック スイートを実行し、ネットワーク、ストレージ、アクセラレータの完全性を検証します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;アクセラレータへの継続的なデータ供給:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ストレージ スループットは、しばしばトレーニング効率を低下させる隠れた要因となります。そのため、Cluster Director はパフォーマンス階層の選択が可能な Google Cloud Managed Lustre を完全にサポートしています。高スループットの並列ストレージをコンピューティング ノードに直接接続できるため、GPU がデータ不足になることはありません。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;相互接続のパフォーマンスの最大化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; スケーリングを最大化するため、Cluster Director はトポロジを考慮したスケジューリングとコンパクト プレースメント ポリシーを実装します。システムは、Google のノンブロッキング ファブリックで高密度の予約を利用することによって、分散ワークロードを可能な限り最短の物理パスに配置し、テール レイテンシを最小限に抑え、最初から集団通信（NCCL）の速度を最大化します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2 日目: モニタリング&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;現実の AI / HPC インフラストラクチャでは、ハードウェアの障害や要件の変更が発生します。柔軟性を欠くクラスタは非効率的です。継続的な「2 日目」の運用フェーズに移行したら、クラスタの健全性を維持し、利用率とパフォーマンスを最大化する必要があります。Cluster Director は、長期的な運用の複雑さに対応できるコントロール プレーンを備えています。このたび導入したのは、2 日目の運用の煩雑な現実に対処できる新しい&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;アクティブ クラスタ管理&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;機能です。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3_VSuBKiw.gif"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しいアクティブ クラスタ管理機能には、以下が含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;トポロジレベルの可視性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 目に見えないものはオーケストレートできません。Cluster Director のオブザーバビリティ グラフとトポロジ グリッドを使用すると、フリート全体を可視化し、サーマル スロットリングや相互接続に関する問題を特定して、物理的な近接性に基づいてジョブの配置を最適化できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ワンクリック修復:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ノードが劣化したときに、SSH で接続してデバッグする必要がなくなります。Cluster Director を使用すると、ワンクリックで Google Cloud コンソールから直接、障害が発生したノードを交換できます。システムによってドレイン、破棄、交換が処理され、数分でクラスタが最大キャパシティに戻されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;適応型インフラストラクチャ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 研究のニーズに変更があったときは、クラスタも変更する必要があります。今後は、アクティブなクラスタを変更できます。つまり、クラスタを破棄したり進行中の作業を中断したりすることなく、ストレージ ファイル システムの追加や削除などのアクティビティを即座に行えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE 上の Slurm 向け Cluster Director サポートのプレビュー版をリリース&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;イノベーションはオープンな環境で発展します。Kubernetes を構築した Google と、Slurm の開発をバックアップした SchedMD は、世界最先端のコンピューティングを支えるオープンソース テクノロジーを長きにわたって支持してきました。この数年間、NVIDIA と SchedMD は緊密に連携して GPU スケジューリングの最適化に取り組んでいます。その結果、最新の AI に不可欠な基本機能である汎用リソース（GRES）フレームワークやマルチインスタンス GPU（MIG）などのサポートが提供されるようになりました。NVIDIA は SchedMD の買収を通じて、Slurm をベンダーに依存しない標準として発展させる取り組みを強化しました。これは、世界最速のスーパーコンピュータを支えるソフトウェアがオープンかつ高パフォーマンスであり続け、未来の高速コンピューティングに向けて完璧に調整されることを保証するものです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、この高速コンピューティングの土台に立って、SchedMD との連携を深めつつ、いかにしてクラウドネイティブ オーケストレーションと高パフォーマンス スケジューリングのギャップを埋めるかという業界の根本的な課題を解決しようとしています。このたび、SchedMD の Slinky サービスを利用した、GKE 上の Slurm 向け Cluster Director サポートのプレビュー版のリリースをお知らせできるのは、Google Cloud にとって大きな喜びです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このイニシアチブは、インフラストラクチャの世界の 2 つの標準を統合するものです。GKE 上でネイティブ Slurm クラスタを直接実行することで、両方のコミュニティの強みを増幅できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;研究者&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;の皆様は、&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;sbatch&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;squeue&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; など、数十年にわたって HPC を定義してきた妥協のない Slurm のインターフェースとバッチ機能を利用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;プラットフォーム チーム&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;の皆様は、自動スケーリング、自己回復、ビンパッキングの機能を備えた GKE がもたらす運用のベロシティを利用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE 上の Slurm は、Google と SchedMD の長きにわたるパートナーシップによって強化されており、次世代の AI および HPC ワークロード向けのオープンで強力な統合基盤の構築に役立ちます。&lt;/span&gt;&lt;a href="https://forms.gle/LaV116jNy2CvAnNV8" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;今すぐプレビュー版へのアクセスをリクエスト&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;しましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;今すぐ Cluster Director をお試しください&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cluster Director を使用して AI および HPC クラスタの自動化を開始する準備はできましたか？&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;エンドツーエンドの機能について詳しくは、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/cluster-director/docs"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;コンソールで &lt;/span&gt;&lt;a href="http://console.cloud.google.com/cluster-director"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cluster Director&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を有効化してください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google Cloud、Cluster Director 担当シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Ilias Katsardis&lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google Cloud、AI インフラストラクチャ担当グループ プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Jason Monden&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Thu, 25 Dec 2025 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/cluster-director-is-now-generally-available/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Cluster Director による AI および HPC クラスタ自動化の一般提供を開始</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/cluster-director-is-now-generally-available/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Ilias Katsardis</name><title>Sr. Product Manager, Cluster Director, Google Cloud</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Jason Monden</name><title>Group Product Manager, AI Infrastructure, Google Cloud</title><department></department><company></company></author></item><item><title>「The Forrester Wave™: AI Infrastructure Solutions, Q4 2025」で Google がリーダーに</title><link>https://cloud.google.com/blog/ja/products/compute/forrester-wave-ai-infrastructure-solutions-q4-2025-leader/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 12 月 18 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/forrester-wave-ai-infrastructure-solutions-q4-2025-leader?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;使用するかどうかはもはや問題ではなく、有望なプロトタイプからビジネス成果を促進する本番環境グレードのサービスにどのようにスケーリングするかが問題になっています。推論の時代において、競争優位性は、世界中のユーザーに役立つ情報を可能な限り低いコストで提供する能力によって決まります。デモから大規模な本番環境へのデプロイに移行する際には、最新の AI ソフトウェアとアクセラレータ ハードウェアのプラットフォームを提供する統合システムを使用して、インフラストラクチャの運用を簡素化するとともに、費用とアーキテクチャの複雑性を低く抑える必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;先日、Forrester は、13 社のベンダーを評価した &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;The Forrester Wave™: AI Infrastructure Solutions, Q4 2025&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; レポートを公開しました。Google は、このレポートの調査結果を通じて、こうした主要な課題を解決するという Google の取り組みが認められたと考えています。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Google は、「現在のサービス」カテゴリにおいて全ベンダーの中で最高スコアを獲得&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;し、ビジョン、アーキテクチャ、トレーニング、推論、効率性、セキュリティなど、19 の評価基準のうち 16 の基準で最高スコアを記録しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://cloud.google.com/resources/content/2025-forrester-wave-ai-infrastructure"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;レポート全文はこちら&lt;/strong&gt;&lt;/a&gt;&lt;strong style="vertical-align: baseline;"&gt;: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;The Forrester Wave™: AI Infrastructure Solutions, Q4 2025&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;統合システムで価値創出までの時間を短縮&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;企業は AI を単独で運用するわけではありません。厳格なセキュリティ プロトコルを遵守しつつ、さまざまなアプリケーションやデータベースと統合する必要があります。Forrester は、効率性とスケーラビリティの評価基準で Google に最高スコアを付け、Google Cloud の共同設計戦略を評価しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;「Google は、シリコンとインフラストラクチャの共同設計戦略を追求し、推論効率を向上させる TPU と、より幅広いエコシステムとの互換性を実現する NVIDIA GPU を開発しています。TPU がネットワーキング ファブリックと緊密に統合されるように設計することで、大規模な推論で高帯域幅と低レイテンシを実現できます。」&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は 20 年以上にわたり、Google 検索、YouTube、マップなど、世界最大規模のサービスを運用してきました。これらのサービスは前例のない規模であるため、これまで解決されたことのない問題を解決する必要がありました。必要なプラットフォームとインフラストラクチャを単純に購入することはできず、自社での開発が必要でした。ここから 10 年にわたるシステムレベルの綿密な共同設計の取り組みが始まり、カスタム ネットワーク ファブリックと特別なアクセラレータから最先端のモデルまで、すべてが 1 か所で構築されました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;その結果、統合型スーパーコンピューティング システムである AI Hypercomputer が誕生し、お客様に大きなメリットをもたらしています。幅広い AI 最適化ハードウェアをサポートしており、スループットの向上、レイテンシの短縮、結果出力までの時間の短縮、TCO の削減など、ワークロード レベルの詳細な目標に合わせて最適化できます。つまりお客様は、Google のカスタム &lt;/span&gt;&lt;a href="https://cloud.google.com/tpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Tensor Processing Unit&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（TPU）、&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;最新の &lt;/span&gt;&lt;a href="https://cloud.google.com/gpu?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA GPU&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、またはその両方を使用できます。アクセラレータとネットワーキング、ストレージを緊密に統合したシステムが基盤となり、優れたパフォーマンスと効率性を実現します。Anthropic、Lightricks、LG AI Research などの大手生成 AI 企業が、要求の厳しい AI ワークロードの実行に Google Cloud を使用しているのもそのためです&lt;/span&gt;&lt;sup&gt;&lt;span style="vertical-align: baseline;"&gt;1&lt;/span&gt;&lt;/sup&gt;&lt;span style="vertical-align: baseline;"&gt;。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;システムレベルの統合は高速処理の基盤となりますが、運用が複雑になり速度が低下する可能性はあります。製品化までの時間を短縮するために、Google は AI インフラストラクチャをデプロイして管理する複数の方法を提供し、希望のワークフローを問わず、面倒な作業を抽象化します。Google Kubernetes Engine（GKE）Autopilot を通じて、コンテナ化されたアプリケーションの管理を自動化し、LiveX.AI のようなお客様が運用コストを 66% 削減できるよう支援します。同様に、Cluster Director によって Slurm ベース環境のデプロイを簡素化し、LG AI Research のようなお客様がセットアップ時間を 10 日から 1 日未満に短縮できるようにします。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI の費用と複雑さの管理&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Forrester は、料金の柔軟性と透明性の評価基準で Google Cloud に最高スコアを付けました。コンピューティングの価格は、AI インフラストラクチャの費用を算出するための要素の一つにすぎません。全体像を把握するには、開発費用、ダウンタイム、リソースの非効率的な使用も考慮する必要があります。Google は、スタックの各レイヤで選択肢を提供し、企業が求める柔軟性を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟な利用モデル:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Dynamic Workload Scheduler を使用することで、必要なときに必要な容量だけ購入できるため、コンピューティング費用を最大 50% 削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ロード バランシング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: GKE Inference Gateway は、AI 対応ルーティングを使用して各モデルにリクエストを分散することでスループットを向上させます。また、ボトルネックを防止し、サーバーがアイドル状態にならないようにします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;データ ボトルネックの解消&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: Anywhere Cache は、コンピューティングと同じ場所にデータを配置することで、読み取りレイテンシを最大 96% 削減し、データの移動によって生じる「統合に伴う負担」を排除します。Anywhere Cache を統合データ プラットフォームの BigQuery と併用することで、アクセラレータにデータを供給しつつ、レイテンシと下り（外向き）料金の発生を回避できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟性と選択肢による戦略的リスクの軽減&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、アクセラレータ、フレームワーク、マルチクラウド環境全体でお客様に選択肢を提供することにも尽力しています。これは Google にとって新しい取り組みではありません。Google は、Kubernetes の開発とオープンソース化を通じて得た豊富な経験から、オープン エコシステムがイノベーションへの近道であり、お客様に最大限の柔軟性を提供できるということを学びました。AI の時代においても、お客様がすでに使用しているツールに積極的に貢献することで、同じ考え方を実践しています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;オープンソース フレームワークとハードウェアのポータビリティ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; PyTorch、JAX、Keras などのオープン フレームワークは引き続きサポートされています。また、カスタム シリコンでのワークロードのポータビリティに関する懸念に直接対処するため、vLLM の TPU サポートに投資しました。これにより、デベロッパーは最小限の構成変更だけで TPU と GPU を簡単に切り替える（または両方を使用する）ことができます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ハイブリッドとマルチクラウドの柔軟性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google は、アプリケーションの実行場所についても選択肢の提供に取り組んでいます。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Distributed Cloud&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; は、Google のサービスをオンプレミス、エッジ、クラウドのロケーションに提供します。一方、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;クロスクラウド ネットワーク&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;は、お客様の環境と他のクラウド間の高速接続により、アプリケーションとユーザーを安全に接続します。この強力な組み合わせにより、特定の環境に縛られることがなくなります。ワークロードを簡単に移行して統一された管理手法を適用することで、運用を合理化し、ロックインのリスクを軽減できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;信頼できるシステム&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ビジネスモデル全体が AI サービスの可用性に依存している場合、インフラストラクチャの稼働時間は非常に重要です。Google Cloud のグローバル インフラストラクチャは、エンタープライズ グレードの信頼性を実現するように設計されています。このアプローチは、サイト信頼性エンジニアリング（SRE）の提唱を始めた Google の歴史に根ざしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、世界最大級のプライベートなソフトウェア定義ネットワークを運用しており、世界全体のインターネット下り（外向き）トラフィックの約 25% を処理しています。公共のインターネットに依存するプロバイダとは異なり、Google 独自のファイバーでトラフィックを維持し、速度、信頼性、レイテンシを向上させています。このグローバル バックボーンは、13 ペタビット/秒の帯域幅にスケールする Jupiter データセンター ファブリックによって支えられ、前世代よりも 50 倍高い信頼性を実現しています。他のプロバイダと比較すると、その差はさらに大きくなります。最後に、クラスタレベルのフォールト トレランスを向上させるために、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/elastic-training-and-optimized-checkpointing-improve-ml-goodput?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;弾力性のあるトレーニングや多層チェックポインティング&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;などの機能を採用しています。これにより、復旧までの時間を最小限に抑えながらも、障害が発生したノードの周辺でクラスタのサイズを動的に変更することで、ジョブを中断することなく続行できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;構築に安全な基盤&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google のアプローチは、AI を総合的に保護することです。実際、Google Cloud はクラウド セキュリティにおいて業界をリードする実績を維持しています。cloudvulndb.org の独自分析（2024～2025 年）によると、Google のプラットフォームでは、他の 2 つの主要クラウド プロバイダと比較して、重大度「重大」および「高」の脆弱性が最大 70% 低いことが示されています。また、Google は業界で初めて AI / ML Privacy Commitment を公表しました。この取り組みは、Google がお客様のデータを自社のモデルのトレーニングに使用しないことを保証するものです。こうした安全保護対策が講じられているため、Google Cloud の基盤には、Google のサービスを保護するゼロトラストの原則に基づいたセキュリティが組み込まれています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ハードウェアのルート オブ トラスト:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google のカスタム Titan チップは、Titanium アーキテクチャの一部として、検証可能なハードウェアのルート オブ トラストを確立します。Google は最近、&lt;/span&gt;&lt;a href="https://blog.google/technology/ai/google-private-ai-compute/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;プライベート AI コンピューティング&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;向けの Titanium Intelligence Enclaves でこれを拡張し、強化かつ分離された暗号化環境で機密データを処理できるようにしました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;組み込みの AI セキュリティ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;a href="https://cloud.google.com/security/products/security-command-center"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Security Command Center（SCC）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は Google のインフラストラクチャとネイティブに統合されており、アセットの自動検出、セキュリティ問題の防止、最前線の &lt;/span&gt;&lt;a href="https://cloud.google.com/security/products/threat-intelligence"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Threat Intelligence&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; によるアクティブな脅威の検出を実施し、攻撃者に悪用される前に既知および未知のリスクを検出することで、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/identity-security/introducing-ai-protection-security-for-the-ai-era?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI 保護&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;主権ソリューション:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;データ境界&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;などのソリューションを通じて、お客様が厳格なデータ所在地、運用管理、ソフトウェア主権の要件を満たせるようにします。これに加えて、パートナーが運用する主権管理や、エアギャップのニーズに対応する &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Distributed Cloud&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; などの柔軟なオプションも用意されています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;AI とエージェントのガバナンスのためのプラットフォーム制御: &lt;/strong&gt;&lt;a href="https://cloud.google.com/vertex-ai"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Vertex AI&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、企業向けビルダーでモデルやエージェントを大規模にデプロイするために不可欠なガバナンス レイヤを提供します。この信頼は、Google Cloud のデフォルトで保護されたインフラストラクチャに根ざしており、&lt;/span&gt;&lt;a href="https://cloud.google.com/security/vpc-service-controls"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;VPC Service Controls（VPC-SC）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;や&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kms/docs/cmek"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;顧客管理の暗号鍵（CMEK）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;などのプラットフォーム制御を使用して環境をサンドボックス化し、機密データを保護します。また、エージェント ID を使用して IAM 権限を細かく管理します。プラットフォーム レベルでは、Vertex AI と &lt;/span&gt;&lt;a href="https://cloud.google.com/products/agent-builder"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Agent Builder&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; に &lt;/span&gt;&lt;a href="https://cloud.google.com/security/products/model-armor"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Model Armor&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; が統合されており、プロンプト インジェクションやデータの引き出しといったエージェントの新たな脅威に対するランタイム保護を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;継続的な AI イノベーションの実現&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;光栄なことに、Google は「The Forrester Wave™」レポートでリーダーとして評価されました。数十年にわたる研究開発と、超大規模 AI インフラストラクチャの構築に対する Google のアプローチが認められたのだと考えています。AI の可能性の実現を支援すべく、システムレベルのイノベーションを今後も推進していきます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;レポート全文はこちら:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;a href="https://cloud.google.com/resources/content/2025-forrester-wave-ai-infrastructure"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;The Forrester Wave™: AI Infrastructure Solutions, Q4 2025&lt;/strong&gt;&lt;/a&gt;&lt;/p&gt;
&lt;hr/&gt;
&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;1. IDC によるビジネス価値に関するスナップショット（Google Cloud が委託）「The Business Value of Google Cloud AI Hypercomputer」、US53855425、2025 年 10 月&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-AI およびコンピューティング インフラストラクチャ担当バイス プレジデント兼ゼネラル マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Mark Lohmeyer&lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Cloud AI 担当バイス プレジデント兼ゼネラル マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Saurabh Tiwary &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Wed, 24 Dec 2025 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/forrester-wave-ai-infrastructure-solutions-q4-2025-leader/</guid><category>AI &amp; Machine Learning</category><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>「The Forrester Wave™: AI Infrastructure Solutions, Q4 2025」で Google がリーダーに</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/forrester-wave-ai-infrastructure-solutions-q4-2025-leader/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Mark Lohmeyer</name><title>VP and GM, AI and Computing Infrastructure</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Saurabh Tiwary</name><title>VP &amp; GM, Cloud AI</title><department></department><company></company></author></item><item><title>N4D の一般提供を開始: スケールアウト型ワークロードのコスト パフォーマンスが最大 3.5 倍に</title><link>https://cloud.google.com/blog/ja/products/compute/n4d-vms-based-on-amd-turin-now-ga/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 11 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/n4d-vms-based-on-amd-turin-now-ga?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;競争が激しい昨今の環境において、IT リーダーは、アプリケーションのスケールをサポートし、より多くの機能を展開し、高い水準のカスタマー エクスペリエンスを実現するという課題に直面しています。これにより、日常のビジネス オペレーションを支える汎用ワークロードのパフォーマンスと総所有コスト（TCO）の適切なバランスを見つけるという、直接的で複雑な課題が生じます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、Google Compute Engine の費用最適化された汎用ポートフォリオに新たに加わった N4D マシンシリーズの一般提供が開始されました。N4D は、ウェブサーバーやアプリケーション サーバー、データ分析プラットフォーム、コンテナ化されたマイクロサービスなど、幅広いワークロードに対応する、柔軟で費用対効果の高いソリューションです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4D マシンシリーズは、Google の &lt;/span&gt;&lt;a href="https://cloud.google.com/titanium?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Titanium&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; インフラストラクチャと第 5 世代 &lt;/span&gt;&lt;a href="https://www.amd.com/en/products/processors/server/epyc/9005-series.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AMD EPYC™「Turin」プロセッサ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を組み合わせたもので、前世代の N2D と比較して、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ウェブサービス ワークロードのスループットが最大 3.5 倍&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;になります。N4D は、最大 96 個の vCPU と 768 GB の DDR5 メモリ、最大 50 Gbps のネットワーキング帯域幅、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/disks/hyperdisks?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; のバランス ストレージとスループット ストレージを備えた事前定義シェイプを提供します。N4D では、コンピューティングとストレージの両方で、厳格なインスタンス サイズ設定から脱却できます。&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/instances/creating-instance-with-custom-machine-type?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム マシンタイプ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用して、vCPU の数とメモリ量を正確に個別に構成し、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/disks/hyperdisks?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用してディスク ストレージのパフォーマンスと容量を調整できます。これにより、コスト削減を総合的に実現できます。最も要求の厳しい汎用ワークロードには、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/c4d-vms-unparalleled-performance-for-business-workloads?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4D&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の一貫して高いパフォーマンスに N4D を組み合わせてお使いください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、ワークロードに最適化されたインフラストラクチャを提供し、あらゆるタスクに適切なリソースを利用できるようにします。特に、マルチティア オフロードとセキュリティ機能を備えた Titanium は、そのインフラストラクチャの基盤となっています。Titanium はネットワーキングとストレージの処理をオフロードして CPU を解放し、専用の SmartNIC がすべての I/O を管理するため、AMD EPYC コアをアプリケーション専用に確保できます。Titanium は、Google Cloud の垂直統合型スタックの一部です。このスタックは、サーバーのカスタム シリコンから、42 のリージョンにわたって 775 万キロメートルの陸上および海底ファイバーを横断する&lt;/span&gt;&lt;a href="https://cloud.google.com/about/locations?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;地球規模のネットワーク&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;まで、効率を最大化し、超低レイテンシと高帯域幅を世界規模でお客様に提供するように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;コスト パフォーマンスの新たな基準&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;N4D マシンシリーズは、前世代の N2D を上回るだけでなく、汎用コンピューティング ワークロードで&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;最大 50% 高い費用対効果&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;、Java ワークロードで&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;最大 70% 高い費用対効果 &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を実現しています。ウェブサービス ワークロードの場合、N4D は Titanium と AMD の Turin プロセッサを活用して、驚異的なスループットを実現します。これにより、N2D と比較して&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;最大 3.5 倍の費用対効果&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;が得られ、応答時間が短縮され、エンドユーザーのエクスペリエンス全体が向上します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_2hTLTQA.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="4x0iy"&gt;2025 年 10 月時点パフォーマンスは、本番環境で実行された SPECrate®2017_int_base、SPECjbb2015、Google 内部 Nginx リバース プロキシ ベンチマークの推定スコアに基づく。Google Cloud の公開されている正規料金と推定正規料金に基づく費用対効果に関する主張。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Chronosphere.max-1000x1000.jpg"
        
          alt="Chronosphere"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「エッジ プロキシフリートと社内データ パイプラインでは、Google Cloud の N4D インスタンスは N2D と比較して&lt;/i&gt; &lt;b&gt;&lt;i&gt;パフォーマンスが 3 ～ 4 倍&lt;/i&gt;&lt;/b&gt;&lt;i&gt;向上しました。また、当社のベンチマークでは、N4D は同じワークロードを処理する際に、CPU 使用率がごくわずかであるにもかかわらず、一貫性が大幅に向上しています。この価格パフォーマンスの飛躍により、汎用ワークロードを効率的にスケーリングできるようになり、当社が活用しているより具体的な Google コンピューティング プロダクトと並んで、フリートにぴったりと収まります。」&lt;/i&gt; - Chronosphere、技術スタッフ メンバー、Matt Schallert 氏&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/MediaGo.max-1000x1000.jpg"
        
          alt="MediaGo"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「&lt;/i&gt; &lt;b&gt;&lt;i&gt;スループットが 10% 向上し、費用が最大 50%削減&lt;/i&gt;&lt;/b&gt;&lt;i&gt; されたことは、TCO の最適化において大きな成果です。Google Cloud の N4D マシンシリーズで実現したのがまさにそれです。MediaGo にとって、この効率性は非常に重要です。これにより、AI を活用した広告プラットフォームをより費用対効果の高い方法でスケールできるようになり、グローバル パートナーの ROI を最大化するという当社のミッションを直接的にサポートしています。」&lt;/i&gt;- MediaGo&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/phoronix.max-1000x1000.jpg"
        
          alt="phoronix"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「N2D から N4D への移行は、世代を大きく飛躍させるものです。&lt;/i&gt;&lt;b&gt;&lt;i&gt; 152 件のテストで 144.14% のパフォーマンス向上&lt;/i&gt;&lt;/b&gt;&lt;i&gt;は、Google の Titanium が新しい AMD EPYC「Turin」プロセッサの可能性を最大限に引き出したことを証明しています。Google Cloud で最高の費用対効果を求めるお客様にとって、N4D インスタンスは明らかに最良の選択肢です。」&lt;/i&gt;- Phoronix、創設者 / 主執筆者、Michael Larabel 氏（調査の全文は&lt;a href="https://www.phoronix.com/review/google-cloud-n4d-amd-epyc-turin"&gt;こちら&lt;/a&gt;をご覧ください）&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/amd_LIvoHWP.max-1000x1000.jpg"
        
          alt="amd"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「新しい N4D インスタンスのリリースにより、Google Cloud は&lt;/i&gt; &lt;b&gt;&lt;i&gt;第 5 世代 AMD EPYC プロセッサをベースとした最も包括的なポートフォリオ&lt;/i&gt;&lt;/b&gt;&lt;i&gt;を提供できるようになり、戦略的パートナーシップにおける重要なマイルストーンを達成しました。N4D マシンシリーズは、AMD CPU の優れたパフォーマンスと Google のカスタム マシンタイプの独自性を組み合わせることで、日常的なワークロードの費用対効果、柔軟性、費用最適化を大幅に向上させます。Google のベンチマーク テストでこのことが確認されており、メディアのエンコードとトランスコードのワークロードでは、前世代の N2D マシンシリーズと比較して、パフォーマンスが最大 75% 向上しています。」&lt;/i&gt;- AMD、クラウド ビジネス グループ担当シニア ディレクター Ryan Rodman 氏&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;C4D マシンシリーズを補完&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今年初めには、N4D と同じ基盤プロセッサ上に構築された汎用 &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/c4d-vms-unparalleled-performance-for-business-workloads"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4D マシンシリーズ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を導入しました。一貫して高いパフォーマンスと、高度なメンテナンス サポート、より大きなシェイプ、次世代の Titanium ローカル SSD などのエンタープライズ機能を備えた C4D は、重要なワークロードに最適です。実際、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/c4d-vms-unparalleled-performance-for-business-workloads?e=48754805#:~:text=%E2%80%9CSilk%20has%20tested,D%20Officer%2C%20Silk"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Silk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/c4d-vms-unparalleled-performance-for-business-workloads?e=48754805#:~:text=%22We%20are%20constantly,Engineer%2C%20Chess.com"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Chess.com&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; などのお客様は、前世代と比較して C4D で 40% 以上のパフォーマンス向上を報告しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;しかし、重要なアプリケーションは、全体像の一部にすぎません。最新のクラウド アーキテクチャでは、柔軟性と費用対効果が重要な無数の汎用ワークロードも実行する必要があります。そのため、C4D を補完するものとして N4D を設計しました。C4D と N4D を併用することで、エンタープライズ機能、パフォーマンス、柔軟性、費用最適化の全範囲が利用可能になり、以下を選択できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;C4D で一貫したパフォーマンスを実現:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; これは、最も要求が厳しく、レイテンシの影響を受けやすいアプリケーション向けのソリューションです。最大 200 Gbps のネットワーキング、ローカル SSD のサポート、最大 384 個の vCPU を備えた大型シェイプ、ベアメタル オプションにより、C4D は大規模データベース、高トラフィックの広告サーバーとゲームサーバー、要求の厳しい AI/ML 推論ワークロードに対して、予測可能なハイエンドのパフォーマンスを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;N4D で柔軟な費用最適化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; これは、汎用ワークロードの大部分を処理するエンジンです。N4D は、優れた費用対効果、低コスト、柔軟性を備えており、ウェブサーバー、マイクロサービス、開発環境などのアプリケーションの TCO を大幅に削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このアプローチはすでに実際の成果を上げており、Verve のようなお客様はビジネスを両面から最適化できるようになっています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/verve.max-1000x1000.jpg"
        
          alt="verve"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;「&lt;i&gt;Google の第 4 世代 AMD ポートフォリオにより、収益と費用の両方を同時に最適化できます。&lt;/i&gt;&lt;b&gt;&lt;i&gt;C4D は、コア広告サーバーに必要な一貫したピーク パフォーマンスを提供します&lt;/i&gt;&lt;/b&gt; &lt;i&gt;。C3D より 81% 高速で、これにより、フィルレート（入札とリクエストのマッチングの成功）が向上し、収益が直接的に増加します。一方、&lt;/i&gt; &lt;b&gt;&lt;i&gt;N4D は、GKE を使用したスケールアウト マイクロサービスなどの日常的なワークロードにおいて、N2D の 2 倍のパフォーマンスと費用対効果を実現&lt;/i&gt;&lt;/b&gt;&lt;i&gt;し、全体的な TCO を削減しながら成長を可能にしています。この「Better Together」戦略により、ミッション クリティカルなサービスには C4D の一貫したピーク パフォーマンスを使用し、柔軟で費用対効果の高い N4D を他のすべての場所で使用して TCO を積極的に削減できます。これは、他の場所で単一の VM タイプを使用するだけでは不可能なレベルの最適化です。」- Verve、プリンシパル システム エンジニア、Pablo Loschi 氏&lt;/i&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;カスタム マシンタイプと Hyperdisk の利点&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;カスタム マシンタイプは、Google Cloud の重要な差別化要因であり、事前定義された「標準サイズ」を超えた構成が可能です。ワークロードを無理やり枠に押し込むのではなく、ワークロードのニーズに合わせてインフラストラクチャを調整できるため、費用を節約できます。たとえば、16 個の vCPU と 70 GB の RAM を必要とするメモリ集約型のワークロードは、通常、事前定義された N4D-highmem-16 シェイプに配置されるため、未使用のリソースに対して料金を支払うことになります。CMT を使用すると、正確に 16 vCPU と 70 GB の構成をプロビジョニングできるため、無駄をなくし、最大 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;17% の費用削減&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最大 96 個の vCPU と 768 GB の DDR5 メモリを備えたシェイプで、カスタム マシンタイプと N4D を組み合わせることで、柔軟な vCPU 対メモリ比と拡張メモリのサポートにより、必要なリソースを正確に調整できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/symbotic.max-1000x1000.jpg"
        
          alt="symbotic"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="f72bn"&gt;&lt;i&gt;「Symbotic のビジョンは、規模と効率性を重視して構築された AI 搭載のロボット プラットフォームでグローバル サプライ チェーンに革命を起こすことです。そのためには、強力でスケーラブルなインフラストラクチャが必要です。AMD の最新の EPYC プロセッサを搭載した Google Cloud の N4D VM は、まさにそれを実現しました。以前の N2D 世代と比較して&lt;/i&gt; &lt;b&gt;&lt;i&gt;パフォーマンスが 40% も大幅に向上&lt;/i&gt;&lt;/b&gt; &lt;i&gt;したため、シミュレーションの速度や忠実度を変えることなく、&lt;/i&gt;&lt;b&gt;&lt;i&gt; CPU フットプリントを半分に&lt;/i&gt;&lt;/b&gt; &lt;i&gt;削減できました。これらのメリットをカスタム マシンタイプと組み合わせることができる&lt;/i&gt; &lt;i&gt;（Google Cloud 独自の機能）ことは、大きな変革をもたらします。これにより、&lt;/i&gt; &lt;b&gt;&lt;i&gt;ワークロードに合わせてインフラストラクチャを正確に構築&lt;/i&gt;&lt;/b&gt;&lt;i&gt; し、他のクラウド サービスと比較して TCO を大幅に削減できます。」&lt;/i&gt;- Symbotic、（CIO）最高情報責任者、Dan Inbar 氏&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このきめ細かい制御と TCO のメリットは、コンピューティングだけでなくストレージにも及びます。カスタム マシンタイプで固定された vCPU とメモリの比率から解放されるのと同様に、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/disks/hyperdisks?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; ではストレージのパフォーマンスと容量が分離されるため、容量とパフォーマンスを個別に調整して、ワークロードのブロック ストレージ要件に正確に合わせることができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Hyperdisk Balanced ボリュームの &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/storage-data-transfer/hyperdisk-storage-pools-is-now-generally-available?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Hyperdisk ストレージ プール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;により、この機能がさらに強化されています。これにより、各ボリュームを個別に管理するのではなく、パフォーマンスと容量をまとめてプロビジョニングできます。その結果、管理が簡素化され、効率が向上し、SAN ワークロードのモダナイズが容易になります。これらすべてが、ストレージの TCO を &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/storage-data-transfer/hyperdisk-storage-pools-is-now-generally-available?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;30 ～ 50%&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; 削減するのに役立ちます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;N4D を今すぐ利用開始&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最新の N4D VM シリーズの導入は簡単です。特に、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Kubernetes Engine（GKE）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;では、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/adopt-new-vm-series-with-gke-compute-classes-flexible-cuds?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム コンピューティング クラス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;によって、ワークロードを新しいハードウェアに移行する際の運用上のハードルが解消されます。VM タイプの優先順位付きリストに N4D を追加するだけで、ワークロードに必要なパフォーマンスとスケーリングの柔軟性を確保できます。N4D は現在、us-central1（アイオワ）、us-east1（サウスカロライナ）、us-west1（オレゴン）、us-west4（ラスベガス）、europe-west1（ベルギー）、europe-west4（オランダ）でご利用いただけます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最新の提供状況については、&lt;/span&gt;&lt;a href="https://cloud.google.com/compute/docs/regions-zones#available"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;リージョンとゾーンのページ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご確認のうえ、&lt;/span&gt;&lt;a href="https://console.cloud.google.com/"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud コンソール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;または GKE から最初のインスタンスを今すぐデプロイしてみてください。N4D の詳細については、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/general-purpose-machines#n4d_series"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;1. 9xx5C-044 - 2025 年 10 月 21 日時点の AMD パフォーマンス ラボによるテスト。N4D-standard-16 のスコアと、Ubuntu24.04LTS OS（6.8.0-1021-gcp カーネル、SMT オン）で FFmpeg v6.1.1 ベンチマーク（エンコード 2 回とトランスコード 2 回の平均）を実行した N2D-standard-16 のスコアの比較。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;パフォーマンスの向上（N2D に正規化）:&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Ffmpeg_raw_vp9                   1.76&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Ffmpeg_h264_vp9                1.76&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Ffmpeg_raw_h264                1.71&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Ffmpeg_vp9_h264                1.76&lt;/span&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;FFmpeg 平均                   1.75&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;提示されているクラウドのパフォーマンス結果は、各構成のテスト日に基づいています。結果は、基盤となる構成の変更や、VM とそのリソースの配置、クラウド サービス プロバイダによる最適化、アクセスされたクラウド リージョン、テナント、システムで同時に実行された他のワークロードのタイプなどの他の条件によって異なる場合があります。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Sarthak Sharma &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 08 Dec 2025 00:10:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/n4d-vms-based-on-amd-turin-now-ga/</guid><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>N4D の一般提供を開始: スケールアウト型ワークロードのコスト パフォーマンスが最大 3.5 倍に</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/n4d-vms-based-on-amd-turin-now-ga/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Sarthak Sharma</name><title>Product Manager</title><department></department><company></company></author></item><item><title>Axion C4A メタルを発表: 特殊なユースケース向けの Arm ベースの Axion インスタンス</title><link>https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 7 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、Google Axion プロセッサで実行される初のベアメタル インスタンスである C4A メタルが、まもなくプレビュー版として提供されることをお知らせいたします。C4A メタルは、ハードウェアへの直接アクセスと Arm® ネイティブの適合性を必要とする特殊なワークロード向けに設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Android 開発、自動車シミュレーション、CI/CD パイプライン、セキュリティ ワークロード、カスタム ハイパーバイザなどの環境を実行している組織は、ネストされた仮想化のパフォーマンス オーバーヘッドや複雑さを気にすることなく、Google Cloud でこれらの環境を実行できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;他の Axion インスタンスと同様に、C4A メタルインスタンスは標準の Arm アーキテクチャ上に構築されているため、Arm 向けにコンパイルされたアプリケーションとオペレーティング システムは、クラウド、オンプレミス、エッジ環境間で移植可能なので、開発投資を保護します。C4A メタルは、96 個の vCPU、768 GB の DDR5 メモリ、最大 100 Gbps のネットワーキング帯域幅を提供し、Hyperdisk Balanced、Extreme、Throughput、ML ブロック ストレージ オプションを含む Google Cloud Hyperdisk を完全にサポートします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、ワークロードに最適化されたインフラストラクチャを提供し、あらゆるタスクに適切なリソースを提供します。&lt;/span&gt;&lt;a href="https://cloud.google.com/products/axion?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud Axion 仮想マシン ファミリー&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;などの C4A メタルは、&lt;/span&gt;&lt;a href="https://cloud.google.com/titanium?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Titanium&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を搭載しています。Titanium は、Google のインフラストラクチャの基盤となる多層オフロードとセキュリティの重要なコンポーネントです。Titanium のカスタム設計された半導体デバイスは、ネットワーキングとストレージの処理をオフロードして CPU の負担を軽減し、専用の SmartNIC がすべての I/O を管理するため、Axion コアはアプリケーションのパフォーマンスだけに確保されます。Titanium は、Google Cloud の垂直統合型ソフトウェア スタックの一部です。このスタックは、サーバー内のカスタム半導体デバイスから、42 のリージョンにまたがる &lt;/span&gt;&lt;a href="https://cloud.google.com/about/locations?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;775 万キロメートルの陸上、海底ファイバー&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を結ぶ地球規模のネットワークまで、効率を最大化し、超低レイテンシと高帯域幅を全世界でお客様に提供するように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;自動車ワークロードのアーキテクチャ パリティ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;自動車業界のお客様は、インフォテインメントや先進運転支援システム（ADAS）などの車載システムで、Arm アーキテクチャのパフォーマンス、効率性、柔軟な設計を活用できます。Axion C4A メタル インスタンスは、テスト環境と本番環境の半導体デバイス間のアーキテクチャのパリティを実現します。これにより、自動車テクノロジー プロバイダは、本番環境の電子制御ユニット（ECU）で使用されているのと同じ Arm Neoverse 命令セット アーキテクチャ（ISA）でソフトウェアを検証できます。これにより、最終段階での統合で障害の起こるリスクが大幅に軽減されます。パフォーマンスが重要なタスクにも、物理ハードウェアの一貫した低レイテンシのパフォーマンスで、要求の厳しい仮想ハードウェア インザループ（vHIL）シミュレーションを実行し、テスト結果の信頼性と精度を確保できます。最後に、C4A メタルを使用すると、プロバイダはテストファーム全体を動的にスケーリングし、固定資本支出から柔軟な運用支出に変換することで、物理ラボの制約を超えることができます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_nDU2gjP.max-1000x1000.jpg"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="clg9v"&gt;&lt;i&gt;「この AI 定義車両の時代では、ペースの加速とテクノロジーの複雑さのために、ソフトウェア開発に対する従来の線形アプローチを再考せざるを得なくなっています。Google Cloud が Axion C4A メタルを導入したことは、この流れにおける大きな一歩です。テスト環境と物理的な半導体デバイスの間で Arm 上のアーキテクチャの完全なパリティを提供することで、お客様は開発サイクルの加速というメリットを享受でき、さまざまに特化したユースケースで継続的インテグレーションとコンプライアンスを実現できます。」&lt;/i&gt;- &lt;b&gt;Arm、自動車ビジネス担当シニア バイス プレジデント兼ゼネラル マネージャー Dipti Vachani 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/qnx.max-1000x1000.jpg"
        
          alt="qnx"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="clg9v"&gt;&lt;i&gt;「当社のパートナー様とお客様は、高度な運転支援システムからデジタル コックピットまで、最もミッション クリティカルなシステムに必要な安全性、セキュリティ、信頼性、リアルタイム パフォーマンスを実現するために QNX を利用しています。ソフトウェア定義車両の時代が勢いを増すにつれ、ソフトウェア開発を物理的なハードウェアから切り離すことはもはや単なる選択肢ではなく、大規模なイノベーションに不可欠なものとなっています。Google Cloud の Axion 上の C4A-metal インスタンスのリリースは、強力な ARM ベースのベアメタル プラットフォームの導入であり、自動車エコシステムに革新的なクラウド インフラストラクチャのメリットをもたらすため、当社はこれをテストし、サポートすることを熱望しています。」-&lt;/i&gt; &lt;b&gt;QNX、プロダクトおよび戦略担当シニア バイス プレジデント、Grant Courville 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/qualcomm.max-1000x1000.jpg"
        
          alt="qualcomm"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="clg9v"&gt;&lt;i&gt;「自動車モビリティの未来には、実践と開発において前例のないスピードと精度が求められます。Snapdragon Digital Chassis プラットフォームを活用する自動車メーカーやサプライヤーにとって、クラウド開発環境とテスト環境を車両内の Snapdragon SoC と同等に保つことは、効率と品質を確保するうえで非常に重要です。Google Cloud がこの分野に力を入れていることを嬉しく思います。Axion を搭載した C4A-metal インスタンスの提供は大きな前進であり、自動車エコシステムにクラウド内に物理環境と仮想環境間の真の 1:1 の環境を提供します。この画期的な技術により、統合の課題が大幅に軽減され、検証時間が短縮されるため、パートナー様は AI を活用した機能を大規模で迅速に市場に投入できます。」&lt;/i&gt;- &lt;b&gt;Qualcomm Technologies, Inc.、プロダクト管理担当バイス プレジデント、Laxmi Rayapudi 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Android 開発でテストと本番環境を一致させる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Android プラットフォームは、ほぼすべてのモバイル デバイスの標準である Arm ベースのプロセッサ向けに構築されています。Android デベロッパーは、C4A メタルを備えた Axion プロセッサのベアメタル インスタンスで開発とテストのパイプラインを実行することで、ネイティブ パフォーマンスのメリットを享受できます。これにより、命令ごとの翻訳レイヤの遅延など、エミュレーション管理のオーバーヘッドが排除されます。さらに、Android ビルドツールチェーンと自動テストシステムのレイテンシを大幅に削減し、フィードバック サイクルを短縮できます。また、C4A メタルはネストされた仮想化のパフォーマンスに関する課題も解決するため、スケーラブルな Cuttlefish（Cloud Android）環境に最適なプラットフォームとなります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これが使えるようになると、開発者は &lt;/span&gt;&lt;a href="https://github.com/googlecloudplatform/horizon-sdv" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Horizon の今後のリリース&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;で、または &lt;/span&gt;&lt;a href="https://github.com/google/cloud-android-orchestration/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Android Orchestration&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を直接利用して、スケーラブルな Cuttlefish 環境ファームを C4A メタルインスタンス上にデプロイできます。C4A メタルでは、これらの仮想デバイスを物理ハードウェア上で直接実行できるため、真の継続的テストのために大規模で忠実度の高いテストファームを構築、管理するために必要なパフォーマンスが提供されます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;妥協のないベアメタル アクセス&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;クラウド サービスとして、C4A メタルでは、物理ハードウェアの調達と管理のライフサイクル全体を予測可能な運用費用に置き換えますので、総所有コストを削減できます。これにより、サーバーの購入に伴う直接的な設備投資が不要になり、ハードウェアのメンテナンス契約、電力、冷却、物理的なデータセンターのスペースに関連する運用コストも不要になります。テストの需要に正確に一致するようにインスタンスをプログラムでプロビジョニングし、またプロビジョニング解除できるため、開発サイクルのピークを待機しているだけの過剰にプロビジョニングされたサーバーフリートに対して料金を支払う必要がなくなります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Virtual Private Cloud（VPC）内の標準的なコンピューティング リソースとして動作する C4A メタルインスタンスは、仮想マシンと同じセキュリティ ポリシー、監査ログ、ネットワーク制御を継承して活用します。インスタンスは、ツールチェーンからは物理サーバーのように見えるように設計されており、一般的なモニタリング エージェントとセキュリティ エージェントをサポートしているため、既存の Google Cloud 環境と簡単に統合できます。この統合はストレージにも及び、ここではネットワーク接続された Hyperdisk を使用すると、チームが仮想マシン フリートですでに使用しているのと同じスナップショットとサイズ変更ツールを使用して、永続ディスクを管理できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-paragraph_with_image"&gt;&lt;div class="article-module h-c-page"&gt;
  &lt;div class="h-c-grid uni-paragraph-wrap"&gt;
    &lt;div class="uni-paragraph
      h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
      h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3"&gt;

      






  

    &lt;figure class="article-image--wrap-small
      
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/chainguard.max-1000x1000.jpg"
        
          alt="chainguard"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  





      &lt;p data-block-key="clg9v"&gt;&lt;i&gt;「当社のビルドシステムでは、真の分離が最重要事項です。Google Cloud の新しい C4A メタルインスタンスを Axion で実行することで、ビルドのパフォーマンスを損なうことなく、強力なハイパーバイザ セキュリティ境界でパッケージ ビルドを分離できます。」&lt;/i&gt;- &lt;b&gt;Chainguard, Inc.、創業者兼 CTO、Matthew Moore 氏&lt;/b&gt;&lt;/p&gt;
    &lt;/div&gt;
  &lt;/div&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;連携のメリット: Axion C シリーズと N シリーズ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Arm ベースの Axion ポートフォリオに C4A メタルが加わったことで、お客様はあらゆるワークロードに適切なインフラストラクチャをマッチングさせ、総所有コストを削減できるようになりました。Axion &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/compute/docs/general-purpose-machines?hl=ja#c4a_series"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;C4A 仮想マシン&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は一貫して高いパフォーマンスを発揮できるよう最適化されており、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/axion-based-n4a-vms-now-in-preview"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;N4A 仮想マシン&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（現在プレビュー版）は費用対効果と柔軟性を最適化しています。一方、C4A メタルは、非仮想化 Arm 環境を必要とする特殊なアプリケーションによるハードウェアへの直接アクセスという重要なニーズに対応します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;たとえば、Android 開発企業は、ビルドファームに C4A 仮想マシンを使用することで、非常に効率的な CI/CD パイプラインを作成できます。大規模なテストでは、C4A メタルを使用して Cuttlefish 仮想デバイスを物理ハードウェア上で直接実行し、ネストされた仮想化のオーバーヘッドを排除できます。さらに忠実度を高めるために、C4A メタル上で Cuttlefish ハイブリッド デバイスを実行し、物理ハードウェアのシステム イメージを再利用できます。同時に、CI/CD オーケストレーターやアーティファクト リポジトリなどのサポート インフラストラクチャは、費用対効果の高い N4A インスタンスで実行できます。カスタム マシンタイプを使用してリソースを適正なサイズに調整し、運用費用を最小限に抑えることができます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;プレビュー版を近日提供予定&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;C4A メタルは近日中にプレビュー版がリリースされる予定です。早期アクセスとその他のアップデートに登録するには、&lt;/span&gt;&lt;a href="https://docs.google.com/forms/d/1iPfHMoGBHVDs_5zXohLCXjJWyEVASEjA2BZLqd3mtsI/edit#responses" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちらのフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;にご記入ください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google Cloud、プロダクト マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Yarden Halperin &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 25 Nov 2025 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm/</guid><category>Compute</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Axion C4A メタルを発表: 特殊なユースケース向けの Arm ベースの Axion インスタンス</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/compute/new-axion-c4a-metal-offers-bare-metal-performance-on-arm/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Yarden Halperin</name><title>Product Manager, Google Cloud</title><department></department><company></company></author></item></channel></rss>