<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:media="http://search.yahoo.com/mrss/"><channel><title>Containers &amp; Kubernetes</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/</link><description>Containers &amp; Kubernetes</description><atom:link href="https://cloudblog.withgoogle.com/blog/ja/products/containers-kubernetes/rss/" rel="self"></atom:link><language>ja</language><lastBuildDate>Fri, 17 Apr 2026 07:08:48 +0000</lastBuildDate><image><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/static/blog/images/google.a51985becaa6.png</url><title>Containers &amp; Kubernetes</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/</link></image><item><title>Envoy: エージェント型 AI ネットワーキングのための将来を見据えた基盤</title><link>https://cloud.google.com/blog/ja/products/networking/the-case-for-envoy-networking-in-the-agentic-ai-era/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 4 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/networking/the-case-for-envoy-networking-in-the-agentic-ai-era?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;昨今のエージェント型 AI 環境では、ネットワークに新たな責任が課せられています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;従来のアプリケーション スタックでは、ネットワークは主にサービス間でリクエストを移動するものでした。しかし、最近のホワイト ペーパー &lt;/span&gt;&lt;a href="https://services.google.com/fh/files/misc/cloud_infrastructure_in_the_agent_native_era.pdf" rel="noopener" target="_blank"&gt;&lt;span style="font-style: italic; text-decoration: underline; vertical-align: baseline;"&gt;Cloud Infrastructure in the Agent-Native Era&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; で説明されているように、エージェント システムでは、モデル呼び出し、ツール呼び出し、エージェント間のやり取り、エージェントができることを定義するポリシーの決定の間にネットワークが位置します。多様なフレームワーク上に構築されることが多いエージェントが急速に普及しているため、すべてのエージェント パスにわたってガバナンスとセキュリティを一貫して大規模に適用する必要があります。これを実現するには、適用レイヤがアプリケーション レベルから基盤となるインフラストラクチャに移行する必要があります。つまり、ネットワークはもはや盲目的なトランスポート レイヤとして機能することはできず、より多くのことを理解し、より適切に適用を行い、より迅速に適応する必要があります。この移行において役立つのが Envoy です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、高パフォーマンスの分散プロキシおよびユニバーサル データプレーンとして、大規模なスケーリングに対応するように構築されています。Google Cloud を含む要求の厳しいエンタープライズ環境で信頼されており、単一サービスのデプロイから、上り（内向き）、下り（外向き）、サイドカーの各パターンを使用した複雑なサービス メッシュまで、あらゆるものをサポートします。Envoy は、優れた拡張性、堅牢なポリシー統合、運用上の成熟度により、プロトコルが急速に変化し、制御が不十分な場合のコストが高くなる時代に特に適しています。エージェント型 AI を構築するチームにとって、Envoy は単なるコンセプトではなく、実用的でプロダクション レディな基盤です。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_xPxMxF4.max-1000x1000.jpg"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェント型 AI がネットワーキングの問題を変える&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント ワークロードは依然としてトランスポートとして HTTP を使用することが多いですが、従来の HTTP 仲介役が依存する前提の一部には従いません。&lt;/span&gt;&lt;a href="https://modelcontextprotocol.io/docs/getting-started/intro" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Model Context Protocol&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（MCP）や &lt;/span&gt;&lt;a href="https://github.com/google/A2A" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Agent2agent&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（A2A）などのプロトコルは、HTTP 上で &lt;/span&gt;&lt;a href="https://www.jsonrpc.org/specification" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;JSON-RPC&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; または &lt;/span&gt;&lt;a href="https://grpc.io/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;gRPC&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用し、標準の HTTP リクエスト / レスポンス セマンティクスに加えて、クライアントとサーバーがそれぞれの機能を交換する MCP 初期化などのプロトコル レベルのフェーズを追加します。仲介役が適応する必要がある、エージェント システムの主な側面は次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;企業ガバナンスの多様な要件。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;主な課題は、安全性、セキュリティ、データ プライバシー、規制遵守に関する、企業にとって譲れない幅広い要件を満たすことです。これらのニーズは、標準的なネットワーク ポリシーの枠を超えることが多く、内部システムとの緊密な統合、カスタムロジック、新しい組織ルールや外部規制に迅速に適応する能力が必要になります。そのため、企業が独自のガバナンス モデルを組み込める、拡張性の高いフレームワークが求められます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ポリシー属性は、ヘッダーではなくメッセージ本文内に存在する。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;パスやヘッダーなどのポリシー入力に簡単にアクセスできる従来のウェブ トラフィックとは異なり、エージェント プロトコルでは、重要な属性（モデル名、ツール呼び出し、リソース ID など）が JSON-RPC または gRPC ペイロードの奥深くに埋もれていることがよくあります。このため、仲介役はメッセージの内容を解析して理解し、コンテキストに応じたポリシーを適用できる必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;多様で進化するプロトコルの特性に対応する。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;エージェントのプロトコルは一様ではありません。Streamable HTTP を使用する MCP のような一部のプロトコルでは、（&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;Mcp-Session-Id&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; などを使用した）分散プロキシ全体でのセッション管理が必要となるステートフルなインタラクションが導入されることもあります。このような多様な動作をサポートする必要性と、将来のプロトコルのイノベーションにより、本質的に適応性と拡張性に優れたネットワーキング基盤の必要性が高まっています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの要因により、企業は単なる接続性以上のものを必要としています。ネットワークは、前述した重要なガバナンスのニーズを満たす中心的な役割を果たす必要があります。これには、プロトコルとエージェントの動作の急速な進化に対応しながら、一元化されたセキュリティ、包括的な監査可能性、きめ細かいポリシーの適用、動的なガードレールなどの機能を提供することが含まれます。簡単に言えば、エージェント型 AI はネットワークを単なるトランジット パスから重要な制御ポイントに変えます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Envoy がこの移行に対応できる理由&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、以下の 3 つの理由から、エージェント型 AI ネットワーキングに最適です。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;実証済み。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、セキュリティが重要な大規模環境で企業がすでに利用しており、新世代のトラフィック管理とポリシー適用を支える信頼できるプラットフォームとなっています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;拡張可能。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、ネイティブ フィルタ、Rust モジュール、WebAssembly（Wasm）モジュール、&lt;/span&gt;&lt;a href="https://www.envoyproxy.io/docs/envoy/latest/configuration/http/http_filters/ext_proc_filter" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;外部処理&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;パターンを通じて拡張できます。これにより、プラットフォーム チームは、エコシステムが変化するたびにネットワーキング レイヤを再構築することなく、新しいプロトコルを採用できるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;今すぐ運用に役立つ。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy はすでに、コントロール プレーンのゲートウェイ、適用ポイント、オブザーバビリティ レイヤ、統合サーフェスとして機能しています。そのため、標準が定着するのを待たずに今すぐ移行する必要がある組織にとって、実用的な選択肢となります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、以下の中核的な強みを基盤として、エージェント ネットワーキングに特有のニーズを満たすアーキテクチャの進歩を遂げています。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;1. Envoy はエージェント トラフィックを理解する&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント ネットワーキングの最初の要件はシンプルです。ゲートウェイはエージェントが実際に何をしようとしているのかを理解する必要があるということです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ただし、これはそれほど簡単ではありません。MCP、A2A、OpenAI スタイルの API などのプロトコルでは、重要なポリシー シグナルがリクエスト本文内に存在することがあります。従来の HTTP プロキシは、本文を不透明なバイト ストリームとして扱うように最適化されています。この設計は効率的ですが、プロキシで適用できることが制限されます。JSON メッセージを使用するプロトコルの場合、プロキシはポリシーの適用に必要な属性値を見つけるために、リクエスト本文全体をバッファリングする必要がある場合があります。特に、それらの属性が JSON メッセージの末尾にある場合はその必要性が高まります。使用されたトークンに基づくレート制限など、生成 AI プロトコルに固有のビジネス ロジックでも、サーバーのレスポンスの解析が必要になる場合があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これに対処するために、Envoy は、HTTP で伝送されるプロトコル メッセージをデフレーミングし、有用な属性をフィルタ チェーンの残りの部分に公開します。生成 AI プロトコルの拡張性モデルは、次の 2 つの目標を指針としています。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;RBAC（ロールベース アクセス制御）やトレーサーなど、生成 AI プロトコルにそのまま対応する既存の HTTP 拡張機能を簡単に再利用できる。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;デベロッパーが HTTP や JSON エンベロープを処理する必要がなく、生成 AI のビジネス ロジックに集中できるように、生成 AI 固有の拡張機能用のデフレーミングされたメッセージに簡単にアクセスできる。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの目標に基づき、生成 AI プロトコルの新しい拡張機能は、依然として HTTP 拡張機能として構築され、HTTP フィルタ チェーンで構成されます。これにより、OAuth や mTLS 認証などの HTTP ネイティブのビジネス ロジックと生成 AI プロトコルのロジックを 1 つのチェーンで混在させる柔軟性が得られます。デフレーミング拡張機能は、HTTP で伝送されるプロトコル メッセージを解析し、抽出された属性、さらには解析されたメッセージ全体を含むアンビエント コンテキストを、既知のフィルタ状態とメタデータ値を介してダウンストリームの拡張機能に提供します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy では、すべてのポリシー コンポーネントが JSON エンベロープやプロトコル固有のメッセージ形式を独自に解析することを強制するのではなく、これらの属性を構造化されたメタデータとして利用できるようにします。ゲートウェイがプロトコル メッセージをデフレーミングすると、&lt;/span&gt;&lt;a href="https://www.envoyproxy.io/docs/envoy/latest/configuration/http/http_filters/ext_authz_filter" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ext_authz&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; や RBAC などの既存の Envoy 拡張機能がプロトコル プロパティを読み取り、MCP のツール名、A2A のメッセージ属性、OpenAI のモデル名などのプロトコル固有の属性を使用してポリシーを評価できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;アクセスログには、モニタリングと監査を強化するためのメッセージ属性を含めることができます。プロトコル属性は &lt;/span&gt;&lt;a href="https://cel.dev/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Common Expression Language&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（CEL）ランタイムでも使用できるため、RBAC や複合拡張機能で複雑なポリシー式を簡単に作成できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_t4lf1kG.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;バッファリングとメモリ管理&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、HTTP リクエストをプロキシする際にできるだけ少ないメモリを使用するように設計されています。しかし、エージェント プロトコルの解析には、特に拡張機能でメッセージ全体をメモリに格納する必要がある場合、変動する量のバッファ領域が必要になることがあります。特に、信頼できないトラフィックが存在する場合は、拡張機能でより大きなバッファを使用できる柔軟性と、メモリ枯渇からの適切な保護のバランスを取る必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これを実現するために、Envoy ではリクエストごとにバッファサイズを制限できるようになりました。リクエスト データを保持するバッファもオーバーロード マネージャーと統合されているため、アイドル タイムアウトの短縮や、長期間にわたって最も多くのメモリを消費するリクエストのリセットなど、メモリ不足時のあらゆる保護アクションが可能になります。これらの変更により、Envoy はリソース効率を損なうことなく、生成 AI プロトコルのゲートウェイおよびポリシー適用ポイントとして機能できるようになっています。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;2. Envoy は重要な事項に関するポリシーを適用する&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;トラフィックを理解することは、ゲートウェイがそれに基づいて動作できる場合にのみ役立ちます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント システムでは、ポリシーはエージェントがアクセスできるサービスだけでなく、エージェントが呼び出せるツール、使用できるモデル、提示する ID、消費できる量、追加の制御が必要な出力の種類も規定するものです。これらは、単純なレイヤ 4 またはパスベースの制御よりも価値の高い決定であり、エージェントが企業に代わって行動することを許可する場合に、企業が重視する種類の制御です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この点において Envoy は、トランスポート レベルのセキュリティとアプリケーション対応のポリシー適用を組み合わせることができるため、優れています。チームは、mTLS と SPIFFE ID でワークロードを認証し、RBAC、外部認証、外部処理、アクセス ロギング、CEL ベースのポリシー式を使用してプロトコル固有のルールを適用できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この機能は、プラットフォーム チームがエージェントの開発と適用を切り離せるため、非常に重要です。デベロッパーは有用なエージェントの構築に集中でき、オペレーターはツール、モデル、プロトコルが変化し続けても、ネットワーク レイヤで一貫したゼロトラスト体制を維持できます。このゼロトラストの分離の好例は、「エージェントの背後にユーザーがいる」重要なシナリオ、つまり AI エージェントが人間のユーザーに代わってタスクを実行する必要がある場合です。従来、ユーザーの認証情報をアプリケーションに直接渡すことは、重大なセキュリティ リスクをもたらします。エージェントが侵害されたり、プロンプト インジェクションによって操作されたりした場合、攻撃者は認証情報を抜き取ったり、不正使用したりできるためです。ID 管理を Envoy にオフロードすることで、プロキシはインフラストラクチャ レイヤでユーザー委任トークンをアウトバウンド リクエストに自動的に挿入できます。エージェントが機密性の高い認証情報を直接保持することはないため、侵害されたエージェントがトークンを不正使用したり漏洩させたりするリスクは完全に排除され、アクションはユーザーの実際の権限に厳密にバインドされたままになります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ケーススタディ: エージェントを特定の GitHub MCP ツールに制限する&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;GitHub の問題をトリアージするエージェントを考えてみましょう。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GitHub MCP サーバーは数十のツールを公開している可能性がありますが、エージェントに必要なのは、&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;list_issues&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;get_issue&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;get_issue_comments&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; など、ごく一部の読み取り専用のツールのみである場合があります。ほとんどの企業にとって、この違いは重要です。有用なエージェントが、無制限のエージェントに自動的に変わるべきではありません。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;MCP サーバーの前に Envoy を配置することで、ゲートウェイは mTLS handshake 中に SPIFFE を使用してエージェントの ID を検証し、&lt;/span&gt;&lt;a href="https://www.envoyproxy.io/docs/envoy/latest/api-v3/extensions/filters/http/mcp/v3/mcp.proto#envoy-v3-api-msg-extensions-filters-http-mcp-v3-mcp" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;デフレーミング フィルタ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を介して MCP メッセージを解析し、リクエストされたメソッドとツール名を抽出して、その特定のエージェント ID に対して承認されたツール呼び出しのみを許可するポリシーを適用できます。RBAC は、MCP デフレーミング フィルタによって作成されたメタデータを使用して、MCP メッセージ内のメソッドとツール名をチェックします。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;envoy.filters.http.rbac:\r\n  &amp;quot;@type&amp;quot;: type.googleapis.com/envoy.extensions.filters.http.rbac.v3.RBACPerRoute\r\n  rbac:\r\n    rules:\r\n      policies:\r\n        github-issue-reader-policy:\r\n          permissions:\r\n            - and_rules:\r\n                rules:\r\n                  - sourced_metadata:\r\n                      metadata_matcher:\r\n                        filter: envoy.http.filters.mcp\r\n                        path: [{ key: &amp;quot;method&amp;quot; }]\r\n                        value: { string_match: { exact: &amp;quot;tools/call&amp;quot; } }\r\n                  - sourced_metadata:\r\n                      metadata_matcher:\r\n                        filter: envoy.http.filters.mcp\r\n                        path: [{ key: &amp;quot;params&amp;quot; }, { key: &amp;quot;name&amp;quot; }]\r\n                        value:\r\n                          or_match:\r\n                            value_matchers:\r\n                              - string_match: { exact: &amp;quot;list_issues&amp;quot; }\r\n                              - string_match: { exact: &amp;quot;get_issue&amp;quot; }\r\n                              - string_match: { exact: &amp;quot;get_issue_comments&amp;quot; }\r\n          principals:\r\n            - authenticated:\r\n                principal_name:\r\n                  exact: &amp;quot;spiffe://cluster.local/ns/github-agents/sa/issue-triage-agent&amp;quot;&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d551bed60&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この真の価値は、ポリシーがトラフィックに近い場所で、一元的に、エージェントの実際の動作に合った条件で適用されるという点です。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_jtbLCMn.max-1000x1000.png"
        
          alt="3"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;静的ルールの枠を超えて: 外部認証&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;RBAC ルールを使用して表現できない複雑なコンプライアンス ポリシーは、&lt;/span&gt;&lt;a href="https://www.envoyproxy.io/docs/envoy/latest/configuration/http/http_filters/ext_authz_filter" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ext_authz&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; プロトコルを使用して外部認証サービスに実装できます。Envoy は、ext_authz RPC のコンテキストで、HTTP ヘッダーとともに MCP メッセージ属性を提供します。また、ピア証明書からエージェントの SPIFFE ID を転送することもできます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;http_filters:\r\n  - name: envoy.filters.http.ext_authz\r\n    typed_config:\r\n      &amp;quot;@type&amp;quot;: type.googleapis.com/envoy.extensions.filters.http.ext_authz.v3.ExtAuthz\r\n      grpc_service:\r\n        envoy_grpc:\r\n          cluster_name: auth_service_cluster\r\n      include_peer_certificate: true\r\n      metadata_context_namespaces:\r\n        - envoy.http.filters.mcp&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d551bef40&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これにより、エージェントや MCP サーバーがポリシーレイヤを認識する必要なく、エージェント ID、MCP メソッド、ツール名、その他のプロトコル属性の完全な組み合わせに基づいて、外部サービスが認証の決定を行うことができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;プロトコル ネイティブのエラー レスポンス&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy がリクエストを拒否した場合、返されるエラーは呼び出し元のエージェントにとって意味のあるものである必要があります。MCP トラフィックの場合、Envoy は &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;local_reply_config&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; を使用して、HTTP エラーコードを適切な JSON-RPC エラー レスポンスにマッピングできます。たとえば、403 Forbidden は、&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;isError: true&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; および人間が読めるメッセージを含む JSON-RPC レスポンスにマッピングできます。これにより、エージェントは不透明な HTTP ステータス コードではなく、プロトコルに適した拒否を受け取ることができます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;3. Envoy はステートフルなエージェントのインタラクションを大規模にサポートする&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント トラフィックのすべてがステートレスであるわけではありません。MCP の Streamable HTTP など、一部のプロトコルはセッション指向の動作に依存する場合があります。特に、トラフィックが複数のゲートウェイ インスタンスを通過してスケーラビリティと復元力を実現する場合、仲介役にとって新たな課題が生じます。MCP セッションは、そのセッションを確立したサーバーにエージェントを効果的にバインドします。すべての仲介役は、受信 MCP 接続を正しいサーバーに転送するために、このことを認識する必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;1 つのバックエンドでセッションが確立された場合、その会話における後のリクエストは正しい宛先に到達する必要があります。単一プロキシのデプロイでは簡単そうに聞こえますが、水平方向にスケールされたシステムでは、複数の Envoy インスタンスが同じエージェントからの異なるリクエストを処理する場合があり、より複雑になります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;パススルー ゲートウェイ&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;よりシンプルなパススルー モードでは、Envoy はダウンストリーム接続ごとに 1 つのアップストリーム接続を確立します。主な用途は、外部 MCP サーバーに対するクライアントの認可、RBAC、レート制限、認証など、一元化されたポリシーの適用です。仲介役の間で転送されるセッション状態には、最初の HTTP 接続でセッションを確立したサーバーのアドレスのみが含まれる必要があります。これにより、セッション関連のすべてのリクエストがそのサーバーに送信されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;異なる Envoy インスタンス間でのセッション状態の転送は、MCP サーバーから提供された MCP セッション ID に、エンコードされたセッション状態を追加することで実現されます。Envoy は、リクエストを宛先 MCP サーバーに転送する前に、セッション ID からセッション状態の接尾辞を削除します。このセッションの永続性は、Envoy の &lt;/span&gt;&lt;a href="https://www.envoyproxy.io/docs/envoy/latest/api-v3/extensions/http/stateful_session/envelope/v3/envelope.proto" rel="noopener" target="_blank"&gt;&lt;code style="text-decoration: underline; vertical-align: baseline;"&gt;envoy.http.stateful_session.envelope&lt;/code&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; 拡張機能を構成することで有効になります。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_j0wGyAp.max-1000x1000.png"
        
          alt="4"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;集約ゲートウェイ&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;集約モードでは、Envoy は複数のバックエンド MCP サーバーの機能、ツール、リソースを集約することで、単一の MCP サーバーとして機能します。これにより、ポリシーが適用されるだけでなく、エージェントの構成が簡素化され、複数の MCP サーバーのポリシー適用が統合されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このモードでのセッション管理はより複雑になります。セッション状態に、ツールとリソースから、それらをアドバタイズしたサーバー アドレスとセッション ID へのマッピングも含まれる必要があるためです。Envoy がエージェントに提供するセッション ID は、ツールやリソースが認識される前に作成され、マッピングはその後、Envoy とバックエンド MCP サーバー間の MCP 初期化フェーズが完了した後に確立される必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;現在 Envoy で実装されているアプローチの一つは、ツールやリソースの名前と、その配信元サーバーの識別子およびセッション ID を組み合わせるというものです。通常、正確なツール名やリソース名はエージェントにとって意味がなく、この追加の来歴情報を伝えることができます。変更されていないツール名やリソース名が必要な場合は、マッピングのない Envoy インスタンスを使用し、特定のツールを呼び出す前に &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;tools/list&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; コマンドを発行してマッピングを再作成するというアプローチもあります。このアプローチは、レイテンシと引き換えに、MCP セッションの外部グローバル ストアをデプロイする複雑さが伴います。現在、ユーザーからのフィードバックに基づいて計画中です。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5_61xwM79.max-1000x1000.png"
        
          alt="5"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これは、Envoy が単純なトラフィック転送にとどまらないことを意味するため重要です。これにより、Envoy は、実際のエージェント ワークフロー（複数のリクエスト、ツール、バックエンドにわたるものを含む）の信頼できる仲介役として機能できます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;4. Envoy はエージェントの検出をサポートする&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、既知の AgentCard エンドポイントを介した A2A プロトコルとエージェントの検出のサポートを追加しています。エージェント機能が記載された JSON ドキュメントである AgentCard は、スキル、認証要件、サービス エンドポイントをアドバタイズすることで、検出とマルチエージェントの調整を可能にします。AgentCard は、直接レスポンス構成を介して静的にプロビジョニングすることも、xDS API または ext_proc API を介して一元化されたエージェント レジストリ サーバーから取得することもできます。A2A の実装とエージェントの検出の詳細は、今後のブログ投稿で公開する予定です。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;5. Envoy はエージェント ネットワーキングの課題に対する包括的なソリューション&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、要求の厳しいデプロイで MCP プロトコルのポリシー適用が可能になった基盤と同じ基盤を基に、OpenAI と、エージェント プロトコルの RESTful HTTP API へのコード変換のサポートを追加しています。このコード変換機能により、生成 AI エージェントと既存の RESTful アプリケーションの統合が簡素化されます。また、OpenAPI ベースのアプリケーションがすぐにサポートされ、動的モジュールまたは Wasm 拡張機能を通じてカスタム オプションを利用できます。Envoy は、コード変換に加えて、割り当て管理などの高度なポリシー適用、&lt;/span&gt;&lt;a href="https://opentelemetry.io/docs/specs/semconv/gen-ai/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;生成 AI システムの OpenTelemetry セマンティック規則&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;に準拠した包括的なテレメトリー、安全なエージェント運用を実現する統合ガードレールなど、本番環境への対応に不可欠な領域で強化されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;安全なエージェントのためのガードレール&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;投資対象となる次の重要な分野は、すべてのエージェント トラフィックのガードレールの一元管理と適用です。現在、ポリシー適用ポイントを外部のガードレールと統合するには、特注の実装が必要ですが、この問題領域は標準化の機が熟しています。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;コントロール プレーンがこれを運用可能にする&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ゲートウェイは、ソリューション全体の一部にすぎません。このポリシー管理とロールアウトを大規模に実現するにあたり、xDS プロトコル（ユニバーサル データプレーン API とも呼ばれる）を使用してデータプレーンを動的に構成するために別のコントロール プレーンが必要になります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;そこで重要になるのがコントロール プレーンです。Cloud Service Mesh は、&lt;/span&gt;&lt;a href="https://aigateway.envoyproxy.io/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Envoy AI Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;a href="https://github.com/kubernetes-sigs/kube-agentic-networking" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;kube-agentic-networking&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; などのオープンソース プロジェクトとともに、Envoy をデータプレーンとして使用しながら、オペレーターがエージェント ワークロードのポリシーをより高いレベルで定義、管理できるようにします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この組み合わせは強力です。Envoy はトラフィック パスに適用機能と拡張性を提供し、コントロール プレーンはチームがその機能を一貫してデプロイするために必要な運用モデルを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;このソリューションが重要な理由&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント システムや生成 AI プロトコル（MCP、A2A、OpenAI など）への移行に伴い、ネットワーク仲介役の進化が求められています。Envoy が主に対応する複雑な課題は次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;プロトコルの詳細な検査。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;プロトコル デフレーミング拡張機能は、HTTP リクエストの本文からポリシーに関連する属性（ツール名、モデル名、リソースパス）を抽出し、従来のプロキシでは不透明なバイト ストリームしか確認できなかった状況で正確なポリシー適用を可能にします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;きめ細かいポリシーの適用。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;これらの内部属性を公開することで、RBAC や ext_authz などの既存の Envoy 拡張機能は、プロトコル固有の基準に基づいてポリシーを評価できます。これにより、ネットワーク オペレーターは、統一されたゼロトラストのセキュリティ ポスチャーを適用し、エージェントが特定のツールやリソースのアクセス ポリシーに準拠するようにできます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ステートフルなトランスポート管理。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、MCP で使用される Streamable HTTP トランスポートのセッション状態の管理をサポートしており、仲介役のフリート全体でも、パススルー ゲートウェイ モードと集約ゲートウェイ モードの両方で堅牢なデプロイを可能にします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント型 AI プロトコルはまだ初期段階にあり、プロトコルの状況は今後も進化し続けます。まさにそのために、ネットワーキング レイヤには適応性が必要なのです。新しいエージェント フレームワーク、トランスポート パターン、ツール プロトコルが普及するたびに、企業がセキュリティとトラフィックのインフラストラクチャを再構築する必要はありません。制御を犠牲にすることなく変化を吸収できる基盤が必要です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Envoy は、本番環境での実証済みの成熟度、高度な拡張性、エージェント ワークロードのプロトコル認識の向上という、一度に持ち合わせることが難しい 3 つの特性を兼ね備えています。Envoy をエージェント ゲートウェイとして活用することで、組織はセキュリティとポリシーの適用をエージェント開発コードから切り離すことができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これにより、Envoy は AI トラフィックを処理するプロキシ以上の存在になり、エージェント型 AI ネットワーキングの未来を見据えた基盤となります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;sup&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;このブログ記事の共同執筆者である、Google のソフトウェア エンジニア Boteng Yao、Google のソフトウェア エンジニア Tianyu Xia、Google のシニア プロダクト マネージャー Sisira Narayana に感謝します。&lt;/span&gt;&lt;/sup&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google、スタッフ ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Yan Avlasov&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Tetrate、プロダクトおよびプロダクト マーケティング マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Erica Hughberg 氏&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 17 Apr 2026 01:30:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/networking/the-case-for-envoy-networking-in-the-agentic-ai-era/</guid><category>Containers &amp; Kubernetes</category><category>AI &amp; Machine Learning</category><category>GKE</category><category>Developers &amp; Practitioners</category><category>Networking</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Envoy: エージェント型 AI ネットワーキングのための将来を見据えた基盤</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/networking/the-case-for-envoy-networking-in-the-agentic-ai-era/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Yan Avlasov</name><title>Staff Software Engineer, Google</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Erica Hughberg</name><title>Product and Product Marketing Manager, Tetrate</title><department></department><company></company></author></item><item><title>新しい GKE Cloud Storage FUSE プロファイルにより、AI ストレージの構成における当て推量が不要に</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/optimize-aiml-workloads-with-gke-cloud-storage-fuse-profiles/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 9 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/optimize-aiml-workloads-with-gke-cloud-storage-fuse-profiles?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI / ML の世界では、データはトレーニングと推論のワークロードに欠かせない要素です。Google Kubernetes Engine（GKE）ユーザーは、Cloud Storage FUSE を使用して Google Cloud Storage に保存されているデータに高いパフォーマンスでスケーラブルにアクセスできます。しかし、Cloud Storage FUSE のパフォーマンスを最大限に引き出すのは複雑な場合がある、というお客様の声が寄せられていました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、GKE Cloud Storage FUSE プロファイルが導入されました。この新機能は、運用オーバーヘッドを最小限に抑えながら、パフォーマンス調整を自動化し、AI / ML ワークロード（トレーニング、チェックポイント、推論）のデータアクセスを高速化するように設計されています。特定のワークロードのニーズに合わせて調整されたこれらのプロファイルを使用すると、Cloud Storage FUSE の高いパフォーマンスをすぐに活用できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;導入前&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（手動調整）&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;apiVersion: v1\r\nkind: PersistentVolume\r\nmetadata:\r\n  name: serving-bucket-pv\r\nspec:\r\n  accessModes:\r\n  - ReadWriteMany\r\n  capacity:\r\n    storage: 64Gi\r\n  persistentVolumeReclaimPolicy: Retain\r\n  storageClassName: &amp;quot;&amp;quot;\r\n  claimRef:\r\n    name: serving-bucket-pvc\r\n  mountOptions:\r\n    - implicit-dirs\r\n    - metadata-cache:ttl-secs:-1\r\n    - metadata-cache:stat-cache-max-size-mb:-1\r\n    - metadata-cache:type-cache-max-size-mb:-1\r\n    - file-cache:max-size-mb:-1\r\n    - file-cache:cache-file-for-range-read:true\r\n    - file-system:kernel-list-cache-ttl-secs:-1\r\n    - file-cache:enable-parallel-downloads:true\r\n    - read_ahead_kb=1024\r\n  csi:\r\n    driver: gcsfuse.csi.storage.gke.io\r\n    volumeHandle: BUCKET_NAME\r\n    volumeAttributes:\r\n      skipCSIBucketAccessCheck: &amp;quot;true&amp;quot;\r\n      gcsfuseMetadataPrefetchOnMount: &amp;quot;true&amp;quot;\r\n---\r\napiVersion: v1\r\nkind: PersistentVolumeClaim\r\nmetadata:\r\n  name: serving-bucket-pvc\r\nspec:\r\n  accessModes:\r\n  - ReadWriteMany\r\n  resources:\r\n    requests:\r\n      storage: 64Gi\r\n  volumeName: serving-bucket-pv\r\n  storageClassName: &amp;quot;&amp;quot;\r\n–--\r\napiVersion: v1\r\nkind: Pod\r\nmetadata:\r\n  name: gcs-fuse-csi-example-pod\r\n  annotations:\r\n    gke-gcsfuse/volumes: &amp;quot;true&amp;quot;\r\nspec:\r\n  containers:\r\n    # Your workload container spec\r\n    ...\r\n    volumeMounts:\r\n    - name: serving-bucket-vol\r\n      mountPath: /serving-data\r\n      readOnly: true\r\n  serviceAccountName: KSA_NAME \r\n  volumes:\r\n    - name: gke-gcsfuse-cache # gcsfuse file cache backed by RAM Disk\r\n      emptyDir:\r\n        medium: Memory \r\n  - name: serving-bucket-vol\r\n    persistentVolumeClaim:\r\n      claimName: serving-bucket-pvc&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d80760d30&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;導入後&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（Cloud Storage FUSE のマウント オプション、CSI 構成、ファイル キャッシュ メディアが自動的に構成されます）&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;apiVersion: v1\r\nkind: PersistentVolume\r\nmetadata:\r\n  name: serving-bucket-pv\r\nspec:\r\n  accessModes:\r\n  - ReadWriteMany\r\n  capacity:\r\n    storage: 64Gi\r\n  persistentVolumeReclaimPolicy: Retain\r\n  storageClassName: gcsfusecsi-serving\r\n  claimRef:\r\n    name: serving-bucket-pvc\r\n  csi:\r\n    driver: gcsfuse.csi.storage.gke.io\r\n    volumeHandle: BUCKET_NAME\r\n---\r\napiVersion: v1\r\nkind: PersistentVolumeClaim\r\nmetadata:\r\n  name: serving-bucket-pvc\r\nspec:\r\n  accessModes:\r\n  - ReadWriteMany\r\n  resources:\r\n    requests:\r\n      storage: 64Gi\r\n  volumeName: serving-bucket-pv\r\n  storageClassName: gcsfusecsi-serving\r\n–--\r\napiVersion: v1\r\nkind: Pod\r\nmetadata:\r\n  name: gcs-fuse-csi-example-pod\r\n  annotations:\r\n    gke-gcsfuse/volumes: &amp;quot;true&amp;quot;\r\nspec:\r\n  containers:\r\n    # Your workload container spec\r\n    ...\r\n    volumeMounts:\r\n    - name: serving-bucket-vol\r\n      mountPath: /serving-data\r\n      readOnly: true\r\n  serviceAccountName: KSA_NAME \r\n  volumes: \r\n  - name: serving-bucket-vol\r\n    persistentVolumeClaim:\r\n      claimName: serving-bucket-pvc&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d80760ee0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;Cloud Storage FUSE の最適化に伴う課題&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;高パフォーマンスのワークロード向けに Cloud Storage FUSE を最適化することは、多次元的な問題です。従来、ユーザーは数十ページに及ぶ&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/storage/docs/cloud-storage-fuse/performance"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;手動構成ガイド&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を読み解く必要がありました。AI / ML の進化に伴い、Cloud Storage FUSE の機能も強化され、ワークロードを高速化するための新しいマウント オプションが利用できるようになりました。設定が「適切」かどうかは静的なものではなく、さまざまな動的要因に大きく左右されるものでした。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;バケットの特性&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: データセットの合計サイズとオブジェクトの数は、メタデータとファイル キャッシュの要件に大きく影響します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インフラストラクチャの多様性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; GPU、TPU、汎用コンピューティングのいずれを使用するかによって、最適な構成は異なります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ノードリソース: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;Cloud Storage への費用のかかるラウンドトリップを最小限に抑えるためにローカルにキャッシュ保存できるデータの量は、利用可能な RAM とローカル SSD の容量によって決まります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ワークロード パターン: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;トレーニング ワークロード（大規模データセットの高スループット読み取り）では、チェックポイント ワークロード（バースト性が高い、高スループット書き込み）やサービング ワークロード（レイテンシの影響を受けやすいモデルの読み込み）とは異なる調整が必要です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;実際、多くのお客様は、Cloud Storage FUSE の設定が最適化されていないか、誤って構成されているために、利用可能なパフォーマンスを十分に活用できていないか、信頼性の問題（Pod のメモリ不足による強制終了など）に直面しています。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE 向け Cloud Storage FUSE プロファイルの概要&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE Cloud Storage FUSE プロファイルは、特定の AI / ML パターンに合わせてカスタマイズされた、事前定義された動的管理の StorageClass を使用して、この複雑さを簡素化します。数十ものマウント オプションを手動で調整する必要はなく、ワークロードのタイプに一致するプロファイルを選択するだけでかまいません。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらのプロファイルは、階層化されたモデルで機能します。Cloud Storage FUSE の基本的なベスト プラクティスをベースに、GKE 固有のインテリジェンス レイヤを追加します。プロファイルを使用して Pod をデプロイすると、GKE は自動的に次の処理を行います。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;バケット（または特定のディレクトリ）をスキャンして、そのサイズとオブジェクト数を把握します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;ターゲット ノードを分析して、利用可能な RAM、ローカル SSD、アクセラレータ タイプを確認します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;最適なキャッシュ サイズを計算し、最適なバッキング メディア（RAM またはローカル SSD）を自動的に選択します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;リリース時には、次の 3 つの主要なプロファイルが用意されています。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;code style="vertical-align: baseline;"&gt;gcsfusecsi-training&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt;: GPU と TPU にデータを供給し続ける高スループットの読み取りに最適化されています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;code style="vertical-align: baseline;"&gt;gcsfusecsi-serving&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt;: モデルの読み込みと推論に最適化され、自動化された &lt;/span&gt;&lt;a href="https://cloud.google.com/storage/docs/anywhere-cache"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Rapid Cache&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; 統合が可能です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;code style="vertical-align: baseline;"&gt;gcsfusecsi-checkpointing&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt;: 数ギガバイトの大きなチェックポイント ファイルを高速かつ確実に書き込むように最適化されています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE Cloud Storage FUSE プロファイルを使用すると、次のようなメリットがあります。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;調整の簡素化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 複雑でエラーが発生しやすい手動構成が、3 つのシンプルな専用 StorageClass に置き換えられます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;リソースを認識した動的な最適化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; CSI ドライバは、リアルタイムの環境シグナルに基づいてキャッシュ サイズを自動的に調整するため、ノードの安定性を損なうことなくパフォーマンスを最大化できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;読み取りパフォーマンスの向上:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; サービング プロファイルは Rapid Cache を自動的にトリガーし、データをコンピューティングの近くに配置して、コールド スタートモデルの読み込みを高速化します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;きめ細かなパフォーマンス分析情報:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 構造化されたログを通じて自動調整の決定を可視化し、特定のキャッシュ サイズとメディアが Pod に対して選択された理由を正確に把握できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_4Ng3Hpa.max-1000x1000.png"
        
          alt="image1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE Cloud Storage FUSE プロファイルの推論プロファイルを使用することで、TPU（480 GB）上の Qwen3-235B-A22B ワークロードのモデル読み込み時間を 39 時間からわずか 14 分に短縮できました。これにより、お客様は Cloud Storage FUSE GCSFuse をすぐに使用して最大限のメリットを得ることができます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE で Cloud Storage FUSE プロファイルを使用する方法&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;まず、Cloud Storage FUSE CSI ドライバが有効になっている GKE バージョン 1.35.1-gke.1616000 以降がクラスタで実行されていることを確認します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. StorageClass を特定する&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE には、プロファイル ベースの StorageClass がプリインストールされています。次のコマンドで確認できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;kubectl get sc -l gke-gcsfuse/profile=true&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d80760520&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. PV と PVC を作成する&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;PersistentVolume を作成する際、Cloud Storage バケットを参照するようにします。GKE は、最適な構成を判断するためにバケット スキャンを自動的に開始します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;apiVersion: v1\r\nkind: PersistentVolume\r\nmetadata:\r\n  name: gcs-pv\r\nspec:\r\n  accessModes:\r\n    - ReadWriteMany\r\n  capacity:\r\n    storage: 5Gi\r\n  persistentVolumeReclaimPolicy: Retain  \r\n  storageClassName: gcsfusecsi-training\r\n  mountOptions:\r\n    - only-dir=my-ml-dataset-subdirectory # Optional\r\n  csi:\r\n    driver: gcsfuse.csi.storage.gke.io\r\n    volumeHandle: my-ml-dataset-bucket\r\n---\r\napiVersion: v1\r\nkind: PersistentVolumeClaim\r\nmetadata:\r\n  name: gcs-pvc\r\nspec:\r\n  accessModes:\r\n    - ReadWriteMany\r\n  resources:\r\n    requests:\r\n      storage: 5Gi\r\n  storageClassName: gcsfusecsi-training\r\n  volumeName: gcs-pv&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d80760d90&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;3. デプロイを作成する&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;PersistentVolumeClaim（PVC）がバインドされたら、他のボリュームと同様に Deployment で使用するだけです。GKE は、ハードウェアとデータセットに必要となる正確な設定でボリュームをマウントします。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;apiVersion: apps/v1\r\nkind: Deployment\r\nmetadata:\r\n  name: my-deployment\r\nspec:\r\n  replicas: 3\r\n  selector:\r\n    matchLabels:\r\n      app: my-app\r\n  template:\r\n    metadata:\r\n      labels:\r\n        app: my-app\r\n      annotations:\r\n        gke-gcsfuse/volumes: &amp;quot;true&amp;quot;\r\n    spec:\r\n      serviceAccountName: my-ksa\r\n      containers:\r\n      - name: my-container\r\n        image: busybox\r\n        volumeMounts:\r\n        - name: my-gcs-volume\r\n          mountPath: &amp;quot;/data&amp;quot;\r\n      volumes:\r\n      - name: my-gcs-volume\r\n        persistentVolumeClaim:\r\n          claimName: gcs-pvc&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d80760cd0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;デプロイ後、CSI ドライバは、GPU や TPU、メモリ、ローカル SSD、バケットまたはサブディレクトリのサイズ、サイドカーのリソース上限など、ノードのリソースに基づいて最適なキャッシュ サイズとマウント オプションを自動的に計算します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;使ってみる&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE Cloud Storage FUSE プロファイルを使用すると、高パフォーマンスなクラウド ストレージを構成する際に当て推量が不要になります。手動の「ノブ調整」からワークロードを認識する自動プロファイルに移行することで、ストレージ スループットのデバッグに費やす時間を減らし、次世代の AI の構築に多くの時間を費やすことができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ぜひご利用ください。GKE Cloud Storage FUSE プロファイルは、バージョン 1.35.1-gke.1616000 で一般提供されています。AI / ML ワークロード向けに GKE で Cloud Storage FUSE プロファイルを構成する方法については、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/persistent-volumes/gcsfuse-profiles"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;公式ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;エンジニアリング マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Nishtha Jain&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Uriel Guzmán-Mendoza&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Thu, 16 Apr 2026 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/optimize-aiml-workloads-with-gke-cloud-storage-fuse-profiles/</guid><category>AI &amp; Machine Learning</category><category>GKE</category><category>Storage &amp; Data Transfer</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>新しい GKE Cloud Storage FUSE プロファイルにより、AI ストレージの構成における当て推量が不要に</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/optimize-aiml-workloads-with-gke-cloud-storage-fuse-profiles/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Nishtha Jain</name><title>Engineering Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Uriel Guzmán-Mendoza</name><title>Software Engineer</title><department></department><company></company></author></item><item><title>GKE Inference Gateway を使用して、同じインフラストラクチャでリアルタイム推論と非同期推論を実行する</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/unifying-real-time-and-async-inference-with-gke-inference-gateway/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 4 月 2 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/unifying-real-time-and-async-inference-with-gke-inference-gateway?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI ワークロードが実験的なプロトタイプから本番環境グレードのサービスに移行するのに伴い、それらをサポートするインフラストラクチャは、利用率のギャップが拡大するという課題に直面しています。昨今の企業は通常、同時実行性が高く、低レイテンシのリアルタイム リクエストに対応するシステムを構築するか、高スループットの「非同期」処理用に最適化するかという二者択一を迫られています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes 環境では、従来、これらの要件には、サイロ化された別々の GPU および TPU アクセラレータ クラスタによって対応してきました。リアルタイム トラフィックは、バーストを処理するためにオーバープロビジョニングされるため、オフピーク時には大幅なアイドル容量が発生する可能性があります。一方、非同期タスクは多くの場合、セカンダリ クラスタに追いやられるため、ソフトウェア スタックが複雑化し、リソース管理が断片化します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI サービング ワークロードの場合、Google Kubernetes Engine（GKE）は、推論パターンの全範囲に対応する統合プラットフォームである &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用して、この「費用とパフォーマンス」のトレードオフに対処します。Google は OSS ファーストのアプローチを活用することで、アクセラレータの容量を単一の流動的なリソースプールとして扱うスタックを開発しました。これにより、決定論的なレイテンシと高スループットの両方を必要とするワークロードに対応できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この投稿では、最新の AI サービスを推進する 2 つの主要な推論パターンと、それぞれのパターンにおける問題および現在利用可能なソリューションについて説明します。このブログ記事を最後までお読みいただくと、GKE が GKE Inference Gateway を介してこれらのパターンにどのように対応するかについておわかりいただけます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;2 つの推論パターン: リアルタイムと非同期&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このブログ記事では、リアルタイムと非同期という 2 種類の AI 推論ワークロードを取り上げます。リアルタイム推論の場合、これらは優先度の高い同期リクエストです。たとえば、お客様が LLM からの即時レスポンスを待っている、chatbot とのやり取りなどです。一方、小売業におけるインデックス登録や商品分類のドキュメント化などの非同期トラフィックでは、通常、レイテンシが許容されます。つまり、トラフィックはキューに入れられ、遅延して処理されることがよくあります。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;1. リアルタイム推論: レイテンシの影響を受けやすい 0 秒のリクエスト&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;優先度の高い同期トラフィックの場合、レイテンシが最も重要な指標となります。しかし、従来のロード バランシングでは、高レイテンシを示す KV キャッシュ使用率などのアクセラレータ固有の指標が無視されることが多いため、パフォーマンスを最適化できません。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;ソリューション: GKE Inference Gateway&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この問題のソリューションは、Inference Gateway です。Inference Gateway は、リアルタイムの指標（KV キャッシュのステータスなど）に基づいてモデルサーバーのパフォーマンスを予測し、レイテンシを考慮したスケジューリングを実行して、最初のトークンまでの時間を最小限に抑えます。これにより、キューイングの遅延も減り、負荷が高い場合でも一貫したパフォーマンスを確保できます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;2. 非同期（ニア リアルタイム）推論: 0 分のレイテンシ&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;レイテンシが許容されるタスクは、ミリ秒単位の要件ではなく、分単位のサービスレベル目標（SLO）で動作します。従来のセットアップでは、リアルタイム トラフィックとのリソース競合を防ぐために、これらのリクエストを別々の専用インフラストラクチャで実行することがよくありました。この静的なパーティショニングは、利用の断片化とハードウェア費用の膨張につながる可能性があります。さらに、カスタムビルドの非同期ポーラーは、通常、同じアクセラレータにワークロードを多重化するために必要な高度なスケジューリング ロジックを備えていないため、エンジニアは 2 つの異なる複雑なソフトウェア スタックを管理する必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ソリューション: 非同期プロセッサ エージェント + Inference Gateway&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Inference Gateway を Cloud Pub/Sub と統合する「プラグ アンド プレイ」アーキテクチャ。バッチ処理エージェントは、構成されたトピックからリクエストを pull し、それらを「削除可能な」トラフィックとして Inference Gateway にルーティングします。システムはバッチタスクを「フィラー」として扱い、リアルタイムの急増の合間にアイドル状態のアクセラレータ（GPU / TPU）の容量を使用します。これにより、リソースの断片化が最小限に抑えられ、ハードウェア費用を削減できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;主な機能:&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;リアルタイム トラフィックのサポート:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; リアルタイム推論トラフィックは Inference Gateway によって処理されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;永続的なメッセージング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Pub/Sub を介して信頼性の高いリクエスト処理が行われます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インテリジェントな再試行:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; キューの深さのリアルタイム モニタリングに基づいて、キュー アーキテクチャに組み込まれた構成可能な再試行ロジックを活用します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;厳密な優先順位:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ゲートウェイ レベルでは、リアルタイム トラフィックがバッチ トラフィックよりも常に優先されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;緊密な統合:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ユーザーは Pub/Sub トピックを「プラグイン」するだけで、エージェントが共有アクセラレータ プールへのルーティング ロジックを処理します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_1B5SFVy.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bvnwb"&gt;図 1 : リアルタイム推論トラフィックと非同期推論トラフィックを解決するための統合アーキテクチャの概要。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;上の図に示されているリクエスト フローは次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;ユーザーがリアルタイム リクエストを送信します。Inference Gateway はまずそのリクエストのスケジュール作成をします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;ユーザーは、構成された Pub/Sub トピックを介して非同期推論リクエストをパブリッシュできます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;非同期プロセッサが、利用可能な容量に基づいてキューから読み取りを行います。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;非同期プロセッサは、同じアクセラレータ（GPU / TPU）リソースを利用して、Inference Gateway を介してリクエストをルーティングします。リアルタイム リクエストが優先されます。非同期リクエストは、コンピューティング サイクルで未使用のアクセラレータに割り当てられます（上の図を参照）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;非同期プロセッサは、レスポンスを出力トピックに書き込みます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;ユーザーは、レスポンス トピックから非同期リクエストのレスポンスを取得します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらのリアルタイム ワークロードと非同期ワークロードを共有アクセラレータに統合することで、GKE は「費用とパフォーマンス」のパラドックスを解決します。脆弱なカスタム キューポーラーを管理したり、使用率の低いクラスタを個別に維持したりする必要はもうありません。さらに、これらの作業はすべてオープンソースで可能です。つまり、複数のクラウドや環境でこれらのプロダクトを使用できます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;統合ワークロードの実例&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;共有インフラストラクチャでリアルタイム ワークロードと非同期ワークロードを実行するというアイデアは、理論的には素晴らしいものですが、実際にはどのように機能するのでしょうか。優先度の高いリアルタイム ワークロードとレイテンシが許容されるバッチ リクエストを統合リソースプール内で同時に処理する有効性を分析したところ、有望な結果が得られました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;リアルタイム トラフィックは、予測不能な急増が特徴です。低レイテンシの回答を維持するには、ピーク時にプールの容量の 100% をリアルタイム トラフィックに使用できるようにする必要があります。一方、レイテンシが許容されるタスクは、容量が使用可能になるまで保留状態のままにする必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最初のテストで、管理されていない多重化のリスクが明らかになりました。優先度が低く、レイテンシが許容されるリクエストが、非同期プロセッサ エージェントを使用せずに Inference Gateway に直接送信された場合、リソースの競合によりメッセージの 99% が削除されました。しかし、非同期プロセッサを使用した場合、レイテンシが許容されるリクエストの 100% が利用可能なサイクル中に処理されました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_fUTnUjp.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bvnwb"&gt;図 2: リアルタイム トラフィック + レイテンシが許容されるバッチ トラフィックで使用率が向上することを示しています。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;次のステップ&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;同じインフラストラクチャでリアルタイム AI ワークロードとバッチ AI ワークロードの両方を実行することに関心をお持ちの場合は、最初に、&lt;/span&gt;&lt;a href="https://github.com/llm-d-incubation/llm-d-async/blob/main/README.md" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Inference Gateway を使用した非同期推論のクイックスタート ガイド&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;a href="https://github.com/llm-d-incubation/llm-d-async/tree/main" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GitHub で OSS プロジェクトに参加&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;して、この取り組みに貢献することもできます。開発の次の段階では、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;期限を考慮したスケジューリング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;に重点を置き、ユーザーがバッチ完了期間に「ソフトリミット」を設定できるようにすることで、フィラー トラフィックとリアルタイムの需要のバランスをシステムが取る方法をさらに最適化します。この重要な取り組みでコミュニティと連携できることを楽しみにしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Poonam Lamba&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニア スタッフ ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Abdullah Gharaibeh&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 14 Apr 2026 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/unifying-real-time-and-async-inference-with-gke-inference-gateway/</guid><category>AI &amp; Machine Learning</category><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>GKE Inference Gateway を使用して、同じインフラストラクチャでリアルタイム推論と非同期推論を実行する</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/unifying-real-time-and-async-inference-with-gke-inference-gateway/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Poonam Lamba</name><title>Senior Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Abdullah Gharaibeh</name><title>Senior Staff Software Engineer</title><department></department><company></company></author></item><item><title>AI 時代のオープン プラットフォーム: GKE、エージェント、OSS のイノベーションを KubeCon EU 2026 で披露</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-and-oss-innovation-at-kubecon-eu-2026/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 25 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/gke-and-oss-innovation-at-kubecon-eu-2026?hl=en&amp;amp;e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今週、クラウドネイティブのコミュニティがアムステルダムに集まり、Kubecon + Cloudnativecon Europe が開催されます。Google は、オープンソースの Kubernetes エコシステムとGoogle Kubernetes Engine（GKE）を支援するために取り組んでいる活動の一部をご紹介します。これには、クラスタの運用モード間の壁を打ち破ることから、Kubernetes を AI エージェントや Ray を実行するための最適な場所にすることまで、Google が現在展開しているさまざまな取り組みが含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Autopilot をすべてのお客様に&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;5 年前、Google は、スケーリングとインフラストラクチャ管理を大幅に簡素化できるフルマネージドの GKE エクスペリエンスである &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/autopilot-overview"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Autopilot&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を発表しました。以前は、GKE Autopilot モードと Standard モードのどちらを選択するかという判断は、クラスタ作成時の「分岐点」でした。たとえば、Standard モードで開始した後に Autopilot に切り替えたい場合は、まったく新しいクラスタを作成する必要がありました。そのため、厳格なノードレベルの制御が必要なワークロードと、シームレスで手間のかからないスケーリングが必要なワークロードが混在することになり、こうしたクラスタを管理する組織には大きな負担となっていました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい GKE では、すべてのクラスタで Autopilot を利用できるようになりました。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Autopilot コンピューティング クラスが Standard クラスタでも利用可能&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;になったことで、ワークロードごとにいつでも Autopilot を有効にできます。GKE Autopilot の &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/container-optimized-compute-delivers-autoscaling-for-autopilot?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Container-Optimized Compute Platform（COCP）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、必要なときに必要な容量を最適な価格とパフォーマンスで提供するほか、ニア リアルタイムで垂直方向および水平方向にスケーラブルなコンピューティング環境を実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これに加え、お客様のインフラストラクチャ プロビジョニングを推進するコア コンポーネントの一つである &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; GKE クラスタ オートスケーラー&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;をオープンソース化することも発表します。Google の目標は、OSS コミュニティが活用でき、基盤を構築できる、ベンダーに依存しないプラットフォームを提供することです。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;CNCF Kubernetes AI Conformance に向けて&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この業界が大規模な AI へと移行する中、標準化は極めて重要です。昨年 Google は、Kubernetes コミュニティとともに、クラスタの相互運用性とポータビリティの標準を確立することで Kubernetes 上の AI / ML を簡素化する &lt;/span&gt;&lt;a href="https://www.cncf.io/announcements/2025/11/11/cncf-launches-certified-kubernetes-ai-conformance-program-to-standardize-ai-workloads-on-kubernetes/" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;CNCF Kubernetes AI Conformance プログラム&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を立ち上げました。このたび、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE が AI 適合プラットフォームとして認定&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;されたことで、モデルや AI ツールを環境間で移行できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今後の Kubernetes v1.36 リリースに向けて、AI Conformance コミュニティは、AI サービングの進化するニーズに対応するために、高度な推論 Ingress、分離型サービング、高性能ネットワーキングという 3 つの新しい要件を提案しています。Google Cloud は、GKE Inference Gateway、llm-d、DRANET を通じて、これらの新たなコミュニティ規約をサポートすることに尽力しています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Model Context Protocol: エージェント インターフェース&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;昨年 Google は、AI エージェントと Kubernetes との連携を効率化するために、オープンソースの GKE &lt;/span&gt;&lt;a href="https://github.com/GoogleCloudPlatform/gke-mcp" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Model Context Protocol（MCP）サーバー&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を発表しました。これは、標準化されたインターフェースを提供することで、明確に定義された機能を通じて、ワークロード、クラスタ、リソースをエージェントが管理、分析、モニタリングできるようにするものです。これらの機能を公開することで、MCP サーバーは &lt;/span&gt;&lt;a href="https://geminicli.com/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Gemini CLI&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;a href="https://antigravity.google/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Antigravity&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; などのさまざまな AI クライアントの統合を容易にするほか、Kubernetes エコシステムの管理の自動化を促進し、よりインテリジェントなものにします。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI インフラストラクチャとしての Kubernetes&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;a href="https://llm-d.ai/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;llm-d&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は正式に CNCF サンドボックス プロジェクトとなり、Kubernetes を最先端の AI インフラストラクチャに進化させるための大きな一歩を踏み出しました。2025 年 5 月に Red Hat や NVIDIA といった業界リーダーとの共同プロジェクトとして立ち上げられた llm-d は、特定のハードウェアやベンダーに依存しないように設計された Kubernetes ネイティブの分散推論フレームワークです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このプロジェクトでは、推論を考慮したトラフィック管理、マルチノード レプリカのネイティブ オーケストレーション、階層型 KV キャッシュ オフロードの高度な状態管理について、well-lit paths（明確なパス）を導入することで、複雑な AI オーケストレーションの課題に対処します。クラウドネイティブなオーケストレーションと最先端の AI 研究のギャップを埋めることで、llm-d は高性能 AI サービングを広く普及させ、さまざまなアクセラレータの推論性能に関するオープンで再現可能なベンチマークを確立します。Google は、llm-d に関して &lt;/span&gt;&lt;a href="https://github.com/cncf/k8s-ai-conformance" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;CNCF AI Conformance&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; プログラムと連携することで、分散型サービングなどの重要な機能をエコシステム全体で相互運用できるようにする予定です。llm-d について詳しくは、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/llm-d-officially-a-cncf-sandbox-project?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちらのブログ記事&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;DRA はリソース管理の新たな標準です&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes が誕生した頃は、変化するものは CPU とメモリだけであり、クラウドは無限に伸縮できると考えられていました。現在では、当然ながら、ハードウェアは専門化され、多様化しています。動的リソース割り当て（&lt;/span&gt;&lt;a href="https://kubernetes.io/docs/concepts/scheduling-eviction/dynamic-resource-allocation/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;DRA&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）は、独自のハードウェアを標準形式で記述するための業界標準ソリューションであり、これにより、上位レベルのワークロードやスケジューラは、リソースに関する低レベルの詳細情報にアクセスすることなく、リソースを最適化できます。このたび、オープンソースでリリースすることを発表しました、TPU 用の DRA ドライバは、AI ワークロードのポータビリティを Kubernetes エコシステムにもたらすうえで重要なマイルストーンとなります。Google と NVIDIA は、統一されたリソース管理標準を確立するための共同の取り組みとして、OSS Kubernetes での DRA の設計と実装について緊密に連携しています。Google は、今回のリリースを、&lt;/span&gt;&lt;a href="https://blogs.nvidia.com/blog/nvidia-at-kubecon-2026" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA DRA ドライバの寄贈&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;と合わせて発表できることを誇りに思います。これは、GKE のマネージド機能としてすでに利用可能なネットワーキング用の DRA ドライバである &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/allocate-network-resources-dra"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;DRANET&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; に加えて使用できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェントの波に対応: 推論とエージェント&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント AI の波が押し寄せています。Google は、エージェントの実行に最適なプラットフォームは Kubernetes であると確信しています。LLM が生成したコードを実行し、AI エージェントと安心してやり取りするには、高度な分離、起動時間の短縮、専用のインフラストラクチャが必要です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、これを実現するために、オープンソースの推論技術に多大な投資を行っています。たとえば、gVisor 対応のセキュアな分離を実現する &lt;/span&gt;&lt;a href="https://github.com/kubernetes-sigs/agent-sandbox" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Kubernetes Agent Sandbox&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; や、ワークロードをメモリ スナップショットから復元することで起動レイテンシを大幅に改善する &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/pod-snapshots"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Pod Snapshots&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; などのイノベーションを活用することで、Kubernetes 上のエージェント AI の標準を確立したうえで、GKE で実行されるエージェントのパフォーマンスやコンピューティング効率を高めています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Kubernetes 上の Ray: TPU と優れたオブザーバビリティ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ray は、要求の厳しい AI ワークロードをスケールするための標準になりつつあり、Kubernetes は Ray の実行に最適な環境であると Google は考えています。最近まで、公式のアクセラレータ サポートは NVIDIA GPU に限定されていましたが、このたび、Anyscale と Google による完全なサポートを備えた Ray v2.55 の TPU を発表しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これまで、Kubernetes 上の Ray では、ジョブに関する過去のデータにアクセスできなかったため、デバッグやパフォーマンスの最適化が困難でしたが、この問題を解決するために、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;RayJob の完了または終了後に問題をデバッグする機能&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を導入しました。これを実現する Ray History Server は、Kuberay を使用して実行中の RayJob からログ、状態、指標を設定して永続化し、Ray ダッシュボードにそれらを再現できます。Ray History Server（アルファ版）は&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/add-on/ray-on-gke/how-to/enable-ray-history-server"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;今すぐお試し&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;いただけます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;ブースにお立ち寄りください&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;次世代の AI 推論のスケールアップ、高度に分離されたエージェント ワークフローのデプロイ、クラスタ全体のコンピューティング容量の最適化など、どのような場合でも、Google は Kubernetes と GKE を究極のプラットフォームにすることに尽力し、お客様を成功に導きます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;KubeCon Europe に参加される方は、ぜひ Google Cloud ブース（#310）にお立ち寄りください。上述の発表について詳しくご説明するほか、&lt;/span&gt;&lt;a href="https://rsvp.withgoogle.com/events/google-cloud-at-kubecon-europe-2026" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;セッション、ライトニング トーク、ハンズオンラボ、デモ &lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧いただけます。また、テキストベースの冒険ゲームで楽しく競い合うイベントもご用意しています。Kubernetes の未来に乾杯！&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニア クラウド デベロッパー アドボケイト、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Abdel Sghiouar&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;GKE プロダクト管理担当ディレクター、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Allan Naim&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 07 Apr 2026 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-and-oss-innovation-at-kubecon-eu-2026/</guid><category>GKE</category><category>Open Source</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>AI 時代のオープン プラットフォーム: GKE、エージェント、OSS のイノベーションを KubeCon EU 2026 で披露</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-and-oss-innovation-at-kubecon-eu-2026/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Abdel Sghiouar</name><title>Senior Cloud Developer Advocate</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Allan Naim</name><title>Director of Product Management GKE</title><department></department><company></company></author></item><item><title>AI インフラストラクチャとしての Kubernetes: Google Cloud、llm-d、CNCF</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/llm-d-officially-a-cncf-sandbox-project/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 25 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/llm-d-officially-a-cncf-sandbox-project?hl=en&amp;amp;e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、大規模な基盤モデルのビルダーや AI ネイティブ企業の膨大なニーズに応えることを、当社の AI インフラストラクチャ戦略の最優先事項としています。生成 AI の利用がミッション クリティカルな本番環境へと移行する中、このようなイノベーターは、複雑なオーケストレーションの課題を克服し、エージェント主導の未来を推進できる、動的かつ絶え間なく効率的なインフラストラクチャを必要としています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;こうした状況を鑑み、このたび、&lt;/span&gt;&lt;a href="https://llm-d.ai/" rel="noopener" target="_blank"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;llm-d&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; が Cloud Native Computing Foundation（CNCF）のサンドボックス プロジェクトとして&lt;/span&gt;&lt;a href="https://www.cncf.io/blog/2026/03/24/welcome-llm-d-to-the-cncf-evolving-kubernetes-into-sota-ai-infrastructure/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;正式に&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;承認されたことを大変嬉しく思います。Google Cloud は、Red Hat、IBM Research、CoreWeave、NVIDIA とともに、llm-d の創設メンバーとして貢献できることを誇りに思います。私たちは、業界を定義する明確なビジョン「&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;あらゆるモデル、あらゆるアクセラレータ、あらゆるクラウド&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;」の下に団結しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この貢献は、オープンソースのイノベーションにおける Google の長年のリーダーシップを裏付けるものです。私たちはまた、Linux Foundation の信頼できる管理の下、分散 AI 推論の未来が、閉ざされた環境ではなくオープン スタンダードに基づいて構築されるよう支援しています。これにより、基盤モデルのビルダーは、ベンダーに縛られることなくモデルをグローバルにデプロイできるという確信を得られるとともに、これらのオープン テクノロジーの実装を高度に最適化したうえで Google Cloud で直接行えるようになります。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_KwJQrYd.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;推論のための Kubernetes の強化&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes は、オーケストレーションの業界標準として揺るぎない地位を確立しています。強固な基盤を提供しますが、元々は、LLM 推論のために構築されたものではなく、高度にステートフルで動的な要求には対応できませんでした。&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/tutorials/serve-with-gke-inference-gateway"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、こうした新しいタイプのワークロードに対応するために Kubernetes を進化させたもので、単純なロード バランシングをはるかに超えるネイティブ API を提供します。このゲートウェイの内部では、スケジューリング インテリジェンスのために &lt;/span&gt;&lt;a href="https://github.com/kubernetes-sigs/gateway-api-inference-extension/tree/main/docs/proposals/004-endpoint-picker-protocol" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;llm-d Endpoint Picker（EPP）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を活用しています。このシステムでは、ルーティングの決定を llm-d に委任することで、リアルタイムの KV キャッシュ ヒット率、処理中のリクエスト数、インスタンス キューの深さを考慮した多目的ポリシーを適用し、各リクエストを処理に最適なバックエンドにルーティングします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模に運用する基盤モデルのビルダーにとって、こうしたモデル対応のルーティングがもたらす現実世界への影響は画期的です。最近、Google の Vertex AI チームは本番環境でこのアーキテクチャを&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/how-gke-inference-gateway-improved-latency-for-vertex-ai?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;検証&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;し、脆弱なカスタム スケジューラに依存することなく、予測が非常に難しいトラフィックを処理できることを証明しました。Qwen Coder を使用したコンテキストを多用するコーディング タスクでは、最初のトークンまでの時間（TTFT）のレイテンシが 35% 以上短縮されました。また、研究目的に DeepSeek を使用してバースト性が高く確率的なチャット ワークロードを処理した場合には、P95 テール レイテンシが 52% 改善され、深刻な負荷変動を効果的に吸収できました。特に重要なのは、このゲートウェイのルーティング インテリジェンスにより、Vertex AI の接頭辞キャッシュ ヒット率が 35% から 70% に倍増したことであり、これにより、再計算のオーバーヘッドとトークンあたりの費用が大幅に削減されました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_K56j60Q.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;インテリジェントなルーティングに加えて、マルチノード AI デプロイをオーケストレートするには、堅牢な基盤となるプリミティブが必要です。そのため、Google では Kubernetes &lt;/span&gt;&lt;a href="https://lws.sigs.k8s.io/docs/overview/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;LeaderWorkerSet&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（LWS）API の開発を主導しています。LWS により、llm-d は広範なエキスパート並列処理をオーケストレートし、計算負荷の高いプリフィル フェーズとメモリ負荷の高いデコード フェーズを、個別にスケーリング可能な Pod に分離できます。業界で広く採用されている LWS は、今では、急速に拡大する本番環境の AI ワークロードのフットプリントをオーケストレートし、グローバル規模で TPU と GPU の大規模なフリートを管理しています。このオーケストレーションを補完するものとして、Google は最近、&lt;/span&gt;&lt;a href="https://vllm.ai/blog/vllm-tpu" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud TPU 向けに vLLM をネイティブに拡張&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;しました。PyTorch と JAX の統合バックエンドに加え、Ragged Paged Attention v3 などの革新的な機能を備えたこのインテグレーションにより、昨年初めにリリースした最初のバージョンと比較して、スループットが最大 5 倍向上しました。Google Cloud TPU や NVIDIA GPU のどちらでスケールする場合でも、これらの進歩により、最先端の AI サービングが高度に最適化され、アクセラレータに依存しない機能として維持されます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;次世代の AI インフラストラクチャを共同で構築&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;究極の AI インフラストラクチャを構築するには、クラウドネイティブな Kubernetes オーケストレーションと最先端の AI 研究との間のギャップを埋める必要があります。本番環境レベルの生成 AI への移行には、信頼性と透明性を備えたエンジンが必要であり、可能性の限界を押し広げる AI / ML リーダーとの緊密なコラボレーションも求められます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;私たちは、Linux Foundation、CNCF、PyTorch Foundation、その他のオープンソース コミュニティとともに、次世代の AI インフラストラクチャを構築できることを大変嬉しく思っています。「well-lit paths」（現実的な負荷の下でエンドツーエンドにテストされた、実証済みで再現可能なブループリント）を確立することで、高性能な AI がオープンで誰もがアクセスできるエコシステムとして発展し、境界のないイノベーションを促進できるようにしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI 推論のオープンな未来を一緒に形作りましょう。大規模基盤モデルのビルダー、AI ネイティブ企業、プラットフォーム エンジニア、AI 研究者の皆様の参加を心よりお待ちしております。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;「well-lit paths」を確認する:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;a href="https://llm-d.ai/docs/guide" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;llm-d ガイド&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を参照し、ご自身のインフラストラクチャに SOTA 推論スタックを今すぐデプロイしましょう。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;詳細:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 公式ウェブサイト（&lt;/span&gt;&lt;a href="https://llm-d.ai/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;https://llm-d.ai&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;/）をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ご協力のお願い:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Slack のコミュニティに参加し、GitHub リポジトリ（&lt;/span&gt;&lt;a href="https://github.com/llm-d/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;https://github.com/llm-d/&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）での活動にご協力ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;llm-d の CNCF サンドボックス プロジェクトへの参加をお待ちしております。皆様とともにこのエンジンを発展させていくことを楽しみにしています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Sean Horgan&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニア クラウド デベロッパー アドボケイト、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Abdel Sghiouar&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 03 Apr 2026 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/llm-d-officially-a-cncf-sandbox-project/</guid><category>GKE</category><category>AI &amp; Machine Learning</category><category>Open Source</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>AI インフラストラクチャとしての Kubernetes: Google Cloud、llm-d、CNCF</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/llm-d-officially-a-cncf-sandbox-project/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Sean Horgan</name><title>Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Abdel Sghiouar</name><title>Senior Cloud Developer Advocate</title><department></department><company></company></author></item><item><title>DRA: 動的リソース割り当てが切り開く Kubernetes デバイス管理の新時代</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/kubernetes-device-management-with-dra-dynamic-resource-allocation/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 26 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/kubernetes-device-management-with-dra-dynamic-resource-allocation?hl=en&amp;amp;e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模言語モデル（LLM）の爆発的な普及により、GPU や TPU などの高性能アクセラレータの需要が高まっています。組織が AI 機能を拡大させる中で、コンピューティング リソースの不足が主要なボトルネックとして浮上することがあります。すべての GPU と TPU のサイクルを効率的に管理することは、もはや推奨事項ではなく、運用上の必要事項となっています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes は、企業が LLM を実行する際の事実上の標準プラットフォームになりつつあります。今週開催された KubeCon Europe において、&lt;/span&gt;&lt;a href="https://blogs.nvidia.com/blog/nvidia-at-kubecon-2026" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA は&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; GPU 用の動的リソース割り当て（DRA）ドライバを、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/gke-and-oss-innovation-at-kubecon-eu-2026"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google は Tensor Processing Unit（TPU）用の DRA ドライバを&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;それぞれ Kubernetes コミュニティに寄贈しました。このことは、より広範なコミュニティの育成とイノベーションの加速を実現し、Kubernetes が最新のクラウド環境に対応して AI ワークロードのポータビリティを向上させることにつながります。DRA は Google Kubernetes Engine（GKE）でも一般提供されています。このブログ記事の残りの部分では &lt;/span&gt;&lt;a href="https://kubernetes.io/docs/concepts/scheduling-eviction/dynamic-resource-allocation/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;DRA&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; について掘り下げ、DRA が構築された理由、DRA でできること、DRA の使用方法について説明します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;静的なインフラストラクチャからの脱却&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;長年にわたり、ハードウェア アクセラレータを使用するには、Kubernetes のデバイス プラグイン フレームワークを利用するのが標準的な方法でした。ただし、デバイス プラグインでは、ハードウェア要件を単純な整数（例: &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;gpu: 1&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt;）としてしか表現できないため、フラクショナル GPU は使用できません。これでは、現代の複雑なワークロードに求められる微妙できめ細かな調整を行うには不十分です。また、デバイス プラグインでは、Pod のスケジューリングに先立って、クラスタにアクセラレータを事前プロビジョニングさせておく必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes におけるリソース管理の新標準である DRA は &lt;/span&gt;&lt;a href="https://kubernetes.io/blog/2025/09/01/kubernetes-v1-34-dra-updates/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Kubernetes OSS 1.34&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; で「安定版」のステータスに昇格しました。DRA は、ハードウェアの処理方法において、静的な割り当てから柔軟なリクエストベースのモデルへの移行というパラダイム シフトを体現しています。これにより、次のような課題が解決されます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;手動によるノードの固定が不要:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; デバイス プラグイン フレームワークでは、アプリ オペレーターは、特定のハードウェアを搭載したノードを自分で調べてから、nodeSelector またはアフィニティを使用して、Pod がそのノードに配置されるようにする必要がありました。DRA は、スケジューラが特定のハードウェア機能をネイティブに認識できるようにすることで、このプロセスを自動化します。リクエストに基づいてワークロードに適したノードを検出するため、ユーザーがクラスタのトポロジをマッピングする必要はありません。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;柔軟なパラメータ化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; デバイス プラグインの「全か無か」のアプローチとは異なり、DRA では、ResourceClaim を使用して、最小 VRAM 量、特定のハードウェア モデル、相互接続要件などの特定の要件を定義できます。これにより、高価なハードウェアをよりきめ細かく効率的に使用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;DeviceClass を介したハードウェアの抽象化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; DRA は、ハードウェアの「ブループリント」として機能する DeviceClass を導入します。プラットフォーム管理者は、デベロッパーが名前でリクエストするクラス（例: high-memory-gpu や low-latency-fpga）を定義できます。これにより、基盤となるハードウェア アドレスからワークロードのニーズが切り離されます。これは、スケジューラがワークロードの要件と利用可能なハードウェア インベントリのマッチングを行うことを可能にします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;詳細解説: DRA の仕組み&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;DRA の中核をなすのは ResourceSlice と ResourceClaim です。これら 2 つの主要な構成要素は、ハードウェア インベントリとワークロード要件を分離します。これらは、Kube-scheduler が適切な意思決定を行い、より柔軟なリソースプールを実現するために使用する入力です。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ResourceSlice: 可用性の記述&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ResourceSlice API は、基盤となるハードウェアの機能と属性をリソース ドライバがクラスタに公開するために使用されます。デバイス プラグインが単純なラベルを使用することでデバイスの詳細を覆い隠しがちであるのと対照的に、ResourceSlice は利用可能なアセットを忠実に記述します。これにより、ドライバは各デバイスに関する以下のような詳細情報を報告できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;容量:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 合計メモリ、コア数、または特殊なコンピューティング単位数&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;属性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; アーキテクチャ、バージョン、PCIe ルート コンプレックスまたは NUMA ノード&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ResourceClaim: 要件の定義&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ResourceClaim API を使用すると、AI エンジニアはアプリケーションを正常に実行するために必要なものを正確に定義できます。ResourceSlice API がデバイスの詳細を公開するため、開発者は一般的なリクエストにとどまらず、次の項目に基づく要件の指定を行うことができます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;属性ベースの選択:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 特定のモデルを指定する代わりに、ユーザーは「40 GB 以上の VRAM を備えた GPU」という風にリクエストできます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;複雑な制約:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; DRA はデバイス間の制約をサポートします。たとえば、ハイ パフォーマンス コンピューティング ジョブでは、レイテンシを最小限に抑え、スループットを最大化するために、GPU と NIC の両方が同じ PCIe ルート コンプレックスに接続されているという要件のもとに、GPU と NIC をリクエストできます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;能力ベースのアプローチによるスマートなスケジュール設定&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;DRA は、「何」（ResourceClaim）を「どこ」（ResourceSlice）から切り離すことで、デバイスのマッチングの負担をユーザーから Kube-scheduler に移します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以前までは、ユーザーは適切なハードウェアに Pod を配置するために、手動のノードセレクタや taint に頼らざるを得ないことがほとんどでした。DRA を使用すると、スケジューラはデバイスの属性とクラスタのトポロジを全体的な視点から把握できるようになります。これにより、より「流動的な」リソースプールが可能になります。スケジューラは、利用可能なすべてのスライスをクレームの特定の基準に基づいて評価し、静的なラベルではなく実際のハードウェアの可用性に基づいて配置を最適化できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この能力ベースのアプローチによって利用可能なハードウェアのうち最適なものにワークロードを確実に割り当てられるようになり、リソース使用率とアプリケーション パフォーマンスの両方が向上します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/DRA_Blog_Diagram.max-1000x1000.jpg"
        
          alt="DRA Blog Diagram"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;DRA の動作を確認するには、&lt;/span&gt;&lt;a href="https://discuss.google.dev/t/running-inference-on-vllm-with-dynamic-resource-allocation-and-custom-compute-classes/342730" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google デベロッパー フォーラムのこちらのブログ記事&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。このブログ記事では、環境設定、GKE クラスタの作成、ドライバのインストール、レプリカのスケーリングなど、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-custom-compute-classes"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム ComputeClass&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用して GPU をスケールする方法を紹介しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;1.35 のリリースでは、AI / ML ワークロードと最新のユースケースの新しい標準を確立するために、&lt;/span&gt;&lt;a href="https://github.com/cncf/k8s-ai-conformance" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Kubernetes AI Conformance プログラム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;が作成されました。&lt;/span&gt;&lt;a href="https://github.com/cncf/k8s-ai-conformance/blob/main/docs/AIConformance-1.35.yaml#L20" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;DRA のサポート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、この新しい基準の要となるため、最初の必須要件として特定されました。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ぜひお試しください&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes ワークロードがより複雑でミッション クリティカルになるにつれて、柔軟でインテリジェントかつ使いやすいリソース管理の実現が重要になっています。GKE の DRA は、要求の厳しい動的な環境でハードウェア リソースを最適化する際に手作業や当て推量に頼る必要性を排除します。DRA の詳細と利用方法については、以下のリソースをご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-dynamic-resource-allocation"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE の DRA に関するドキュメント&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/blog/ja/products/networking/introducing-managed-dranet-in-google-kubernetes-engine?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ノード ネットワーキングの進化: DRANET ブログ&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/dranet"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;DRANET のドキュメント&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニア ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Morten Torkildsen&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Bo Fu&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Thu, 02 Apr 2026 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/kubernetes-device-management-with-dra-dynamic-resource-allocation/</guid><category>AI &amp; Machine Learning</category><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>DRA: 動的リソース割り当てが切り開く Kubernetes デバイス管理の新時代</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/kubernetes-device-management-with-dra-dynamic-resource-allocation/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Morten Torkildsen</name><title>Senior Software Engineer</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Bo Fu</name><title>Senior Product Manager</title><department></department><company></company></author></item><item><title>マルチクラスタ GKE Inference Gateway のご紹介: 世界中で AI ワークロードをスケール</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/multi-cluster-gke-inference-gateway-helps-scale-ai-workloads/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 18 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/multi-cluster-gke-inference-gateway-helps-scale-ai-workloads?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI の世界は急速に変化しており、モデルのサービングを大規模かつ確実に行う必要性も高まっています。このたび、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;マルチクラスタ GKE Inference Gateway&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; のプレビュー版がリリースされましたのでお知らせいたします。これにより、複数の Google Kubernetes Engine（GKE）クラスタにわたり（異なる Google Cloud リージョンにまたがる場合も含め）、AI / ML 推論ワークロードのスケーラビリティ、復元力、効率性を強化できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/gateway-api?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Gateway API&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の拡張機能として構築されたマルチクラスタ Inference Gateway は、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/multi-cluster-gateways?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;マルチクラスタ Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の機能を活用して、特に要求の厳しい AI アプリケーション向けに、モデル対応のインテリジェントなロード バランシングを提供します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_gRilinA.max-1000x1000.jpg"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;AI 推論にマルチクラスタを使用する理由&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI モデルの複雑性が増し、ユーザーのグローバル化が進むにつれて、単一クラスタのデプロイでは次のような課題に直面する可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;可用性のリスク:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; リージョンの停止やクラスタのメンテナンスがサービスに影響を及ぼす可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;スケーラビリティの上限:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 単一のクラスタまたはリージョン内で、ハードウェアの上限（GPU / TPU）に達してしまいます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;リソースのサイロ化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; あるクラスタで十分に活用されていないアクセラレータ容量を別のクラスタで使用できません。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;レイテンシ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; サービスを提供しているクラスタから離れているユーザーはレイテンシが高くなる可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;マルチクラスタ GKE Inference Gateway は、これらの課題に正面から取り組み、次のようなさまざまな機能とメリットを提供します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;信頼性とフォールト トレランスの強化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 異なるリージョン間を含め、複数の GKE クラスタにわたってトラフィックをインテリジェントにルーティングします。1 つのクラスタまたはリージョンで問題が発生した場合、トラフィックは自動的に再ルーティングされ、ダウンタイムが最小限に抑えられます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;スケーラビリティの向上とリソース使用量の最適化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; さまざまなクラスタから GPU / TPU リソースをプールして活用できます。単一クラスタの容量を超えてバーストすることで需要の急増に対応し、利用可能なアクセラレータをフリート全体で効率的に活用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;グローバルに最適化されたモデル対応のルーティング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Inference Gateway は、高度なシグナルを使用してスマートなルーティング判断を下すことができます。&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;GCPBackendPolicy&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; を使用して、リアルタイムのカスタム指標（モデルサーバーの KV キャッシュ使用率指標など）に基づいてロード バランシングを構成できるので、最適なバックエンド インスタンスにリクエストが送信されるようになります。処理中リクエストの制限など、他のモードもサポートされています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;運用の簡素化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; モデルを複数の「ターゲット クラスタ」で実行しながら、専用の GKE「構成クラスタ」で 1 つの Inference Gateway 構成を使用して、グローバルに分散された AI サービスへのトラフィックを管理できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;仕組み&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE Inference Gateway には、&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;InferencePool&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;InferenceObjective&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; という 2 つの基本リソースがあります。&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;InferencePool&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; は、同じコンピューティング ハードウェア（GPU や TPU など）とモデル構成を共有する Pod のリソース グループとして機能し、スケーラブルで高可用性のサービングを実現します。&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;InferenceObjective&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; は、特定のモデル名を定義し、サービングの優先順位を割り当てます。これにより、Inference Gateway はトラフィックをインテリジェントにルーティングし、レイテンシの影響を受けやすいタスクと緊急性の低いワークロードを多重化できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_ek1kPQE.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このリリースでは、Kubernetes カスタム リソースを使用して、分散推論サービスが管理されます。各「ターゲット クラスタ」の &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;InferencePool&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; リソースは、モデルサーバーのバックエンドをグループ化します。これらのバックエンドはエクスポートされ、「構成クラスタ」で &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;GCPInferencePoolImport&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; リソースとして表示されます。構成クラスタ内の標準の &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;Gateway&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; リソースと &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;HTTPRoute&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; リソースは、エントリ ポイントとルーティング ルールを定義し、トラフィックをこれらのインポートされたプールに転送します。&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;CUSTOM_METRICS&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;IN_FLIGHT&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; リクエストの使用など、きめ細かいロード バランシングの動作は、&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;GCPInferencePoolImport&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; にアタッチされた &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;GCPBackendPolicy&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; リソースを使用して構成されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このアーキテクチャにより、グローバルな低レイテンシのサービング、障害復旧、容量のバースト、異種ハードウェアの効率的な使用などのユースケースが可能になります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE Inference Gateway のコアコンセプトについて詳しくは、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway#understand_key_concepts"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ガイド&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;使ってみる&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI 推論サービング ワークロードをより多くの場所とより多くのユーザーにスケールする際に、マルチクラスタ GKE Inference Gateway をぜひお試しください。詳細と利用方法については、次のドキュメントをご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-multi-cluster-inference-gateway"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;マルチクラスタ GKE Inference Gateway について&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/setup-multicluster-inference-gateway"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;マルチクラスタ GKE Inference Gateway を設定する&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/customize-backend-multicluster-inference-gateway"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GCPBackendPolicy でバックエンド構成をカスタマイズする&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Arman Rye&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;シニアスタッフ ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Andres Guedez&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Wed, 25 Mar 2026 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/multi-cluster-gke-inference-gateway-helps-scale-ai-workloads/</guid><category>AI &amp; Machine Learning</category><category>GKE</category><category>Networking</category><category>Developers &amp; Practitioners</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>マルチクラスタ GKE Inference Gateway のご紹介: 世界中で AI ワークロードをスケール</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/multi-cluster-gke-inference-gateway-helps-scale-ai-workloads/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Arman Rye</name><title>Senior Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Andres Guedez</name><title>Senior Staff Software Engineer</title><department></department><company></company></author></item><item><title>AI ネイティブなコア: Google Kubernetes Engine を使用した、レジリエンスの高い通信事業者向けアーキテクチャ</title><link>https://cloud.google.com/blog/ja/products/networking/gke-for-telco-building-a-highly-resilient-ai-native-core/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 5 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/networking/gke-for-telco-building-a-highly-resilient-ai-native-core?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;通信業界は重要な転換点を迎えています。従来のオンプレミス中心のデータセンター モデルは、インフラストラクチャ費用の高騰と、可用性およびコンプライアンス要件による利用率の低さという重圧に苦しんでいます。しかし、AI の時代には、指数関数的なスケールと 99.9999999% を超える信頼性が求められます。通信事業者が考えるべきは、モダナイズするかどうかではなく、どのアーキテクチャ パスが最も迅速にモダナイズできるかです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;モダナイゼーションは「完全な置き換え」のイベントではなく、戦略的な選択です。今回は、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Kubernetes Engine（GKE）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;が、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;クラウド中心の進化&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;と&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;戦略的なハイブリッド モダナイゼーション&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;という 2 つの汎用性の高いデプロイ戦略の高性能な基盤としてどのように機能するかをご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ネットワーク モダナイゼーションの 2 つの方法&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;すべての通信事業者は、リスク許容度、規制環境、投資基盤がそれぞれ異なります。アジリティを優先する通信事業者もいれば、ローカルな制御の必要性を重視する通信事業者もいます。GKE を使用すれば、両方のアプローチに対応できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1. クラウド中心のモダナイゼーション: 大規模なアジリティ&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この方法は、クラウドの弾力性を最大限に活用したい通信事業者向けです。独自のコンテナ化されたネットワーク機能（CNF）を移行する場合でも、&lt;/span&gt;&lt;a href="https://www.ericsson.com/en/core-network/on-demand" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ericsson-on-Demand&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; のようなクラウドネイティブ サービスを構築する場合でも、目標は同じです。それは、重い処理を Google Cloud に移行することです。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;メリット:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;音声コア&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;や&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ポリシー制御機能&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;などのミッション クリティカルなワークロードを Google のグローバル ファイバー バックボーンで実行することで、ピーク時のイベントに合わせて即座にスケールし、「ゼロ ヒューマン タッチ」運用に移行できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;経済性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 多額の初期投資を必要とする CapEx から「成長に応じた支払い」モデルに移行できます。アイドル状態のハードウェアを過剰にプロビジョニングする必要はなく、クラウドが突発的な負荷を吸収してくれます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;製品化までの時間&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 固定無線アクセス、IoT、プライベート 5G などの新しいサービスの製品化までの時間を短縮できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. 戦略的なハイブリッド モダナイゼーション: クラウドのアジリティ、ローカルな制御&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;多くの通信事業者にとって、ハイブリッド アプローチはより優れたバランスを提供します。ハイブリッド アプローチでは、通信事業者は、アジャイルなコントロール プレーン コンポーネントとデータ分析を選択的にクラウドに移行しながら、レイテンシの影響を受けやすいユーザー プレーン機能をオンプレミスまたはエッジに保持できます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;メリット:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; データプレーン トラフィックをローカルに保持することで、超低レイテンシの最適化と厳格なデータ主権要件を満たしつつ、クラウドの AI による分析情報とオーケストレーション機能を活用できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;汎用性:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; GKE を使用すると、コントロール プレーンのワークロードをクラウドで実行し、データ プレーン サービスを独自のデータセンターまたはネットワーク エッジで直接実行できます。これにより、環境全体で統一された運用モデルを構築できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;「通信事業者グレード」の基盤のエンジニアリング&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このブログ投稿では、GKE が通信事業者や機器ベンダー パートナーからの大きな勢いに支えられ、コンテナ化されたネットワーク機能（CNF）向けの業界で最も特化したプラットフォームへと進化してきた様子をご紹介します&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;。&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5g_workload_optimized_infrastructure.max-1000x1000.png"
        
          alt="5g workload optimized infrastructure"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さまざまな機能のおかげで、これを実現しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;接続と分離&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;標準の Kubernetes は、通信事業者が必要とする複雑なトラフィック分離を想定して設計されていません。GKE は、次の機能でこのギャップを埋めます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;マルチ ネットワーキング API:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Pod ごとに複数のインターフェースを管理するネイティブの Kubernetes の手法。標準のネットワーク ポリシーをすべてのインターフェースに適用します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;シミュレートされた L2 ネットワーキング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 最新のクラウドネイティブなスタックで実行しながら、従来のアプリケーションがレイヤ 2 の運用モデルを維持できる「移行のスーパーパワー」。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;通信事業者向け CNI:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 特化型 Ubuntu イメージで &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/multus-ipvlan-whereabouts"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Multus、IPvlan、Whereabouts&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をサポート。これにより、管理プレーン、制御プレーン、ユーザー プレーンを外科手術のように正確に分離できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;永続的なネットワーク到達性&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エフェメラルなコンテナの世界では、通信事業者の機能には安定性が求められます。GKE は、以下を通じてこれを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE IP ルート:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 等価コスト マルチパス（ECMP）のような機能を GKE データプレーンに直接統合しました。ワークロードに障害が発生すると、サービスパスから自動的かつ迅速に削除されるため、複雑な外部ルーター構成なしで高可用性を実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;永続 IP:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; GKE は、5G コア機能がライフサイクル全体で一貫したネットワーク到達性を確保するために必要な静的 IP サポートを提供します。標準の Kubernetes では利用できない NAT を使用しません。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;1 秒未満の収束&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;通信事業者にとって、ミリ秒単位のダウンタイムは接続の喪失を意味します。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;HA ポリシー&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を介した GKE のデータプレーンは、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;超高速の障害検出と収束&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;により、ほぼゼロのダウンタイムを実現するように最適化されています。通信事業者は、自己管理による復旧と Google による完全管理の障害検出のどちらかを選択できます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;AI で「節約」から「解決」へ&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;通信事業者にとって、モダナイゼーションの最終的な目標は、自律型&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ネットワーク&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;への移行です。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Vertex AI&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; や &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; BigQuery&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; などの Google Cloud AI およびデータ プラットフォームに隣接するプラットフォームでコア ネットワーク機能を実行することで、テレメトリーをネットワーク最適化の実用的な変更に変えることができます。モダナイゼーションによって実現するユースケースとメリットには、次のようなものがあります。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;予測 AIOps:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; AI を使用してパフォーマンスの低下を特定し、通話が切断される前に自動修復をトリガーします。スポーツ イベントやサービスのリリース時に、クラウドを使用してオンデマンドのバースト容量を確保します。また、GKE でホストされる 5G コアのデータを使用して、AI を活用した自動化を促進し、問題が加入者に影響を与える前に予測します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;インテント主導のプログラマビリティ:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 費用のかかる事後対応型の運用から移行し、新しいデプロイのセットアップ時間を数週間から数時間に短縮します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;分析情報の収益化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; クラウドネイティブなデータに AI を活用して、ネットワークの適正化に加えて、まったく新しい収益機会を特定して獲得します&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;。&lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;貴社の戦略に合わせた変革を&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;通信業界の未来は、インテリジェントでレジリエンスに優れ、非常に柔軟なものになるでしょう。ハイブリッド デプロイへの第一歩を踏み出す場合でも、クラウドで完全にホストされるコアを立ち上げる場合でも、Google Cloud は貴社の戦略的パートナーとなります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;MWC にぜひご参加ください。ホール 2 のブース #2H40 では、GKE で動作するモバイルコアのライブデモなど、各種ソリューションの事例をご覧いただけます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Cloud、シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Abhi Maras&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;Google Cloud、ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Maciej Skrocki&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 16 Mar 2026 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/networking/gke-for-telco-building-a-highly-resilient-ai-native-core/</guid><category>Containers &amp; Kubernetes</category><category>GKE</category><category>Telecommunications</category><category>Networking</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>AI ネイティブなコア: Google Kubernetes Engine を使用した、レジリエンスの高い通信事業者向けアーキテクチャ</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/networking/gke-for-telco-building-a-highly-resilient-ai-native-core/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Abhi Maras</name><title>Senior Product Manager, Google Cloud</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Maciej Skrocki</name><title>Software Engineer, Google Cloud</title><department></department><company></company></author></item><item><title>独自の成長を促進: GKE のカスタム指標のネイティブ サポートを導入</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-now-supports-custom-metrics-natively/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 3 月 6 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/gke-now-supports-custom-metrics-natively?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;プラットフォーム エンジニア、AI インフラストラクチャ リードおよび開発者が Kubernetes で実行されるワークロードの自動スケーリングについて考えるとき、その目標は単純です。必要なときに、必要な容量を、最適な料金で手に入れることです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;しかし、CPU とメモリに基づくスケーリングは比較的簡単ですが、キューの深さやアクティブなリクエストなどのアプリケーション シグナルに基づくスケーリングは簡単ではありません。従来、このようなスケーリングは、モニタリング、IAM、特定のエージェント構成など、さまざまな手順を複雑に組み合わせて実現していたため、運用上のオーバーヘッドが大きくなっていました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この摩擦を解消するために、このたび、Google Kubernetes Engine（GKE）で実行される HorizontalPodAutoscaler（HPA）の&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;カスタム指標&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;がネイティブにサポートされるようになりました。これは、カスタム ワークロード シグナルをネイティブの GKE 機能へと高める新機能です。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;現在の課題: カスタム指標に関わる「税金」&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;カスタム指標（アクティブなリクエスト、KV キャッシュ、ゲームサーバーのプレーヤー数など）に基づいてワークロードをスケールしようとしたことがある方なら、このアーキテクチャが非常に手間のかかるものであることをご存じでしょう。YAML を数行記述するだけでなく、複数の異種システムを連携させる必要があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;現在、カスタム指標に基づいて HorizontalPodAutoscaler をスケールするには、複数のコンポーネントを構成する必要があります。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_nzd0ckQ.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;1. &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;指標をエクスポートする:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; まず、Pod が指標を Cloud Monitoring、Google マネージド Prometheus、または使用しているモニタリング システムに送信（エクスポート）するように構成します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;2. 「仲介役」を構成する:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 次に、クラスタに &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;custom-metrics-stackdriver-adapter&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; または &lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;prometheus-adapter&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; をインストールして管理し、Cloud Monitoring と HPA の間のトランスレータとして機能させます。これらのアダプタの構成は必ずしも簡単ではなく、保守は複雑でエラーが発生しやすくなります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;3. 難しい IAM に対応する:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; これは多くの場合、最大のハードルです。エクスポートした指標をアダプタが読み取れるようにするには、次の手順が必要です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;    ◦ クラスタで Workload Identity 連携を有効にする。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;    ◦ Google Cloud IAM サービス アカウントを作成する。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;    ◦ Kubernetes サービス アカウントを作成してアノテーションを付ける。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;    ◦ IAM ポリシー バインディングを使用して 2 つのアカウントをバインドする。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;    ◦ 特定の IAM ロールを付与する。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;4. &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;運用リスクを管理する:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 自動スケーリング ロジックを構成すると、そのロジックはオブザーバビリティ スタックが利用可能であることに依存するようになります。指標の取り込みが遅れたり、アダプタが失敗したりすると、スケーリングが中断されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;つまり、本番環境が突然モニタリングに左右されるようになります。モニタリング システムは重要なインフラストラクチャの一部であり、本番環境の重要な要素ですが、モニタリング システムが失敗しても、通常は本番環境の稼働を継続できます。ただし、この構成では、自動スケーリング メカニズムがモニタリング システムに依存するようになります。モニタリング システムの読み取りまたはシステム自体が失敗すると、ワークロードは自動スケールできなくなります。これにより、スケーリング ロジックが外部のオブザーバビリティ スタックの可用性に結び付けられるという、固有の運用上のリスクが生じます。ほとんどの IT ベスト プラクティスでは、このような循環依存関係は推奨される構成ではありません。トラブルシューティングが複雑になり、サービスの全体的な復元力が低下するためです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さらに、カスタム指標に基づいてスケールするように HPA を構成することは、これまで非常に煩雑で、エラーが発生しやすかったため、Kubernetes ユーザーはサードパーティ ソリューションを採用することがよくありました。サードパーティのソリューションとその複雑な設定の管理と同期は、GKE の更新またはアップグレード サイクルに合わせるのが難しい場合があります。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェントレス、ネイティブの自動スケーリング&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE のカスタム指標のネイティブ サポートにより、「仲介役」が不要になり、自動スケーリングのフローが根本的に再設計されました。リアルタイムのカスタム指標に基づくワークロードのスケーリングは、メモリや CPU に基づくスケーリングと同じくらい簡単になり、モニタリング システム、アダプタ、サービス アカウント、IAM ロールに対する複雑な循環依存関係はなくなりました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェント、アダプタ、複雑な IAM は不要:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; カスタム指標は Pod から直接取得され、HPA に配信されます。このエージェントレス アーキテクチャでは、カスタム指標アダプタを維持したり、複雑な Workload Identity バインディングを管理したりする必要がなくなります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;カスタム指標のネイティブ サポート:&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_ArVfooE.max-1000x1000.png"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI 推論、金融サービス、小売、ゲームなど、要求の厳しいワークロードを実行する組織にとって、この更新は大きな変化をもたらします。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;「仲介役」は不要:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; アダプタ、サイドカー、IAM ロール バインディングの複雑さを解消します。アプリケーションが指標を公開すると、GKE はその指標に基づいてスケールできます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;レイテンシの短縮:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 外部モニタリング システムへのラウンド トリップが不要になるため、HPA の反応が大幅に速くなります。これは、トラフィックの急増時に需要の高いサービスのパフォーマンスが低下するのを防ぐために重要です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;高い費用効率:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 自動スケーリングの決定にのみ使用される指標の取り込み費用を支払う必要がなくなります。スケーリング イベントへのより正確かつ迅速な対応は、コンピューティング リソースの節約にもつながります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;信頼性の向上:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; スケーリング ロジックが外部のオブザーバビリティ スタックの稼働時間に依存しなくなり、クラスタ内で自己完結します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しいコントローラを使用すると、HPA がスケーリングに使用する指標を簡単に構成できるため、指標の収集を簡素化できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;apiVersion: autoscaling.gke.io/v1beta1\r\nkind: AutoscalingMetric\r\nmetadata:\r\n  name: vllm-autoscaling-metric\r\n  namespace: autoscaling-metrics\r\nspec:\r\n  metrics:\r\n  - pod:\r\n      selector:\r\n        matchLabels:\r\n          app: vllm-metrics\r\n      containers:\r\n      - endpoint:\r\n          port: metrics\r\n          path: /metrics\r\n        metrics:\r\n        - gauge:\r\n            name: kv_cache_usage_perc\r\n            prometheusMetricName: vllm:kv_cache_usage_perc\r\n            filter:\r\n               matchLabels:\r\n                 label: v1&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d542fcbb0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この構成を作成したら、&lt;/span&gt;&lt;code style="vertical-align: baseline;"&gt;AutoscalingMetric&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; コントローラを使用して、定義したばかりの指標に HPA を設定するだけです。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;apiVersion: autoscaling/v2\r\nkind: HorizontalPodAutoscaler\r\n...\r\nmetrics:\r\n  - type: Pods\r\n    pods:\r\n      metric:\r\n        name: autoscaling.gke.io|vllm-autoscaling-metric|kv_cache_usage_perc&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d81b50e80&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これで完了です。GKE のカスタム指標のネイティブ サポートにより、任意のワークロードからゲージ指標を選択し、HPA のトリガー値として使用できます。この 2 つの簡単なステップで、上で説明した設定のプロセス全体が置き換えられます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ぜひお試しください&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE のカスタム指標のネイティブ サポートは、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;インテントベースの自動スケーリング &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;に向けた取り組みの第一歩にすぎません。インテントベースの自動スケーリングでは、現在 SLO を定義するのと同様に、ワークロードに必要なパフォーマンスを簡単に定義できます。LLM の GPU 使用率の最適化、バースト性の高いバッチジョブの管理、高度にスケールするエージェント ワークロードや、その他のミッション クリティカルなサービスの実行の際に、GKE では CPU やメモリのリソース指標を使用するのではなく、実際のワークロード指標に基づいてスケーリング戦略をシンプルかつ効率的に実現できるようになりました。ネイティブのカスタム指標の使用を開始するには、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/expose-custom-metrics-autoscaling"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;GKE、シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Valentin Hamburger&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Nabil Dabouz&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 13 Mar 2026 01:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-now-supports-custom-metrics-natively/</guid><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>独自の成長を促進: GKE のカスタム指標のネイティブ サポートを導入</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-now-supports-custom-metrics-natively/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Valentin Hamburger</name><title>Senior Product Manager, GKE</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Nabil Dabouz</name><title>Software Engineer</title><department></department><company></company></author></item><item><title>GKE Inference Gateway で Vertex AI のレイテンシを 35% 削減した方法</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/how-gke-inference-gateway-improved-latency-for-vertex-ai/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 2 月 7 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/how-gke-inference-gateway-improved-latency-for-vertex-ai?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;生成 AI が試験運用から本番環境に移行するにつれて、プラットフォーム エンジニアは、低レイテンシ、高スループット、管理可能なコストの実現という、推論サービングに関する共通の課題に直面します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;バランスを取るのは簡単ではありません。トラフィック パターンは、大量のデータを処理する必要がある複雑なコーディング タスクから、即座の返信が求められるくだけた会話まで、多岐にわたります。標準的なインフラストラクチャでは多くの場合、両方を効率的に処理するのは簡単ではありません。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Google のソリューション: &lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;この問題を解決するため、Vertex AI エンジニアリング チームは &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway?hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を採用しました。標準の Kubernetes Gateway API をベースに構築された Inference Gateway は、2 つの重要なインテリジェンス レイヤを追加することで、スケーリングの問題を解決します。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;負荷認識ルーティング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; モデルサーバーの Prometheus エンドポイントからリアルタイムの指標（KV キャッシュ使用率など）を直接スクレイピングし、リクエストを最も迅速に処理できる Pod にルーティングします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;コンテンツ認識ルーティング:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; リクエストの接頭辞を検査し、そのコンテキストが KV キャッシュにすでに存在する Pod にリクエストをルーティングすることで、費用のかかる再コンピューティングを回避します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Vertex AI は、本番環境のワークロードをこのアーキテクチャに移行することで、この二重型のインテリジェンスが大規模なパフォーマンスを実現する鍵であることを証明しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ここでは、Vertex AI によってサービング スタックがどのように最適化されたかについて説明し、これらのパターンを独自のプラットフォームに適用して厳格なテールレイテンシ保証を実現する方法、キャッシュ効率を最大化してトークンあたりのコストを削減する方法、カスタム スケジューラの構築に伴うエンジニアリング オーバーヘッドを排除する方法をご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;結果: 本番環境規模で実証済み&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Vertex AI モデルサーバーの前に GKE Inference Gateway を配置することで、標準的なロード バランシング アプローチと比較して、速度と効率の両面で大きな成果を上げることができました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Vertex-AI-Latency-Comparison.png5w.max-1000x1000.png"
        
          alt="Vertex-AI-Latency-Comparison.png5w"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの結果は、コンテキストを多用するコーディング エージェントから高スループットの会話モデルまで、さまざまな AI ワークロードの本番環境トラフィックで実証されました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;レスポンス速度が 35% 向上:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; GKE Inference Gateway を使用することで、Vertex AI は Qwen3-Coder の最初のトークンまでの時間（TTFT）のレイテンシを 35% 以上短縮しました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;テール レイテンシが 2 分の 1 に改善:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; バースト性の高いチャット ワークロードの場合、Vertex AI は GKE Inference Gateway を使用することで、Deepseek V3.1 の最初のトークンまでの時間（TTFT）P95 レイテンシを 2 分の 1（52%）に改善しました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;効率が 2 倍:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; ゲートウェイの接頭辞キャッシュ保存対応機能を活用することで、Vertex AI は GKE Inference Gateway を採用して接頭辞キャッシュ ヒット率を 2 倍（35% から 70%）にしました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/Cache-Hit-Rate-Charto.max-1000x1000.png"
        
          alt="Cache-Hit-Rate-Charto"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;詳細: 高パフォーマンスなサービングのための 2 つのパターン&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本番環境グレードの推論ルーターの構築は、AI トラフィックが単一のプロファイルではないため、見かけよりも複雑です。Vertex AI では、ワークロードが 2 つの異なるトラフィック パターンに分類され、それぞれに異なる最適化戦略が必要であることがわかりました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;コンテキストを多用するワークロード（コーディング エージェントなど）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; これらのリクエストには、持続的なコンピューティング負荷を生み出す大規模なコンテキスト ウィンドウ（コードベース全体の分析など）が含まれます。ここでボトルネックとなるのは、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;再コンピューティングのオーバーヘッド&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;バースト性の高いワークロード（例: チャット）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; これは、短いクエリの予測不可能で確率的な急増です。ここでボトルネックとなるのは、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;キューの輻輳&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;です。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;両方のトラフィック プロファイルを同時に処理するために、Vertex AI が GKE Inference Gateway を使用して解決した 2 つの具体的なエンジニアリング上の課題を以下に示します。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;1. 多目的ロード バランシングのチューニング&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;標準的なラウンドロビン ロードバランサは、特定のプロンプトのキャッシュされた KV ペアをどの GPU が保持しているかを認識しません。これは、キャッシュミスが発生すると大量の入力を最初から再処理しなければならなくなる「コンテキストを多用する」ワークロードでは特に非効率的です。ただし、キャッシュ アフィニティのみを考慮したルーティングは危険な場合があります。全員が同じ人気のドキュメントをリクエストすると、1 つのノードが過負荷になり、他のノードはアイドル状態になります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;解決策:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; GKE Inference Gateway の多目的チューニングでは、競合するシグナルのバランスをとる構成可能なスコアラーを使用します。新しいチャットモデルのロールアウト中、Vertex チームは prefix:queue:kv-utilization の重みを調整しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;比率をデフォルトの &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;3:3:2&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; から &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;3:5:2&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; に変更（キューの深さをわずかに優先）することで、キャッシュ ヒットが発生した場合でも、スケジューラが「ホット」ノードをバイパスするようにしました。この構成変更により、トラフィックの分散がすぐにスムーズになり、高い効率が維持されました。接頭辞キャッシュ ヒット率は 35% から 70% に倍増しました。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;2. バースト性の高いトラフィックのキュー深度の管理&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;推論プラットフォームは、特に突然の同時バーストによる負荷の変動に対処するのが難しいことがよくあります。保護がないと、これらのリクエストによってモデルサーバーが飽和状態になり、リソースの競合が発生して、キュー内のすべてのユーザーに影響が及ぶ可能性があります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;解決策:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; これらのリクエストがモデルサーバーに直接到達するのを防ぐために、GKE Inference Gateway は、Ingress レイヤでアドミッション コントロールを適用します。キューを上流で管理することで、個々の Pod がリソース不足になるのを防ぐことができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;データは価値を証明しています。レイテンシの中央値は安定したままですが、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;P95 レイテンシが 52% 改善&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;されたことは、負荷が高いときに AI アプリケーションを悩ませることの多い分散をゲートウェイがうまく吸収したことを示しています。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;プラットフォーム構築者にとっての意味&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ここから得られる教訓は、スケジューラを再発明する必要はないということです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;カスタム インフラストラクチャを維持する代わりに、GKE Inference Gateway を使用できます。これにより、Google 社内のワークロードで実績のあるスケジューラにアクセスできるようになり、メンテナンスのオーバーヘッドなしで、飽和から確実に保護できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;準備ができたら、&lt;/strong&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/deploy-gke-inference-gateway?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をワークロード用に構成する方法をご確認ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;プロダクト マネージャー&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;、Fisayo Feyisetan&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;- &lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;ソフトウェア エンジニア&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;、Yao Yuan&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 13 Feb 2026 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/how-gke-inference-gateway-improved-latency-for-vertex-ai/</guid><category>AI &amp; Machine Learning</category><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>GKE Inference Gateway で Vertex AI のレイテンシを 35% 削減した方法</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/how-gke-inference-gateway-improved-latency-for-vertex-ai/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Fisayo Feyisetan</name><title>Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Yao Yuan</name><title>Software Engineer</title><department></department><company></company></author></item><item><title>ノードプールの高速な同時自動作成により GKE クラスタの自動スケーリングを加速</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/faster-gke-node-pool-auto-creation/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2026 年 1 月 29 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/faster-gke-node-pool-auto-creation?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このたび、Google Kubernetes Engine（GKE）におけるノードプールの同時自動作成機能をリリースしました。これにより、プロビジョニングのレイテンシが大幅に減少し、自動スケーリングのパフォーマンスが向上します。社内ベンチマークでは、プロビジョニング速度が最大 85% 向上しています。デプロイ時間が短縮され、グッドプットが向上するため、特に異種ワークロード、マルチテナント クラスタ、複数の ComputeClass 優先度を使用するワークロード、大規模な AI トレーニング ワークロードで効果を発揮します。この機能改良はすでに組み込まれており、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/node-auto-provisioning"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;保留中の Pod のノードプールを GKE が自動的に作成できるように設定&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;すると適用されます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;問題点&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE の&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/node-pools"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ノードプール&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、同じ構成のノードをグループ化し、サイズ変更やアップグレードなどのオペレーションを統合します。空のノードプールの新規作成には 30～45 秒かかります。GKE では、Pod のリソースのニーズに基づいて、ノードプールの作成を自動化できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE ノード自動プロビジョニング（NAP）の以前のバージョンでは、オペレーションを 1 つずつ実行していたため、デプロイとスケーリングのレイテンシが増加していました。この点は、複数のノードプールを必要とするクラスタで特に顕著でした。新しいノードプールを 1 つ作成するのに必要な 30～45 秒が積み重なって、クラスタの自動スケーリングの全体的な応答性に影響を与えていました。ノードプールの作成中、他のノードプールのオペレーションは待機する必要がありました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE ノードプールの自動作成機能は、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-autopilot-mode-standard-clusters"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Autopilot クラスタと Standard クラスタ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;のどちらで使用するかにかかわらず、Autopilot モードの中核となる機能です。また、GKE Standard モードで運用している場合でも、必要に応じて使用できます。Autopilot によって新しい仮想マシン（VM）シェイプが追加されるたびに、内部で自動的にノードプールが作成されます。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;解決策&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ノードプールの同時作成がサポートされることで、システムが複数のオペレーションを同時に処理できるようになり、これまでより迅速にクラスタをデプロイして、さまざまなノードタイプにスケールアウトできます。この機能改良は、バージョン 1.34.1-gke.1829001 以降で有効です。GKE を最新バージョンにアップグレードするだけで、この機能改良をご利用いただけます。追加の構成は必要ありません。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_yI6qepE.max-1000x1000.png"
        
          alt="image2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ベンチマークを実行して結果を直接確認する場合は、&lt;/span&gt;&lt;a href="https://gist.github.com/pmendelski/a0bc56e7d1d8365c3d050df8296f29a6" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ベンチマーク コード&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;ノードプールの同時作成が重要な理由&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ノードプールの同時自動作成は、幅広い GKE ユースケースに大きなメリットをもたらします。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;異種ワークロードとマルチテナント クラスタ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; - AI や ML を含む多くのワークロードでは個別のノードプールが必要であり、1 つのクラスタで複数のテナントに対応することがよくあります。この結果、構成が異なる複数のノードプールが必要になり、これらを 1 つのクラスタ内で迅速かつ効率的にデプロイまたは管理しなければなりません。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;AI ワークロードとマルチホスト TPU スライス&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; - 多くの&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/tpus#multi-host"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;マルチホスト TPU スライス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用するワークロードでは、スライスごとに個別のノードプールが必要です。複数の新しいノードプールを迅速かつ同時に作成できるため、スケーリングを迅速に行うことができます。一般に、ノードプールが同時に自動作成されることで、AI ワークロードはプロビジョニングのパフォーマンスとリソース使用率（グッドプット）の向上という恩恵を受けることができます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;スポット インスタンスと複数の ComputeClass 優先度による費用の最適化&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; - &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/preemptible-vms"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;プリエンプティブル ノード&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、構成が同一であっても、プリエンプティブルでないノードプールとは別のノードプールに分離する必要があります。一般に、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-custom-compute-classes#choose-priorities"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム ComputeClass 優先度&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は通常、別々のノードプールで表されます。つまり、クラスタには多くの場合、異なる優先度に対応する個別のノードプールがあります。並列処理を使用することで、これらのシナリオにより適切に対処できるようになりました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h4&gt;&lt;strong style="vertical-align: baseline;"&gt;プロビジョニングの高速化と起動時間の短縮&lt;/strong&gt;&lt;/h4&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、お客様の GKE 環境のパフォーマンス強化に尽力しています。ノードプールの同時自動作成は、プロビジョニングのパフォーマンスを向上させる取り組みの一つです。また、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/fast-starting-nodes"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;高速起動ノード&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;によるノード起動レイテンシの改善、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/image-streaming?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;イメージ ストリーミング&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;によるコンテナ pull レイテンシの改善、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/autopilot-overview#autopilot-compute-platform"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;コンテナ最適化コンピューティング プラットフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;による Pod スケジューリング レイテンシの改善にも取り組んでいます。詳細と利用方法については、以下のリソースをご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/node-auto-provisioning"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ノードプールの自動作成を使用する&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/node-auto-provisioning"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ノードプールの自動作成&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/node-pools"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ノードプール&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/fast-starting-nodes"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;高速起動ノードによるワークロードの高速起動&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/autopilot-overview#autopilot-compute-platform"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Autopilot のコンテナ最適化コンピューティング プラットフォーム&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-autopilot-mode-standard-clusters"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Standard の Autopilot モードのワークロード&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- GKE、シニア ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Daniel Kłobuszewski, &lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;- GKE、プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Eyal Yablonka&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 02 Feb 2026 02:30:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/faster-gke-node-pool-auto-creation/</guid><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>ノードプールの高速な同時自動作成により GKE クラスタの自動スケーリングを加速</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/faster-gke-node-pool-auto-creation/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Daniel Kłobuszewski</name><title>Software Engineer, GKE</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Eyal Yablonka</name><title>Product Manager, GKE</title><department></department><company></company></author></item><item><title>Google の事例: 130,000 ノードで構成される世界最大級の Kubernetes クラスタの構築</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/how-we-built-a-130000-node-gke-cluster/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 22 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/how-we-built-a-130000-node-gke-cluster?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud では、ますます要求が厳しくなってきているワークロード、特に AI に対応できるように、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Google Kubernetes Engine（GKE）&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;のスケーラビリティを絶えず向上させています。GKE はすでに&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-65k-nodes-and-counting?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;大規模な &lt;/span&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;65,000 ノードのクラスタ&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をサポートしており、KubeCon では、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;130,000 ノードのクラスタを試験運用版モードで&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;正常に稼働させたことを発表しました。これは、公式にサポートおよびテストされた上限の 2 倍のノード数にあたります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このようなスケーリングは、単にノードの絶対数を増やすだけではありません。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Pod の作成&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;や&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;スケジューリングのスループット&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;など、他の重要なディメンションもスケールする必要があります。たとえば、このテストでは、最適化された分散ストレージに &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;100 万を超えるオブジェクト&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を保存しながら、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;1,000 Pod / 秒&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;のスループットを維持しました。このブログでは、こうしたメガクラスタの需要を牽引するトレンドを検証し、この極めて高いスケーラビリティを実現するために Google が実装したアーキテクチャのイノベーションについて詳しくご説明します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;メガクラスタの台頭&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の大手企業のお客様は、AI ワークロードを通じて GKE のスケーラビリティとパフォーマンスの限界を積極的に押し広げています。実際、2 万～6 万 5,000 ノードの範囲でクラスタを運用しているお客様はすでに多数いらっしゃいます。また、大規模クラスタの需要は 10 万ノード前後で安定すると予想されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これは興味深いダイナミクスを生み出します。つまり、チップの供給が制約となる世界から、電力の供給が制約となる世界へと移行しつつあるのです。NVIDIA GB200 GPU 1 個あたり 2,700 W の電力を必要とすることを考えてみてください。チップが数万個、あるいはそれ以上搭載される場合、単一クラスタの電力消費量は数百メガワットにまで容易にスケールする可能性があります。この場合、複数のデータセンターに分散されるのが理想的です。したがって、10 万ノードを超える AI プラットフォームでは、クラスタやデータセンター全体で分散トレーニングや強化学習をオーケストレートできる、堅牢なマルチクラスタ ソリューションが必要になります。この大きな課題に対処するため、Google は&lt;/span&gt;&lt;a href="https://kueue.sigs.k8s.io/docs/concepts/multikueue/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt; MultiKueue &lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;などのツールに積極的に投資しており、さらなるイノベーションを視野に入れています。また、最近発表された&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/networking/introducing-managed-dranet-in-google-kubernetes-engine?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;マネージド DRANET&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; により高性能 RDMA ネットワーキングも進化しており、大規模 AI ワークロードのパフォーマンスを最大化するため、トポロジ認識を向上させています。今後の情報にご注目ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;同時に、こうした投資は、GKE のお客様の大多数を占める、より小規模な運用を行うユーザーにもメリットをもたらします。GKE のコアシステムを過酷な使用環境に耐えられるように強化することで、平均的なクラスタに十分な余裕が生まれ、エラーに対する耐性が向上し、ユーザーによる Kubernetes API の誤用に対する許容度が高まり、一般にすべてのコントローラが最適化されてパフォーマンスが向上します。そしてもちろん、規模の大小を問わず、すべての GKE のお客様が、直感的なセルフサービス エクスペリエンスへの投資から恩恵を受けることができます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;主なアーキテクチャのイノベーション&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;とはいえ、このレベルのスケールを実現するには、コントロール プレーン、カスタム スケジューリング、ストレージなど、Kubernetes エコシステム全体にわたる大きなイノベーションが必要です。このプロジェクトにおいて重要であった主な領域をいくつか見てみましょう。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;読み取りのスケーラビリティの最適化&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な運用においては、強整合性と、スナップショット可能な API サーバーのウォッチ キャッシュが必要になります。ノード数が 130,000 になると、API サーバーへの読み取りリクエストの量が膨大になり、中央のオブジェクト データストアが圧倒される可能性があります。これを解決するために、Kubernetes には、これらの読み取りリクエストを中央のオブジェクト データストアからオフロードする複数の補完的な機能が組み込まれています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;まず、&lt;/span&gt;&lt;a href="https://kubernetes.io/blog/2024/08/15/consistent-read-from-cache-beta/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;で詳しく説明されている「キャッシュからの整合性のある読み取り機能」（KEP-2340）により、API サーバーがそのメモリ内キャッシュから直接、強整合性のあるデータを提供できるようになります。これにより、フィルタされたリスト リクエスト（例: 「特定のノード上のすべての Pod」）などの一般的な読み取りパターンにおいて、オブジェクト ストレージ データベースへの負荷が大幅に軽減されます。これは、リクエストを処理する前にキャッシュのデータが検証可能な最新状態であることを保証することで実現されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これを基盤にして、スナップショット可能な API サーバー キャッシュ機能（KEP-4988）では、API サーバーが以前の状態に対する LIST リクエスト（ページネーション経由または &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;resourceVersion&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; の指定による）を、同じ整合性のあるウォッチ キャッシュから直接処理できるようにすることで、パフォーマンスをさらに向上させています。特定のリソース バージョンでキャッシュの B-tree「スナップショット」を生成することにより、API サーバーはデータストアに繰り返しクエリを実行することなく、後続の LIST リクエストを効率的に処理できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これら 2 つの機能強化を組み合わせることで、読み取り増幅の問題に対処し、強整合性のあるフィルタされた読み取りと以前の状態のリスト リクエストの両方をメモリから直接提供することで、API サーバーの高速性と応答性を維持できるようにします。これは、極めて大規模な環境においてクラスタ全体のコンポーネントの健全性を維持するために不可欠です。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;最適化された分散ストレージ バックエンド&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;クラスタの大規模なスケールを支えるため、Google の分散データベース「Spanner」に基づく独自の Key-Value ストアを採用しました。13 万ノードでは、リース オブジェクトの更新に 13,000 QPS が必要でした。そのため、ノードのヘルスチェックなどの重要なクラスタ オペレーションがボトルネックにならず、システム全体が確実に動作するために必要な安定性が確保されました。新しいストレージ システムではボトルネックは発生せず、より大規模なスケールをサポートできない兆候もありませんでした。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;高度なジョブ キューイングのための Kueue&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;デフォルトの Kubernetes スケジューラは個々の Pod をスケジュールするように設計されていますが、複雑な AI / ML 環境では、より高度なジョブレベルの管理が必要になります。&lt;/span&gt;&lt;a href="https://kueue.sigs.k8s.io/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Kueue&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、Kubernetes にバッチシステム機能を提供するジョブ キューイング コントローラです。公正な共有ポリシー、優先度、リソース割り当てに基づいてジョブを承諾するタイミングを決定し、ジョブ全体に対して「オール オア ナッシング」のスケジューリングを可能にします。デフォルトのスケジューラをベースに構築された Kueue は、ベンチマークにおいて競合するトレーニング、バッチ、推論ワークロードの複雑な組み合わせを管理するために必要なオーケストレーションを提供しました。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;スケジューリングの未来: ワークロード認識の強化&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kueue のジョブレベルのキューイング以外にも、Kubernetes エコシステムは、そのコアにおいてワークロードを考慮したスケジューリングへと進化しています。目標は、スケジューリングにおいて Pod 中心のアプローチからワークロード中心のアプローチに移行することです。つまり、スケジューラが利用可能な容量と潜在的な容量の両方を含めて、ワークロード全体のニーズを単一のユニットとして考慮して配置を決定します。この包括的な視点は、特に新たな AI / ML トレーニングと推論ワークロードにおいて費用対効果を最適化するために不可欠です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新たに登場した Kubernetes スケジューラの重要な側面の一つが、Kubernetes 内でのギャング スケジューリング セマンティクスのネイティブな実装です。この機能は現在、Kueue などのアドオンによって提供されています。コミュニティは、&lt;/span&gt;&lt;a href="https://github.com/kubernetes/enhancements/tree/master/keps/sig-scheduling/4671-gang-scheduling" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;KEP-4671: ギャング スケジューリング&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を通じてこの問題に積極的に取り組んでいます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;将来的には、コア Kubernetes でワークロードを考慮したスケジューリングがサポートされるようになり、GKE での大規模かつ緊密な結合アプリケーションのオーケストレーションが簡素化され、要求の厳しい AI / ML および HPC のユースケースに対応するプラットフォームがさらに強化されます。また、GKE 内で Kueue を二次レベルのスケジューラとして統合する取り組みも進めています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;データアクセス向け GCS FUSE&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI ワークロードは、データに効率的にアクセスできる必要があります。並列ダウンロードと&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/cloud-storage-fuse-csi-driver-perf#enable-and-use-file-caching"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;キャッシュ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を有効化した &lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/persistent-volumes/cloud-storage-fuse-csi-driver"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Cloud Storage FUSE&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と、ゾーン単位の &lt;/span&gt;&lt;a href="https://cloud.google.com/storage/docs/anywhere-cache"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Anywhere Cache&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を組み合わせることで、Cloud Storage バケット内のモデルデータにローカル ファイル システムと同様にアクセスできるようになり、レイテンシが最大 70% 削減されます。これにより、分散ジョブやスケールアウト推論ワークフローにデータを供給するための、スケーラブルで高スループットのメカニズムが提供されます。あるいは、&lt;/span&gt;&lt;a href="https://cloud.google.com/managed-lustre/docs/overview"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud Managed Lustre&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; という選択肢もあります。これは、フルマネージドの永続的なゾーン ストレージ ソリューションであり、数ペタバイトの容量、TB / 秒単位のスループット、ミリ秒未満のレイテンシを必要とするワークロードをサポートします。AI / ML ワークロード向けのストレージ オプションについて詳しくは、&lt;/span&gt;&lt;a href="https://cloud.google.com/architecture/ai-ml/storage-for-ai-ml"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;大規模かつ動的な AI ワークロード向け GKE のベンチマーク&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模な AI / ML ワークロードにおける GKE のパフォーマンスを検証するため、複雑なリソース管理や優先順位付け、スケジューリングの課題を伴う動的環境をシミュレートする、4 つのフェーズからなるベンチマークを設計しました。これは、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/benchmarking-a-65000-node-gke-cluster-with-ai-workloads"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;前回の 65,000 ノードのスケールテスト&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;で使用されたベンチマークに基づいて構築されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ベンチマークをアップグレードして優先度クラスが異なるワークロードを使用することで、混合ワークロードをホストする一般的な AI プラットフォームを表すようにしました。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;低い優先度:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; データ準備ジョブなどのプリエンプティブルなバッチ処理。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;中程度の優先度:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 重要ではあるが多少のキューイングは許容されるコアモデルのトレーニング ジョブ。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;高い優先度:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; リソースが保証される必要がある、レイテンシの影響を受けやすいユーザー向けの推論サービス。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;割り当てとリソース共有を管理する Kueue と、トレーニング ジョブを管理する JobSet を使用して、プロセスをオーケストレートしました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;フェーズ 1: 大規模なトレーニング ジョブによるパフォーマンスのベースラインの確立&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;まず、単一の大規模なトレーニング ワークロードをスケジュールし、クラスタの基本的なパフォーマンスを測定します。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;130,000 個の中優先度の Pod&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; を同時に実行するように構成された &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;JobSet&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; を 1 つデプロイします。この初期テストでは、Pod の起動レイテンシや全体的なスケジューリング スループットなどの主要な指標のベースラインを確立し、クリーンなクラスタ上で大規模なワークロードを起動する際のオーバーヘッドを明らかにします。これにより、より複雑な条件下における GKE のパフォーマンスを評価する準備が整いました。実行後、この JobSet をクラスタから削除し、フェーズ 2 用に空のクラスタを残しました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Phase_1__Establishing_a_performance_base.max-1000x1000.png"
        
          alt="1_Phase 1_ Establishing a performance baseline by deploying a massive pre-training workload of 130,000 pods on a clean cluster"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 1: フェーズ 1: クリーンなクラスタ上に 130,000 個の Pod からなる大規模な事前トレーニング ワークロードをデプロイしてパフォーマンスのベースラインを確立する。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;フェーズ 2: 現実的な混合ワークロード環境のシミュレーション&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;次に、一般的な MLOps 環境をシミュレートするために、リソースの競合を導入しました。まず、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;650 個の低い優先度のバッチジョブ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（合計 65,000 個の Pod）をデプロイし、クラスタの 130,000 個のノードの容量の半分を埋めました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Phase_2__Simulating_a_realistic_MLOps_en.max-1000x1000.png"
        
          alt="2_Phase 2_ Simulating a realistic MLOps environment by introducing 65,000 low-priority batch job pods to fill 50_ of cluster capacity"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 2: フェーズ 2: 65,000 個の低い優先度のバッチジョブ Pod を導入してクラスタ容量の 50% を埋め、現実的な MLOps 環境をシミュレートする。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;次に、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;8 つの大規模な中優先度のファインチューニング ジョブ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（合計 104,000 個の Pod）を導入し、クラスタ容量の 80% を占有して、バッチ ワークロードの 60%（クラスタ容量全体の 30% に相当）をプリエンプトしました。このフェーズでは、GKE が混合ワークロードを管理する能力と、混合ワークロード環境内でのプリエンプションをテストしました。このシナリオでは、Kueue が実際に動作して既存のワークロードをプリエンプトし、多数のバッチジョブを一度にギャング スケジューリングすることで、ファインチューニング ジョブをスケジュールできるようにする様子を確認しました。これにより、Kueue が kube-scheduler よりも優れている点が明らかになりました。プリエンプションがはるかに高速になり、ワークロードの切り替えがほぼ瞬時に行われます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Kueue_in_Action__Preempting_low-priority.max-1000x1000.png"
        
          alt="3_Kueue in Action_ Preempting low-priority batch workloads to accommodate 104,000 pods for higher-priority fine-tuning jobs"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 3: Kueue の動作: 優先度の高いファインチューニング ジョブ用に 104,000 個の Pod を確保するため、優先度の低いバッチ ワークロードをプリエンプトする。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;フェーズ 3: レイテンシの影響を受けやすい推論サービスの優先順位付けとスケーリング&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このフェーズでは、優先度の高い&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;ジョブ&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;をデプロイすることで、合計 26,000 個の Pod（容量の 20%）で重要な推論サービスの導入をシミュレートしました。これに対応するため、Kueue は&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;残りの優先度の低いバッチジョブをプリエンプト&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;しました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/4_Phase_3__Prioritizing_a_critical_latency.max-1000x1000.png"
        
          alt="4_Phase 3_ Prioritizing a critical, latency-sensitive inference service (26,000 pods) by preempting lower-priority batch jobs"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 4: フェーズ 3: 優先度の低いバッチジョブの残りをプリエンプトすることで、レイテンシの影響を受けやすい重要な推論サービス（26,000 個の Pod）を優先する。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;次に、推論ワークロードをスケーリングしてトラフィックの急増をシミュレートし、まず中優先度のファインチューニング ジョブの一部をプリエンプトしました。推論ワークロードは、合計 &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;52,000 個の Pod&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（容量の 40% に相当）にスケールアップされます。完全にスケールした後、10 分間のトラフィック シミュレーションを実行し、負荷がかかった状態でのパフォーマンスを測定しました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/5_Simulating_a_traffic_spike__Scaling_the_.max-1000x1000.png"
        
          alt="5_Simulating a traffic spike_ Scaling the inference workload to 52,000 pods (40_ capacity) triggers further preemption of fine-tuning jobs"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 5: トラフィックの急増をシミュレートする。推論ワークロードを 52,000 個の Pod（容量の 40%）にスケーリングすると、ファインチューニング ジョブの部分的なプリエンプションがトリガーされる。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;フェーズ 4: クラスタの弾力性とリソースの回復の検証&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最後に、ピーク需要がすぎた後、クラスタがリソースを効率的に回復して再割り当てする能力を評価しました。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;優先度の高い推論ワークロードを 50% スケールダウン&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;し、元の初期フェーズに戻しました。これにより GKE の弾力性が実証され、ワークロードの需要が変化しても貴重なコンピューティング リソースがアイドル状態にならないことが保証されたため、使用率と費用対効果が最大化されました。ここでも、Kueue がクラスタキューで待機していたプリエンプトされたファインチューニング ワークロードの再承諾を処理しました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/6_Phase_4__Demonstrating_cluster_elasticit.max-1000x1000.png"
        
          alt="6_Phase 4_ Demonstrating cluster elasticity by scaling down the inference workload and automatically recovering resources for pending batch jobs"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 6: フェーズ 4: 推論ワークロードをスケールダウンし、保留中のファインチューニング ジョブのリソースを自動的に回復することで、クラスタの弾力性を実証する。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ベンチマークが完了して得られたデータから、GKE が極端なスケールのプレッシャーをどのように処理するかが明確に示されました。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE のさまざまな側面にわたるスケーラビリティの実証&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;4 つのベンチマーク フェーズで、複数のパフォーマンスの項目をテストしました。フェーズ 1 では、クラスタは 3 分 40 秒で 130,000 個の Pod にスケールされました。フェーズ 2 では、優先度の低いバッチ ワークロードが 81 秒で作成され、平均スループットは約 750 Pod / 秒でした。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ベンチマークのさまざまなフェーズが強調表示されたワークロードの実行タイムラインの図を以下に示します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/7_Execution_timeline_highlighting_the_four.max-1000x1000.png"
        
          alt="7_Execution timeline highlighting the four distinct phases of the large-scale AI workload benchmark"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 7: 大規模 AI ワークロード ベンチマークの 4 つの異なるフェーズが強調表示された実行タイムライン。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;全体として、ベンチマークでは、優先度の低いジョブをプリエンプトして重要なトレーニング サービスと推論サービスのためのスペースを確保することで、変動する需要を管理する GKE の能力が実証され、クラスタの弾力性とリソースの再割り当ての能力が示されました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/8_Total_number_of_running_workload_pods_ov.max-1000x1000.png"
        
          alt="8_Total number of running workload pods over time, demonstrating GKE_s ability to maintain high utilization through dynamic preemption and resource reallocation"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 8: 実行中のワークロード Pod の総数の推移。動的なプリエンプションとリソースの再割り当てを通じて GKE が高い使用率を維持できることを示している。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Kueue によるインテリジェントなワークロード管理&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このベンチマークでは、Kueue はワークロードの優先順位付けを可能にする重要なコンポーネントでした。フェーズ 2 では、Kueue はバッチ ワークロードの 60%（クラスタ容量の 30%）をプリエンプトして、中優先度のジョブのスペースを確保しました。残りはフェーズ 3 でプリエンプトされ、優先度の高い推論ワークロードのスペースが確保されました。緊急タスクが優先されるこのシミュレーションは一般的な運用シナリオであり、この大規模なプリエンプションは、GKE と Kueue の組み合わせによって、最も重要なジョブにリソースを動的に割り当てられることを示しています。フェーズ 2 のピーク時には、93 秒で 39,000 個の Pod がプリエンプトされました。バッチ ワークロードのプリエンプションと、ファインチューニング ワークロードの承諾および作成中の Pod のチャーンは、以下のように、中央値が 990 Pod / 秒、平均が 745 Pod / 秒に達しました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/9_API_request_throughput_during_preemption.max-1000x1000.png"
        
          alt="9_API request throughput during preemption events, showing a mix of POST and DELETE requests averaging 745 operations per second"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 9: プリエンプション イベント中の API リクエスト スループット。POST リクエストと DELETE リクエストが混在しており、Pod のチャーンは平均 745 Pod / 秒。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kueue からの承諾済みワークロードと削除済みワークロードのステータスを確認すると、多くのバッチ ワークロードが最初は承諾されたものの、その後ファインチューニングと推論ワークロードによってプリエンプトされたことがわかります。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/10_Workload_status_over_time_visualizing_t.max-1000x1000.png"
        
          alt="10_Workload status over time, visualizing the volume of jobs admitted versus those preempted (evicted) by Kueue as priorities shifted"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 10: ワークロードのステータスの推移。優先度の変化に伴い、Kueue によって受け入れられたジョブ数とプリエンプト（削除）されたジョブ数を可視化している。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;1,000 Pod / 秒の超高速スケジューリング&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes のコントロール プレーンのパフォーマンスを測る重要な指標は、Pod を迅速に作成してスケジュールする能力です。ベンチマーク全体を通して、特に最も負荷の高いフェーズでは、GKE は Pod の作成と Pod のバインディング（Pod をノードにスケジュールする行為）の両方で、最大 1,000 オペレーション / 秒のスループットを安定して達成しました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/11_Control_plane_throughput__Sustaining_up.max-1000x1000.png"
        
          alt="11_Control plane throughput_ Sustaining up to 1,000 operations per second for both Pod creations and Pod bindings during intense scheduling phases"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 11: コントロール プレーンのスループット: スケジューリングが集中するフェーズで、Pod の作成と Pod のバインディングの両方で最大 1,000 オペレーション / 秒を維持する。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/12_Detailed_Pod_creation_throughput_statis.max-1000x1000.png"
        
          alt="12_Detailed Pod creation throughput statistics (Average, Max, P50, P90, P99) across large pre-training, batch, and fine-tuning workloads"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 12: 大規模な事前トレーニング、バッチ、ファインチューニングのワークロードにおける、Pod 作成のスループットに関する詳細な統計情報（平均、最大、P50、P90、P99）。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;Pod の低い起動レイテンシ&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;同時に、Pod 作成のスループットは、あらゆるワークロード タイプにおいて Pod の低い起動レイテンシと一致していました。レイテンシの影響を受けやすい推論ワークロードの場合、99 パーセンタイル（P99）の起動時間は約 10 秒で、需要に応じてサービスを迅速にスケールできることが保証されています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/13_Pod_startup_latency_across_workload_typ.max-1000x1000.png"
        
          alt="13_Pod startup latency across workload types, highlighting a P99 latency of approximately 10 seconds for latency-sensitive inference workloads"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 13: ワークロード タイプ別の Pod の起動レイテンシ。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;極端な負荷下におけるコントロール プレーンの安定性&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;テスト全体を通して、GKE のクラスタ コントロール プレーンは安定していました。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;単一のデータベース レプリカ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;内のオブジェクトの合計数はピーク時に &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;100 万&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を超えましたが、重要なオペレーションにおける API サーバーのレイテンシは、定義されたしきい値を大幅に下回っていました。これにより、この規模であってもクラスタが応答性と管理性を維持できることが確認されました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/14_API_Server_latency_for_GET_and_LIST_ope.max-1000x1000.png"
        
          alt="14_API Server latency for GET and LIST operations, remaining stable and well below defined thresholds despite the massive cluster scale"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 14: GET オペレーションと LIST オペレーションにおける API サーバーのレイテンシ。クラスタが大規模であるにもかかわらず、定義されたしきい値を大幅に下回り、安定している。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/15_API_request_duration_broken_down_by_ver.max-1000x1000.png"
        
          alt="15_API request duration broken down by verb (GET, POST, PUT, PATCH, DELETE), confirming consistent response times under load"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 15: 動詞（GET、POST、PUT、PATCH、DELETE）別に分類された API リクエストの所要時間。負荷下でも応答時間が一定であることが確認できる。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/16_Duration_for_LIST_operations_specifical.max-1000x1000.png"
        
          alt="16_Duration for LIST operations specifically, remaining stable throughout the benchmark phases"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 16: LIST オペレーションの所要時間。ベンチマークのフェーズ全体で安定している。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/17_Total_count_of_Kubernetes_objects_inclu.max-1000x1000.png"
        
          alt="17_Total count of Kubernetes objects (including Pods, Leases, and Nodes) in the database, exceeding 1 million objects at peak scale"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bg5hr"&gt;図 17: データベース内の Kubernetes オブジェクト（Pod、Lease、Node を含む）の総数。100 万個を超えている。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;リンク先: 大規模なスケール&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この実験では、GKE が現在のパブリック制限をはるかに超える規模で AI および ML ワークロードをサポートできることが実証されました。さらに、この規模で運用したことで得られた分析情報は、GKE の今後の開発計画に役立っています。13 万ノードはまだ正式にはサポートされていませんが、非常に心強い調査結果が得られました。ワークロードでこのレベルのスケールが必要な場合は、Google にお問い合わせのうえ、具体的なニーズについてご相談ください。また、アトランタで開催された KubeCon では、Google のスペシャリストやアナリストが、スケーリングやその他のトピックに関する素晴らしい対談を行いました。&lt;/span&gt;&lt;a href="https://www.thecube.net/events/linux-foundation/kubecon-cloudnativecon-na-2025" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;からぜひご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-ソフトウェア エンジニア &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Besher Massri&lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-グループ プロダクト マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Maciek Różacki&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 26 Dec 2025 17:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/how-we-built-a-130000-node-gke-cluster/</guid><category>GKE</category><category>How Google Does It</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Google の事例: 130,000 ノードで構成される世界最大級の Kubernetes クラスタの構築</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/how-we-built-a-130000-node-gke-cluster/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Besher Massri</name><title>Software Engineer</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Maciek Różacki</name><title>Group Product Manager</title><department></department><company></company></author></item><item><title>NVIDIA Run:ai Model Streamer を使用して GKE 上のモデルのダウンロードを高速化</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/nvidia-runai-model-streamer-supports-cloud-storage/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 12 月 5 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/nvidia-runai-model-streamer-supports-cloud-storage?hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;大規模言語モデル（LLM）のサイズと複雑さが増大し続けるのに伴って、推論のためにストレージからアクセラレータ メモリを読み込む時間が重大なボトルネックになる可能性があります。この「コールド スタート」の問題は、単なる軽微な遅延ではありません。レジリエントかつスケーラブルな費用対効果の高い AI サービスを構築するうえで、大きな障壁となります。モデルの読み込みに費やされる 1 分 1 分は、GPU のアイドル状態、需要に応じたサービスのスケーリングの遅延、ユーザーのリクエストの待機がそれぞれ生じている 1 分です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud と NVIDIA は、こうした障壁を取り除くことに取り組んでいます。AI デベロッパーがまさにそれを実現するのに役立つ、強力なオープンソースのコラボレーションをご紹介できることをうれしく思います。NVIDIA Run:ai Model Streamer にネイティブの &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/storage/docs/introduction?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Cloud Storage&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; サポートが追加され、Google Kubernetes Engine（GKE）上の vLLM 推論ワークロードが大幅に強化されました。GKE 上の Cloud Storage から AI/ML のデータにアクセスする速度がこれまで以上に高速になりました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_uEwzVCo.max-1000x1000.png"
        
          alt="image1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;上のグラフは、デフォルトの vLLM モデルローダと比較して、モデル ストリーマーが 141 GB の Llama 3.3-7 70B モデルを Cloud Storage から取得できる速度を示しています（値が小さいほど高速）。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;コールド スタートを減らしてレジリエンスとスケーラビリティを向上&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes 上で実行される推論サーバーの場合、「コールド スタート」には、コンテナ イメージの pull、プロセスの開始、そして最も時間がかかるモデルの重みの GPU メモリへの読み込みといういくつかのステップが含まれます。大規模モデルの場合、この読み込みフェーズには数分かかることがあり、ワークロードの起動を待機する間に自動スケーリングが遅延したり、GPU のアイドル状態になったりするなど、深刻な影響が生じます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;モデル ストリーマーは、モデルを GPU メモリにストリーミングすることで、起動プロセスで最も時間がかかる可能性のある部分を大幅に短縮します。ストリーマーは、モデル全体がダウンロードされてから読み込まれるのを待つのではなく、オブジェクト ストレージからモデルテンソルを直接取得し、GPU メモリに同時にストリーミングします。これにより、モデルの読み込み時間が数分から数秒に大幅に短縮されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;単一のモデルを分割して複数の GPU で実行するモデル並列処理に依存するワークロードの場合、モデル ストリーマーはさらに一歩進んだ機能を提供します。その分散ストリーミング機能は、&lt;/span&gt;&lt;a href="https://www.nvidia.com/en-us/data-center/nvlink/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;NVIDIA NVLink&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を最大限に活用するよう最適化されており、高帯域幅の GPU 間通信を使用して、複数のプロセス間での読み込みを調整します。ストレージからの重みの読み込みは、参加するすべてのプロセスに効率的かつ均等に分割されます。各プロセスは、モデルの重みの一部をストレージから取得し、そのセグメントを NVLink 経由で他のプロセスと共有します。これにより、マルチ GPU デプロイでも、起動時間の短縮とコールド スタートのボトルネックの低減というメリットが得られます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;パフォーマンスとシンプルさ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Model Streamer の最新のアップデートでは、Cloud Storage のファーストクラスのサポートが導入され、Google Cloud ユーザー向けに統合された高性能なエクスペリエンスが実現します。この統合は、特に GKE 上で実行されるワークロード向けに、シンプルで高速かつ安全になるように設計されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://docs.vllm.ai/en/stable/models/extensions/runai_model_streamer.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;vLLM&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; などの一般的な推論サーバーのユーザーは、vLLM コマンドラインに 1 つのフラグを追加するだけでストリーマーを有効化できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;code style="vertical-align: baseline;"&gt; &lt;/code&gt;&lt;code style="vertical-align: baseline;"&gt;--load-format=runai_streamer&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Cloud Storage バケットに保存されたモデルを vLLM で起動する手順は以下のとおりです。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;vllm serve gs://your-gcs-bucket/path/to/your/model \r\n--load-format=runai_streamer&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d5507e5e0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA Run:ai Model Streamer は、Vertex AI Model Garden の大規模モデルのデプロイに不可欠なコンポーネントです。コンテナ イメージ ストリーミングとモデル ウェイト ストリーミングにより、ユーザーの初回デプロイと自動スケーリングのエクスペリエンスと、NVIDIA GPU の効率を大幅に向上させることができました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE 上で実行する場合、Model Streamer は自動的にクラスタの &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/workload-identity?hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;Workload Identity&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用できます。つまり、サービス アカウント キーを手動で管理してマウントする必要がなくなり、デプロイ マニフェストが簡素化され、セキュリティ ポスチャーが強化されます。以下のデプロイ マニフェストは、GKE 上で Llama3 70B を提供するコンテナを起動する方法を示しています。モデルの並列処理が 1 より大きい場合に読み込みを高速化するモデルローダの&lt;/span&gt;&lt;a href="https://docs.vllm.ai/en/stable/models/extensions/runai_model_streamer/#tunable-parameters" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;分散&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;オプションを追加しました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;apiVersion: apps/v1\r\nkind: Deployment\r\n…\r\n   spec:\r\n     serviceAccountName: gcs-access\r\n     containers:\r\n       - args:\r\n           - --model=gs://your-gcs-bucket/path/to/your/model \r\n           - --load-format=runai_streamer\r\n \t\t- --model-loader-extra-config={&amp;quot;distributed&amp;quot;:true}\r\n\t\t…\r\n         command:\r\n           - python3\r\n           - -m\r\n           - vllm.entrypoints.openai.api_server\r\n         image: vllm/vllm-openai:latest\r\n         ….&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d5507e8b0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これで完了です。残りの処理はストリーマーが行い、VM のパフォーマンスに合わせてストリーミングの同時実行数を自動調整します。詳しくは、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/persistent-volumes/run-ai-model-streamer?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE 上での vLLM モデルの読み込みの最適化&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;に関するドキュメントをご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;NVIDIA Run:ai Model Streamer と Cloud Storage Anywhere Cache の組み合わせ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;a href="https://docs.cloud.google.com/storage/docs/anywhere-cache?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Anywhere Cache&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、リージョンまたはマルチリージョンの Cloud Storage バケットに保存されたデータに対して、ゾーン内にコロケーションされた SSD ベースのキャッシュを提供します。レイテンシを最大 70% 短縮し、最大 2.5 TB/ 秒の読み込みスループットを提供する Anywhere Cache は、同じモデルが複数のノードにわたって何度もダウンロードされるスケールアウト推論ワークロードに最適なソリューションです。Anywhere Cache のサーバーサイド アクセラレーションと、NVIDIA Run:ai Model Streamer のクライアントサイド アクセラレーションを組み合わせることで、管理が容易で非常にパフォーマンスの高いモデル読み込みシステムが実現します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;今すぐ使ってみる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;NVIDIA Run:ai Model Streamer は、AI インフラストラクチャのパズルの重要なピースへと進化しています。これにより、チームは GKE 上でより高速かつ復元力がある、より柔軟な MLOps パイプラインを構築できるようになります。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;GKE で Model Streamer を使用する方法の詳細については、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/persistent-volumes/run-ai-model-streamer?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE NVIDIA Run:ai ガイド&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;vLLM でストリーマーを使用する詳しい手順については、&lt;/span&gt;&lt;a href="https://docs.vllm.ai/en/stable/models/extensions/runai_model_streamer.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;vLLM の公式ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;モデル ストリーマーの詳細と、継続的な開発への貢献については、&lt;/span&gt;&lt;a href="https://github.com/run-ai/runai-model-streamer" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GitHub の NVIDIA Run:ai Model Streamer プロジェクト&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google、ソフトウェア エンジニア &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Peter Schuurman&lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google、シニア プロダクト マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Brian Kaufman&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 15 Dec 2025 02:30:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/nvidia-runai-model-streamer-supports-cloud-storage/</guid><category>AI &amp; Machine Learning</category><category>GKE</category><category>Storage &amp; Data Transfer</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>NVIDIA Run:ai Model Streamer を使用して GKE 上のモデルのダウンロードを高速化</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/nvidia-runai-model-streamer-supports-cloud-storage/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Peter Schuurman</name><title>Software Engineer, Google</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Brian Kaufman</name><title>Senior Product Manager, Google</title><department></department><company></company></author></item><item><title>Agent Sandbox のご紹介: Kubernetes と GKE 上のエージェント AI 向けの強力なガードレール</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/agentic-ai-on-kubernetes-and-gke/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 12 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/agentic-ai-on-kubernetes-and-gke?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google とクラウドネイティブ コミュニティは、最新のアプリケーションをサポートするために Kubernetes を絶えず強化してきました。今年初めの KubeCon EU 2025 では、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/google-bytedance-and-red-hat-improve-ai-on-kubernetes?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI 推論のサポートを強化&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;するための Kubernetes の一連の機能強化を発表しました。本日 KubeCon NA 2025 で発表した &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Agent Sandbox&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; をはじまりとして、Google は Kubernetes を AI エージェントにとって最もオープンでスケーラブルなプラットフォームに進化させることを目指します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI エージェント導入に伴う課題について考えてみましょう。AI エージェントは、アプリケーションとそれを利用するユーザーが目的を効率的に達成するために、単純なクエリの回答から複雑なマルチステップ タスクの実行まで、さまざまな支援を提供できます。「前四半期の販売データを可視化して」というリクエストが与えられたら、まず最初のツールでデータをクエリし、2 つ目のツールでそのデータをグラフ化してユーザーに返さなければなりません。従来のソフトウェアが予測可能で決定論的に動くものであるのに対し、AI エージェントは、コードの生成、コンピュータ ターミナルやブラウザの使用など、ユーザーの目標達成のために利用できるツールを「いつ、どのように」使うかを自ら判断できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;非決定論的に動ける強力なエージェントをオーケストレーションするには、強固なセキュリティと運用上のガードレールを施さなければ重大なリスクが生じる可能性があります。コードとコマンドを実行するエージェントをカーネルレベルで分離することは、妥協できない要件です。また従来型のアプリケーションと比べて、AI とエージェントベースのワークロードではインフラストラクチャのニーズも高まります。なかでも、数千ものサンドボックスをエフェメラル環境としてオーケストレートし、必要に応じて迅速に作成と削除を行いつつ、ネットワーク アクセスを確実に制限するという AI ワークロード固有のニーズがあります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;成熟度、セキュリティ、スケーラビリティを備えた Kubernetes は、AI エージェントを実行するのに最適な基盤であると Google は考えています。しかし、エージェントによるコード実行やコンピュータの使用などのニーズを満せるまでには一層の進化が必要であることも認識しており、その方向への取り組みの第一歩が、今回発表した Agent Sandbox になります。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;堅牢な分離と高いスケーラビリティ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェントによるコード実行とコンピュータの使用のために、タスクごとに隔離されたサンドボックスをプロビジョニングする必要があります。さらに、数千ものサンドボックスが同時に実行されるような状況でも、ユーザーはインフラストラクチャが遅れをとることなく対応できるものと期待しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes コミュニティと共同で構築した Agent Sandbox は、エージェントによるコード実行とコンピュータの使用に特化して設計され、次世代のエージェント AI ワークロードに必要なパフォーマンスとスケーリングを実現するた新しい Kubernetes プリミティブです。Agent Sandbox は gVisor を基盤として構築され、ランタイム分離のための Kata Containers のサポートが追加されています。gVisor の強力なセキュリティ境界を提供することで、データの損失や引き出し、本番環境システムへの損害につながる可能性のある脆弱性のリスクを軽減します。オープンソースへの継続的な取り組みとして、Agent Sandbox は Kubernetes コミュニティの Cloud Native Computing Foundation（CNCF）プロジェクトとして構築されています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_K1VZDUQ.max-1000x1000.jpg"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE でのパフォーマンスの向上&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最小のコストで最高のエージェント ユーザー エクスペリエンスを提供するには、強固な分離だけでなく、エージェントをスケールさせてパフォーマンスを最適化する必要もあります。Google Kubernetes Engine（GKE）で Agent Sandbox を使用すると、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/sandbox-pods?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Sandbox&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; 内のマネージド gVisor と&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/container-optimized-compute-delivers-autoscaling-for-autopilot?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;コンテナ最適化コンピューティング プラットフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を活用して、サンドボックスをより迅速に水平スケーリングできます。また、Agent Sandbox では管理者があらかじめサンドボックスのウォームプールを構成できるため、サンドボックスを低レイテンシで起動できます。この機能により、Agent Sandbox では完全隔離されたエージェント ワークロードのレイテンシが 1 秒未満となり、コールド スタートと比較して最大 90% の改善を実現します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;隔離された環境で外部からの脅威を防ぐというサンドボックスの特性は、その一方でコンピューティング リソースの利用率低下の原因にもなります。スクリプトを使って各サンドボックス環境を再初期化する方法は、不安定で時間もかかり、アイドル状態のサンドボックスは貴重なコンピューティング サイクルを無駄にしてしまいがちです。実行中のサンドボックス環境のスナップショットを取得して、特定の状態から開始できるようにするのが理想的な方法です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Pod Snapshots&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; は、実行中の Pod の完全なチェックポイントと復元を可能にする、GKE 専用の新機能です。Pod Snapshots は、エージェントと AI のワークロードの起動レイテンシを大幅に短縮します。Pod Snapshots を Agent Sandbox と組み合わせると、スナップショットからサンドボックス環境をプロビジョニングできるため、数秒で起動できます。GKE Pod Snapshots は、CPU ベースと GPU ベースの両方のワークロードのスナップショットと復元をサポートしており、これまで数分を要した Pod の起動時間を数秒に短縮します。Pod Snapshots 使ってアイドル状態のサンドボックスのスナップショットを作成して一時停止できるため、エンドユーザーへの影響を最小限に抑えながらコンピューティング サイクルを大幅に節約できます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/2_NJWlanH.max-1000x1000.jpg"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI エンジニアのためのサンドボックス&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント AI や強化学習（RL）システムを現在構築しているチームは、インフラストラクチャの専門家である必要はありません。そのような AI エンジニアを念頭に置いて構築された Agent Sandbox には、基盤となるインフラストラクチャを気にすることなく、サンドボックスのライフサイクルを管理できるように API と Python SDK が設計されています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;from agentic_sandbox import Sandbox\r\n\r\n# SDK はすべての YAML を単純なコンテキスト マネージャーに抽象化する\r\nwith Sandbox(template_name=&amp;quot;python3-template&amp;quot;,namespace=&amp;quot;ai-agents&amp;quot;) as sandbox:\r\n\r\n   # サンドボックス内でコマンドを実行する\r\n   result = sandbox.run(&amp;quot;print(\&amp;#x27;Hello from inside the sandbox!\&amp;#x27;)&amp;quot;)&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d550a3340&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このように分けてしまうことで、AI デベロッパーは自分が得意とする役割に専念しながら、Kubernetes 管理者やオペレーターが期待する運用上の制御や拡張性も実現できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;今すぐ使ってみる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント AI は、ソフトウェア開発とインフラストラクチャの両チームに大きな変化をもたらします。Agent Sandbox と GKE は、エージェントに必要な分離とパフォーマンスを実現するのに役立ちます。オープンソースで提供されている Agent Sandbox は、今すぐ GKE にデプロイできます。GKE Pod Snapshots は限定プレビュー版で提供されており、今年後半にすべての GKE のお客様にご利用いただける予定です。まずは、Agent Sandbox の&lt;/span&gt;&lt;a href="https://agent-sandbox.sigs.k8s.io/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;と&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/how-to/agent-sandbox"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;クイック スタート&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。皆様がどのようなものを構築されるか楽しみにしております。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;ー シニア プロダクト マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Brandon Royal&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Wed, 19 Nov 2025 01:50:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/agentic-ai-on-kubernetes-and-gke/</guid><category>AI &amp; Machine Learning</category><category>Application Development</category><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Agent Sandbox のご紹介: Kubernetes と GKE 上のエージェント AI 向けの強力なガードレール</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/agentic-ai-on-kubernetes-and-gke/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Brandon Royal</name><title>Senior Product Manager</title><department></department><company></company></author></item><item><title>GKE: コンテナからエージェントまで、あらゆる最新のワークロードに対応する統合プラットフォーム</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-and-kubernetes-at-kubecon-2025/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 12 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/gke-and-kubernetes-at-kubecon-2025?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;クラウド ネイティブ インフラストラクチャのこの 10 年間は、コンテナ化やマイクロサービスから生成 AI の台頭まで、絶え間ない変化によって定義されてきました。あらゆる変化を通じて、Kubernetes は常に安定性を提供し、アプリケーションとインフラストラクチャの両方に対して、均一でスケーラブルな運用モデルを実現しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Kubernetes Engine（GKE）が 10 周年を迎えるにあたり、Kubernetes との共生関係はこれまで以上に重要になっています。Kubernetes で AI を最大規模で処理する需要が高まる中、Google は Kubernetes のコア機能を強化し、AI と AI 以外の両方のワークロードを向上させるために投資を続けています。今年の &lt;/span&gt;&lt;a href="https://rsvp.withgoogle.com/events/google-cloud-at-kubecon-north-america-2025" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;KubeCon&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; North America では、以下の包括的な 3 つのアプローチが反映された大きな進展について発表しました。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;次世代のワークロード向けに Kubernetes OSS のコアを強化 -&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; これには、セキュリティ、ガバナンス、分離のための新しい Kubernetes ネイティブの AgentSandbox API を使用して、エージェントの波にプロアクティブに対応することが含まれます。また最近では、Inference Gateway API や Inference Perf など、推論ワークロードを強化する機能もいくつか追加しました。さらに、Buffers API や HPA などの機能は、すべてのワークロードのプロビジョニング レイテンシにさまざまな角度から対処するのに役立ちます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;マネージド Kubernetes の優れたリファレンス実装として GKE を提供 -&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google は、高度な Google Cloud サービスを統合し、比類のないスケールとセキュリティを提供する、本番環境対応のフルマネージド プラットフォームへと、Kubernetes に関する専門知識を変換し、新しい機能とベスト プラクティスを絶えず GKE に直接導入しています。このたび Google は、新しい GKE Agent Sandboxを発表しました。また、最近では &lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-compute-classes?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE カスタム コンピューティング クラス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/gke-inference-gateway-and-quickstart-are-ga?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/machine-learning/inference/inference-quickstart?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Quickstart&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; も発表しています。さらに、大規模なコンピューティングの需要に応えるため、13 万ノードのクラスタをサポートすることで、スケーリングの限界を押し広げています。今年は、クラスタの相互運用性とポータビリティの標準により、Kubernetes 上の AI / ML を簡素化する新しい &lt;/span&gt;&lt;a href="https://www.cncf.io/blog/2025/08/01/help-us-build-the-kubernetes-conformance-for-ai/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;CNCF Kubernetes Kubernetes AI Conformance プログラム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;にも参加します。GKE はすでに &lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/gke-ai-conformance"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;AI 適合プラットフォームとして認定&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;フレームワークを推進し、運用上の摩擦を軽減 -&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Google は、オープンソース コミュニティやパートナーと積極的に協力して、Kubernetes 上の Slurm や Ray などの新しいフレームワークのサポートを強化しています。最近では Anyscale とのコラボレーションの下で、Anyscale Platform と Runtime を使用した &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/ray-on-gke-new-features-for-ai-scheduling-and-scaling?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE 向けに最適化されたオープンソースの Ray&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を発表しました。もっと最近では、パートナーと連携して、大規模な高性能 LLM 推論のための Kubernetes ネイティブの分散型コントロール プレーンを作成するオープンソース プロジェクトの &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/enhancing-vllm-for-distributed-inference-with-llm-d?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;llm-d&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の創設に貢献しました。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ここからは、こうした進展について詳しくご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;エージェントの波に対応&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エージェント AI の波が押し寄せています。PwC によると、IT 部門のシニア リーダーの 79% が&lt;/span&gt;&lt;a href="https://www.pwc.com/us/en/tech-effect/ai-analytics/ai-agent-survey.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;すでに AI エージェントを導入&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;しており、88% がエージェント AI のために今後 12 か月間で IT 予算を増やす計画です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes では、エージェントを大規模にデプロイして管理するための堅牢な基盤が提供されているものの、エージェント AI ワークロードの非決定論的な性質が原因でインフラストラクチャの課題が発生します。エージェントはますます、コードの記述、コンピュータ インターフェースの制御、無数のツールの呼び出しを行えるようになっており、分離、効率、ガバナンスに関するリスクが高まっています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、Kubernetes の基本的なプリミティブを進化させながら、GKE で実行されるエージェントの優れたパフォーマンスとコンピューティング効率を実現することで、これらの課題に対処しています。そして本日、Kubernetes ネイティブのエージェント コード実行とコンピュータ使用環境のための新しい機能セットである &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Agent Sandbox&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; のプレビュー版をリリースしました。最初からオープンソースとして設計された Agent Sandbox は、gVisor を使用してエージェント環境を分離するため、LLM で生成されたコードを自信を持って実行し、AI エージェントとやり取りすることができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;さらに安全で効率的なマネージド エクスペリエンスを実現する新しい &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE Agent Sandbox&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; は、統合されたサンドボックス スナップショットやコンテナ最適化コンピューティングなどの組み込み機能でこの基盤を強化します。Agent Sandbox は、完全に分離されたエージェント ワークロードで 1 秒未満のレイテンシと、コールド スタートと比較して最大 90% の改善を実現します。詳細については、本日公開された &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/agentic-ai-on-kubernetes-and-gke"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE でエージェントを強化する方法に関する詳細な発表&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI ギガワット時代のための比類のない規模&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この「ギガワット AI 時代」において、基盤モデルの作成者は前例のないコンピューティング能力に対する需要を増大させています。Google では、試験運用モードのスタックに関する社内テストに基づいて、GKE を使用して 130,000 ノードを持つ最大規模の既知の Kubernetes クラスタを作成しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google Cloud は、緊密に結合されたジョブの単一クラスタのスケーラビリティにも重点を置いており、ジョブのシャーディング（&lt;/span&gt;&lt;a href="https://kueue.sigs.k8s.io/docs/concepts/multikueue/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;MultiKueue&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; など）向けのマルチクラスタ オーケストレーション機能を開発し、動的な容量再割り当てのための新しいアプローチを設計しています。これらはすべて、AI プラットフォームの開発とスケーリングを簡素化するために、オープンソースの Kubernetes API を拡張する間に行われました。Google は、大規模な AI の背後にあるツールのオープンソース エコシステム（&lt;/span&gt;&lt;a href="https://kueue.sigs.k8s.io/docs/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Kueue&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;a href="https://github.com/kubernetes-sigs/jobset" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;JobSet&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;a href="https://github.com/etcd-io/etcd" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;etcd&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; など）に多大な投資を行っています。同時に、最高のパフォーマンスと信頼性を実現するために、データセンターへの GKE 固有の統合（Spanner での GKE コントロール プレーンの実行など）も行っています。最後に、ハードウェア障害に関連する損失時間と、保存されたチェックポイントからの復旧の遅延を減らすことで、大規模な AI トレーニング ジョブの効率を向上させるように設計された多層チェックポイント処理（MTC）ソリューションをオープンソース化しています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;あらゆるワークロードに対応する優れたコンピューティング&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google が 10 年にわたって Kubernetes に取り組んできたのは、あらゆるワークロードで Kubernetes をさらに利用しやすく、効率的にするためです。しかし、長年にわたって 1 つの大きな課題が残っています。それは、自動スケーリングを使用する場合に、新しいノードのプロビジョニングに数分かかることです。これは、大量のデータを扱う高速スケーリング アプリケーションには十分な速さではありません。今年、Google はこの問題に正面から取り組み、価格とパフォーマンスを最適化しながら、必要なときにほぼリアルタイムでスケーラブルなコンピューティング容量を提供するという使命を達成するために、さまざまな機能強化を行いました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;Autopilot をすべてのお客様に&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、GKE Autopilot 向けの完全に再構築された自動スケーリング スタックである&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/container-optimized-compute-delivers-autoscaling-for-autopilot?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;コンテナ最適化コンピューティング プラットフォーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を導入しました。推奨される運用モードとして、Autopilot はノード インフラストラクチャの管理とスケーリングを完全に自動化し、パフォーマンスとコストに大きな影響を与えます。LiveX AI の共同創業者である Jia Li 氏は、「LiveX AI は GKE Autopilot を使用して、TCO を 50% 以上、運用コストを 66% 削減し、市場投入までの時間を 25% 短縮しました」と話しています。また最近、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-autopilot-now-available-to-all-qualifying-clusters?e=4875480&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Standard クラスタ向けの Autopilot コンピューティング クラス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;の一般提供が開始されたことで、より多くのデベロッパーがこの操作不要のエクスペリエンスを利用して、ワークロードごとに Autopilot を採用できるようになっています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;あらゆる角度からプロビジョニングのレイテンシに対処&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;ノードプールの同時自動プロビジョニングの高速化&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;を導入し、オペレーションを非同期化かつ高度に並列化しました。このシンプルな変更により、異種ワークロードのクラスタ スケーリングが劇的に加速され、デプロイのレイテンシがベンチマークの何倍にも改善されました。また、スケールアップのニーズが厳しい場合は、新しい &lt;/span&gt;&lt;a href="https://github.com/kubernetes/autoscaler/pull/8151/commits/0ffe04d1136f50eed0be6cd7910701bf3bacedcb?short_path=8ea88c4" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Buffers API（OSS）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用して、事前にプロビジョニングされたすぐに使用できるノードのバッファをリクエストし、コンピューティング容量をほぼ即時に利用できます。ノードの準備が整うと、新しいバージョンの &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/improving-gke-container-image-streaming-for-faster-app-startup?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE コンテナ イメージ ストリーミング&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;により、コンテナ イメージ全体がダウンロードされる前にアプリケーションを起動できるため、アプリケーションの実行が高速化されます。これは、大規模な AI / ML およびデータ処理ワークロードにとって非常に重要な改善点です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;リソース使用率を向上させる、中断のない自動スケーリング&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;速度の追求は、ワークロード レベルのスケーリングにも及びます。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;新しい GKE Standard クラスタでは、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/horizontal-pod-autoscaling#hpa-profile"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;パフォーマンス HPA プロファイルがデフォルトで有効&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;になっています。これにより、最大 5,000 個の HPA オブジェクトのサポートや並列処理など、スケーリングが大幅に改善され、より高速で一貫性のある水平スケーリングを行えます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、&lt;/span&gt;&lt;a href="https://github.com/kubernetes/autoscaler/tree/master/vertical-pod-autoscaler/enhancements/4016-in-place-updates-support" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;VPA とインプレース Pod のサイズ変更&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;のプレビュー版を使用して、垂直スケーリングの中断に対処しています。これにより、GKE はコンテナの CPU とメモリのリクエストを自動的にサイズ変更でき、多くの場合に Pod を再作成する必要はありません。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;動的なハードウェア効率&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;最後に、動的な効率性に対する Google の取り組みは、ハードウェアの活用にも及びます。GKE ユーザーは以下を利用できるようになっています。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Google Axion プロセッサをベースとする新しい &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;N4A VM&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/axion-based-n4a-vms-now-in-preview?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;プレビュー版&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）と、第 5 世代 AMD EPYC プロセッサをベースとする &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;N4D VM&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;（&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/compute/n4d-vms-based-on-amd-turin-now-ga"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;一般提供&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;）。どちらもカスタム マシンタイプ（CMT）をサポートしており、ワークロードに合わせて適切なサイズのノードを作成できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;新しい &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/compute/adopt-new-vm-series-with-gke-compute-classes-flexible-cuds?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE カスタム コンピューティング クラス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;により、VM インスタンス タイプの優先順位リストを定義できるため、手動操作なしで最新かつ最も費用対効果の高いオプションがワークロードで自動的に使用されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;AI 推論を強化するプラットフォーム&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;生成 AI 推論に関する真の課題は、組織を破産させることなく、数十億のトークンを超高速で確実に処理することです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;ウェブ アプリケーションとは異なり、LLM のサービングはステートフルであり、計算負荷も高くなります。これに対処するため、Google は Kubernetes への広範なオープンソース投資を推進してきました。これには、LLM 対応ルーティングのための &lt;/span&gt;&lt;a href="https://github.com/kubernetes-sigs/gateway-api-inference-extension" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Gateway API Inference Extension&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;a href="https://github.com/kubernetes-sigs/inference-perf" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;推論パフォーマンス プロジェクト&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、アクセラレータと HPA スケーリングの指標としきい値に関する綿密なモデル パフォーマンス分析情報のためのベンチマーク標準の提供、Kubernetes の Pod とワークロードへの GPU、TPU、その他のデバイスの割り当てとスケジューリングを合理化および自動化するための &lt;/span&gt;&lt;a href="https://kubernetes.io/docs/concepts/scheduling-eviction/dynamic-resource-allocation/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Dynamic Resource Allocation&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（Intel などとの共同開発）が含まれます。また、Red Hat および IBM とともに &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/ai-machine-learning/enhancing-vllm-for-distributed-inference-with-llm-d?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;llm-d プロジェクト&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を立ち上げ、「SOTA アーキテクチャに到達するまでの時間」を最適化する Kubernetes ネイティブの分散推論スタックを構築しました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE 側では最近、AI ワークロードのサービングのための Kubernetes ネイティブ ソリューションである &lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/ai-machine-learning/gke-inference-gateway-and-quickstart-are-ga?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Gateway の一般提供&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を発表しました。以下の 2 つのワークロード固有の最適化が利用可能になっています。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;LLM 対応ルーティング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: マルチターン チャットなどのアプリケーションで、キャッシュに保存されたコンテキストを使用するためにリクエストを同じアクセラレータにルーティングして、レイテンシの急増を回避する&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;分離型サービング&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 「プレフィル」（プロンプト処理）ステージと「デコード」（トークン生成）ステージを、最適化された別々のマシンプールに分離する&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;その結果、GKE Inference Gateway では他のマネージド Kubernetes サービスと比較して、ピーク時のスループットで最初のトークンまでの時間（TTFT）のレイテンシを最大 96% 短縮し、トークン費用を最大 25% 削減できるようになっています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;AI 推論サーバーの起動レイテンシは、大規模モデルの起動に数十分かかるという一貫した問題です。このたび、Google は CPU と GPU のワークロードをメモリ スナップショットから復元することで、起動レイテンシが大幅に改善される &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE Pod Snapshots&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; を発表します。これにより、AI 推論の起動時間が最大 80% 短縮され、700 億パラメータのモデルをわずか 80 秒で、80 億パラメータのモデルをわずか 16 秒で読み込むことができます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;推論について語る際は、本番環境グレードの AI インフラストラクチャのデプロイの複雑さ、費用、難しさについて触れないわけにはいきません。GKE Inference Quickstart は、Google Cloud の最新のアクセラレータ、最新のオープンモデル、推論ソフトウェアによって最新の状態に保たれる、継続的な自動ベンチマーク システムを提供します。これらのベンチマーク プロファイルを使用すると、推論固有のパフォーマンス指標の評価、構成、デプロイ、モニタリングのほか、デプロイの動的なファインチューニングにかかる時間を大幅に節約できます。このデータは、&lt;/span&gt;&lt;a href="https://colab.sandbox.google.com/github/GoogleCloudPlatform/kubernetes-engine-samples/blob/main/ai-ml/notebooks/giq_visualizations.ipynb" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちらの Colab ノートブック&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;で確認できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Kubernetes と GKE の次の 10 年&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt; GKE が 10 年にわたる基礎的な取り組みを記念する中、Google は未来をリードするお手伝いができることを誇りに思っています。そして、未来は一緒に築き上げるものだと考えています。コントリビューター コミュニティの取り組みがなければ、今日の Kubernetes は存在しなかったでしょう。このコミュニティには、基盤となる新機能を記述するメンバーから、プロジェクトを成功させるために不可欠な日常業務（「薪割りや水運び」）を行うメンバーまで、全員が含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google では、新しい機能や Ironwood TPU などの刺激的な発表の確認、徹底したセッションへの出席、オープンソース インフラストラクチャの未来を形作るための取り組みへの参加など、さまざまな機会をご用意しています。ぜひご利用ください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google Kubernetes Engine、プロダクト管理担当シニア ディレクター、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Drew Bradstock&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 18 Nov 2025 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-and-kubernetes-at-kubecon-2025/</guid><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>GKE: コンテナからエージェントまで、あらゆる最新のワークロードに対応する統合プラットフォーム</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-and-kubernetes-at-kubecon-2025/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Drew Bradstock</name><title>Sr. Director of Product Management, Google Kubernetes Engine</title><department></department><company></company></author></item><item><title>マイナー バージョンのロールバックで Kubernetes バージョンのアップグレードがより安全に</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/kubernetes-gets-minor-version-rollback/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 5 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/kubernetes-gets-minor-version-rollback?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes クラスタのアップグレードは、常に一方通行でした。前進するしかなく、コントロール プレーンに問題が発生した場合は、修正を適用してロール フォワードするしかありませんでした。これは日常的なメンテナンスに大きなリスクをもたらします。組織が新しい AI 機能のためにアップグレードを頻繁に行うようになり、同時に最大限の信頼性を求めるようになると、この問題はさらに悪化します。このたび、Kubernetes コミュニティと連携して、この問題を解決する Kubernetes 1.33 の新機能、Kubernetes コントロール プレーンのマイナー バージョン ロールバックを導入しました。コントロール プレーンのアップグレードをロールバックする信頼できる方法が初めて提供されることで、クラスタのライフサイクル管理が根本的に変わります。&lt;/span&gt;&lt;span style="text-decoration: line-through; vertical-align: baseline;"&gt; &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;この機能はオープンソースの Kubernetes で利用可能で、Google Kubernetes Engine では GKE 1.33 以降で統合され、まもなく一般提供される予定です。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;課題: ロールバックが困難だった理由&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes のコントロール プレーン コンポーネント、特に kube-apiserver と etcd はステートフルであり、API バージョンの変更に非常に敏感です。アップグレードすると、新しいバイナリに多くの新しい API と機能が導入されます。一部のデータは、新しい形式や API バージョンに移行される場合があります。変更を安全に元に戻すメカニズムがないため、ダウングレードはサポートされていませんでした。ダウングレードすると、データが破損し、クラスタ障害が発生するリスクがありました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;簡単な例として、既存のリソースに新しいフィールドを追加することを考えてみましょう。これまで、ストレージと API は同時に処理されていたため、クライアントは新しいフィールドにすぐにデータを書き込むことができました。回帰が検出された場合、ロールバックによってそのフィールドへのアクセスは削除されますが、書き込まれたデータはガベージ コレクションされません。代わりに、etcd にサイレントに保存されます。これにより、管理者はどうすることもできない状況に陥ります。さらに悪いことに、そのマイナー バージョンに再アップグレードすると、この古い「ガベージ」データが突然「復活」し、問題が発生する可能性のある、予測不可能な動作を引き起こす場合があります。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;解決策: エミュレートされたバージョン&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Kubernetes Enhancement Proposal（KEP）の &lt;/span&gt;&lt;a href="https://github.com/kubernetes/enhancements/tree/master/keps/sig-architecture/4330-compatibility-versions" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;KEP-4330: Compatibility Versions&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; では、コントロール プレーンの「エミュレートされたバージョン」というコンセプトが導入されています。Google 社員が提供したこの機能により、2 段階の新しいアップグレード プロセスが作成されます。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ステップ 1: バイナリをアップグレードする。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;コントロール プレーンのバイナリはアップグレードされますが、「エミュレートされたバージョン」はアップグレード前のバージョンと同じままです。この段階では、すべての API、機能、ストレージ データ形式は変更されません。これにより、問題が見つかった場合にコントロール プレーンを以前の安定版に安全にロールバックできます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;ul&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;健全性を検証し、回帰をチェックする。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;最初のステップでは、安全な検証期間が作成されます。この期間中は、新しい API バージョンにコミットする前に、続行しても安全であることを確認できます。たとえば、新しいバイナリで独自のコンポーネントやワークロードが正常に実行されていることを確認したり、パフォーマンスの低下がないかチェックしたりできます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ステップ 2:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;アップグレードを完了する。&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;テストが完了したら、エミュレートされたバージョンを新しいバージョンに「バンプ」します。これにより、最新の Kubernetes リリースのすべての新しい API と機能が有効になり、アップグレードが完了します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_dq2nDBb.max-1000x1000.png"
        
          alt="image1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この 2 段階のプロセスにより、きめ細かい制御、より優れたオブザーバビリティ、ロールバックの安全な検証期間が実現します。アップグレードで予期しない問題が発生した場合、ロール フォワードのために慌てる必要はなくなります。これにより、既知の良好な状態に戻し、クラスタを安定させ、次の動きを冷静に計画するための信頼できる方法が提供されます。これらはすべて、オープンソースの Kubernetes と GKE の両方で 2 段階アップグレードの包括的なテストによって裏付けられています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これを実現するには多大な労力が必要でしたが、テスト、コンプライアンス、機能の適応に尽力し、この高度な機能を現実のものとしたすべての Kubernetes のコントリビューターと機能のオーナーに感謝いたします。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE 1.33 で近日リリース予定のこの機能は、アップグレードのリスクを軽減し、予期せぬ問題からの復旧時間を大幅に短縮する新しいツールとなります。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;OSS Kubernetes でのアップグレード エクスペリエンスの向上&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;このロールバック機能は、コミュニティ全体の Kubernetes アップグレード エクスペリエンスを向上させるための、Google の長期的な大規模投資の一環にすぎません。Google では、クラスタの運用をよりスムーズ、安全、自動化するために、他にもいくつかの重要な機能強化をアップストリームで取り組んでいます。その一例をご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;バージョンをスキップしたアップグレードのサポート:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; KEP-4330 に関する作業により、Kubernetes の「スキップレベル」アップグレードが可能になります。つまり、すべてのマイナー バージョンに順番にアップグレードしていく必要がなくなり（例: v1.33 から v1.34、v1.35）、古いバージョンから新しいバージョンに直接アップグレードできるようになります。場合によっては、1 つ以上の中間リリースをスキップできます（例: v1.33 から v1.35）。これにより、大規模なアップグレードに伴う複雑さを軽減してダウンタイムを削減し、クラスタ オペレータにとってプロセスをより効率的で中断の少ないものにすることを目指しています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Coordinated Leader Election（KEP-4355）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; この取り組みにより、さまざまなコントロール プレーン コンポーネント（kube-controller-manager や kube-scheduler など）がアップグレード中のリーダーシップの変更を適切に処理できるようになり、Kubernetes のバージョン スキュー ポリシーに違反しないようになります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Graceful Leader Transition（KEP-5366）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 上記を基に、リーダーがアップグレードのためにシャットダウンする前に、そのポジションをクリーンに引き継ぐことができるようになります。これにより、コントロール プレーン コンポーネントのダウンタイムなしの移行が可能になります。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Mixed Version Proxy（KEP-4020）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; この機能は、バージョンが混在するクラスタ（アップグレード中など）における API サーバーの信頼性を向上させます。リソースを認識するサーバーにリソース リクエストをインテリジェントにルーティングすることで、誤った「NotFound」エラーを防止します。また、検出によって、バージョンが混在するクラスタ内のすべてのサーバーからすべてのリソースの完全なリストが提供されるようにします。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;Component Health SLIs for Upgrades（KEP-3466）:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 安全にアップグレードするには、クラスタが正常な状態かどうかを知る必要があります。この KEP では、Kubernetes のコア コンポーネントの標準化されたサービスレベル指標（SLI）を定義します。これにより、自動アップグレードのカナリア分析に使用可能な、明確なデータドリブン シグナルが提供され、クラスタ全体に影響する前に不適切なロールアウトを停止できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらの機能は、Kubernetes クラスタのライフサイクル管理の成熟度を大きく前進させるものです。この成果をオープンソース コミュニティに提供し、GKE のお客様にこれらの強力な機能をお届けできることを大変誇りに思います。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;KubeCon で詳細を確認する&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;オープンソース機能とアップグレードの変更について詳しくお知りになりたい方は、&lt;/span&gt;&lt;a href="https://rsvp.withgoogle.com/events/google-cloud-at-kubecon-north-america-2025" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;KubeCon で Google のチーム&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;に会いに来てください。ブース #200 と #1100、および以下のセッションで皆様をお待ちしております。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://sched.co/27dCm" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Accelerating Innovation: The Evolution of Kubernetes and the Road Ahead&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（Google、Jago Macleod）&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://sched.co/27FXC" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Upgrade Nightmare To Uptime Dream: The Cloud Provider's Playbook for Critical Kubernetes Work&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（Yuchen Zhou（Google）と Uttam Kumar 氏（Salesforce））&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://sched.co/28aCs" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Navigating the Multi-Version Kubernetes Universe: How Emulation Version Shapes Your Contributions&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（Google、Siyuan Zhang による Maintainer Summit での講演）&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://rsvp.withgoogle.com/events/google-cloud-at-kubecon-north-america-2025" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Upgrade: A New Era of Safety and Control&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;（Google、Wenjia Zhang）ブース #200&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;使ってみる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;オープンソースのイノベーションとマネージド サービスの卓越性を組み合わせることにより、このような結果が得られます。この新しい安全なアップグレード機能は、GKE 1.33 で間もなくリリースされます。クラスタの管理について詳しくは、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/upgrades?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE のドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Siyuan Zhang&lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-エンジニアリング マネージャー、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Wenjia Zhang&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Mon, 17 Nov 2025 02:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/kubernetes-gets-minor-version-rollback/</guid><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>マイナー バージョンのロールバックで Kubernetes バージョンのアップグレードがより安全に</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/kubernetes-gets-minor-version-rollback/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Siyuan Zhang</name><title>Software Engineer</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Wenjia Zhang</name><title>Engineering Manager</title><department></department><company></company></author></item><item><title>分散 AI と ML の未来に向けて Ray と Kubernetes をともに進化させる</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/ray-on-gke-new-features-for-ai-scheduling-and-scaling/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 4 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/ray-on-gke-new-features-for-ai-scheduling-and-scaling?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ray は、Google Cloud のデベロッパーの間で人気のある OSS コンピューティング エンジンで、CPU、GPU、TPU にわたる複雑な分散 AI ワークロードを処理します。同様に、プラットフォーム エンジニアは、Kubernetes、特に Google Kubernetes Engine の強力で信頼性の高いインフラストラクチャ オーケストレーションに長い間信頼を寄せてきました。今年初め、Google は Anyscale との&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/partnering-with-anyscale-to-integrate-rayturbo-with-gke"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;パートナーシップ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を発表し、Ray と Kubernetes の優れた機能を組み合わせて、最も要求の厳しい AI ワークロードに対応する分散オペレーティング システムを構築しました。今回は、Ray と Kubernetes で共同開発したオープンソースの機能強化についてご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Ray と Kubernetes のラベルベースのスケジューリング&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ray の主なメリットの一つは、柔軟なプリミティブ セットです。これにより、デベロッパーは基盤となるハードウェアを直接意識することなく、分散アプリケーションを記述できます。しかし、Ray の仮想リソースの既存のサポートでは十分にカバーされないユースケースもあります。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;スケジューリングの柔軟性を高め、Ray アプリケーションの自動スケーリングを Ray と Kubernetes のスケジューラがより適切に実行できるようにするため、&lt;/span&gt;&lt;a href="https://www.anyscale.com/blog/introducing-label-selectors-scheduling-ray" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ラベルセレクタを Ray に導入&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;します。Ray のラベルセレクタは、Kubernetes の&lt;/span&gt;&lt;a href="https://kubernetes.io/docs/concepts/overview/working-with-objects/labels/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ラベルとセレクタ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;に大きく影響を受けており、両方のシステム間で使い慣れたエクスペリエンスとスムーズな統合を提供することを目的としています。Ray Label Selector API は Ray v2.49 以降で利用可能で、分散タスクとアクターのスケジューリングの柔軟性が向上します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい &lt;/span&gt;&lt;a href="https://docs.ray.io/en/latest/ray-core/scheduling/labels.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Label Selector API&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; により、Ray はデベロッパーが以下のようなことを直接行えるようにします。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;Ray クラスタ内のノードにラベルを割り当てる（例: &lt;/span&gt;&lt;code&gt;&lt;span style="vertical-align: baseline;"&gt;gpu-family=L4, market-type=spot, region=us-west-1&lt;/span&gt;&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt;）。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;タスク、アクター、プレースメント グループを起動する際に、実行するゾーン、リージョン、アクセラレータ タイプを宣言する。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;カスタムラベルを使用して、トポロジと高度なスケジューリング ポリシーを定義する。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE で分散アプリケーションをスケジューリングするには、&lt;/span&gt;&lt;a href="https://docs.ray.io/en/master/cluster/kubernetes/user-guides/label-based-scheduling.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ray と Kubernetes のラベルセレクタ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を組み合わせて使用することで、アプリケーションと基盤となるインフラストラクチャを完全に制御できます。また、この組み合わせを GKE の&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/concepts/about-custom-compute-classes?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム コンピューティング クラス&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;と併用して、特定の GPU タイプが利用できない場合のフォールバック動作を定義することもできます。具体的な例を見てみましょう。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以下は、利用可能な容量に応じてさまざまな GPU タイプで実行できる Ray リモートタスクの例です。Ray v2.49 以降では、プライマリ GPU タイプまたはマーケット タイプが利用できない場合に、フォールバック動作で GPU をバインドするアクセラレータ タイプを定義できるようになりました。この例では、リモートタスクは L4 GPU を使用したスポット容量をターゲットにしていますが、オンデマンドへのフォールバックも可能です。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;@ray.remote(\r\n  label_selector={\r\n      &amp;quot;ray.io/accelerator&amp;quot;: &amp;quot;L4&amp;quot;\r\n       &amp;quot;ray.io/market-type&amp;quot;: &amp;quot;spot&amp;quot;\r\n  },\r\n  fallback_strategy=[\r\n    {\r\n      &amp;quot;label_selector&amp;quot;: {\r\n        &amp;quot;ray.io/accelerator&amp;quot;: &amp;quot;L4&amp;quot;\r\n        &amp;quot;ray.io/market-type&amp;quot;: &amp;quot;on-demand&amp;quot;\r\n       }\r\n    },\r\n  ]\r\n)\r\ndef func():\r\n    pass&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d565033a0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE では、カスタム コンピューティング クラスを使用して同じフォールバック ロジックを結合し、Ray クラスタの基盤となるインフラストラクチャが同じフォールバック動作と一致するようにできます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;apiVersion: cloud.google.com/v1\r\nkind: ComputeClass\r\nmetadata:\r\n  name: gpu-compute-class\r\nspec:\r\n  priorities:\r\n  - gpu:\r\n      type: nvidia-l4\r\n      count: 1\r\n    spot: true\r\n  - gpu:\r\n      type: nvidia-l4\r\n      count: 1\r\n    spot: false\r\n  nodePoolAutoCreation:\r\n    enabled: true\r\n  whenUnsatisfiable: DoNotScaleUp&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d56503c70&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ray ラベルセレクタの使用を開始するには、&lt;/span&gt;&lt;a href="https://docs.ray.io/en/master/cluster/kubernetes/user-guides/label-based-scheduling.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ray のドキュメント&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Ray と Kubernetes でのアクセラレータ サポートの強化&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;今年初め、Google は新しい Ray Serve LLM API を使用して、A3 High および A3 Mega マシン インスタンスで &lt;/span&gt;&lt;a href="https://www.anyscale.com/blog/deepseek-vllm-ray-google-kubernetes" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE 上に DeepSeek-R1&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; などの大規模モデルをデプロイする機能を実証しました。GKE v1.33 と KubeRay v1.4 以降では、&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/concepts/about-dynamic-resource-allocation"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;動的リソース割り当て（DRA）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用してハードウェア アクセラレータを柔軟にスケジューリングして共有できるため、Ray で次世代の AI アクセラレータを使用できます。具体的には、NVIDIA GB200 NVL72 ラックスケール アーキテクチャを利用する A4X シリーズのマシンに、DRA を使用して Ray クラスタをデプロイできるようになりました。A4X での Ray で DRA を使用するには、&lt;/span&gt;&lt;a href="https://cloud.google.com/ai-hypercomputer/docs/create/gke-ai-hypercompute-custom-a4x"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;A4X 上に AI 向けに最適化された GKE クラスタを作成&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;し、NVL72 ラックを表す ComputeDomain リソースを定義します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;apiVersion: resource.nvidia.com/v1beta1\r\nkind: ComputeDomain\r\nmetadata:\r\n  name: a4x-compute-domain\r\nspec:\r\n  numNodes: 18\r\n  channel:\r\n    resourceClaimTemplate:\r\n      name: a4x-compute-domain-channel&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d565033d0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;次に、Ray ワーカーの Pod テンプレートでクレームを指定します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;workerGroupSpecs:\r\n    ...\r\n    template:\r\n...\r\nspec:\r\n  ...\r\n  volumes:\r\n    ...\r\n  containers:\r\n    - name: ray-container\r\n      ...\r\n      resources:\r\n        limits:\r\n          nvidia.com/gpu: 4\r\n\t claims:\r\n        - name: compute-domain-channel\r\n        ...\r\nresourceClaims:\r\n  - name: compute-domain-channel\r\n    resourceClaimTemplateName: a4x-compute-domain-channel&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d565036d0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;DRA と Ray を組み合わせることで、最も要求の厳しい Ray ワークロードで最適な GPU パフォーマンスを実現するために、Ray ワーカー グループが同じ GB200 NVL72 ラックに正しくスケジューリングされます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;また、Anyscale とのパートナーシップにより、Ray でよりネイティブな TPU エクスペリエンスを実現し、JAX などのフレームワークとのエコシステム統合を強化します。Ray Train では、Ray v2.49 以降で &lt;/span&gt;&lt;a href="https://docs.ray.io/en/latest/train/getting-started-jax.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;JAXTrainer API&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; が導入され、JAX を使用した TPU でのモデル トレーニングが効率化されました。Ray でのこれらの TPU の改善について詳しくは、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/ray-on-tpus-with-gke-a-more-native-experience?e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;「A more native experience for Cloud TPUs with Ray on GKE」&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Kubernetes の書き込み可能な cgroup を使用した Ray ネイティブのリソース分離&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;書き込み可能な cgroup を使用すると、コンテナのルートプロセスは、特権機能を必要とすることなく、同じコンテナ内にネストされた cgroup を作成できます。この機能は、同じコンテナ内でユーザーコードと並行して複数のコントロール プレーン プロセスを実行する Ray にとって特に重要です。最も負荷の高いワークロードでも、Ray はコンテナ リソースの合計の一部をシステム クリティカルなタスク用に動的に予約できるため、Ray クラスタの信頼性が大幅に向上します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE v1.34.X-gke.X 以降では、次のアノテーションを追加することで、Ray クラスタの書き込み可能な cgroup を有効にできます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;metadata:\r\n  annotations:\r\n    node.gke.io/enable-writable-cgroups.test-container: &amp;quot;true&amp;quot;&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d56503bb0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;書き込み可能な cgroup を使用して Ray のリソース分離を有効にするには、&lt;/span&gt;&lt;code&gt;&lt;span style="vertical-align: baseline;"&gt;ray start&lt;/span&gt;&lt;/code&gt;&lt;span style="vertical-align: baseline;"&gt; で次のフラグを設定します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;ray start --head --enable-resource-isolation&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d565030d0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この機能は、セキュリティを損なうことなくスタック全体の信頼性を向上させるために、Ray と Kubernetes を進化させている例の一つです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;近日中に、タスクおよびアクターごとのリソース制限と要件のサポートも導入する予定です。これは、Ray で長らく要望が寄せられていた機能です。さらに、この機能をアップストリームするために、オープンソースの Kubernetes コミュニティと協力しています。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Pod のインプレース サイズ変更による Ray の垂直自動スケーリング&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;a href="https://kubernetes.io/blog/2025/05/16/kubernetes-v1-33-in-place-pod-resize-beta/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Kubernetes v1.33 で Pod のインプレース サイズ変更が導入&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたことで、Kubernetes で実行する際の Ray の垂直スケーリング機能を統合する初期段階に入りました。初期のベンチマークでは、Pod を水平スケーリングの前に垂直スケーリングすることで、ワークロードの効率が 30% 向上することが示されています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_abzFIQW.max-1000x1000.png"
        
          alt="image1"&gt;
        
        &lt;/a&gt;
      
        &lt;figcaption class="article-image__caption "&gt;&lt;p data-block-key="bev4j"&gt;3 つのワーカーノードを持つ GKE クラスタで、Ray を使用して 2 つの TPC-H ワークロード（クエリ 1 と 5）を 3 回完了した結果に基づくベンチマーク。各ワーカーノードには 32 個の CPU と 32 GB のメモリが搭載されています。&lt;/p&gt;&lt;/figcaption&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Pod のインプレース サイズ変更により、ワークロードの効率が次のように向上します。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;タスク / アクターのスケールアップの高速化:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; インプレース サイズ変更により、Ray ワーカーは利用可能なリソースを数秒でスケールアップできます。新しいノードをプロビジョニングするのに数分かかる場合があることを考えると、大幅に改善されています。この機能により、新しい Ray タスクのスケジューリング時間が大幅に短縮されます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ビンパッキングとリソース使用率の向上:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Pod のインプレース サイズ変更により、Ray ワーカーを Kubernetes ノードに効率的にビンパッキングできます。新しい Ray ワーカーがスケールアップすると、利用可能なノード容量の小さな部分を予約し、残りの容量を他のワークロードのために解放できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;信頼性の向上と障害の減少:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; メモリのインプレース スケーリングにより、メモリ不足（OOM）エラーを大幅に削減できます。失敗したジョブを再起動する必要がないため、この機能によりワークロード全体の効率と安定性が向上します。&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; &lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Ray + Kubernetes = AI 向けの分散 OS&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google は、Anyscale とのパートナーシップから生まれた最近の共同イノベーションを紹介できることを嬉しく思います。Ray と Kubernetes は、その強力な相乗効果により、最新の AI / ML 向けの分散オペレーティング システムとしての地位を確立しています。Google は、継続的なパートナーシップがオープンソースの Ray と Kubernetes のエコシステム内のイノベーションを加速し、最終的には分散 AI / ML の未来を推進すると考えています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらのアップデートにより、Ray が GKE でシームレスに動作するようになるための大きな一歩を踏み出しました。ご利用方法は以下のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;容量をリクエストする:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;Dynamic Workload Scheduler Flex Start&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; を使用して、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/dws-flex-start-training-tpu?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;TPU&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/dws-flex-start-training?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GPU&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をすぐに利用できます。これにより、7 日未満で実行されるジョブのコンピューティングにアクセスできます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/add-on/ray-on-gke/concepts/overview?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Ray on GKE&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使ってみる&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/tutorials/distributed-training-tpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;TPU で JaxTrainer&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を試す&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google、スタッフ ソフトウェア エンジニア &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Andrew Sy Kim&lt;/strong&gt;&lt;br/&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Anyscale、スタッフ ソフトウェア エンジニア、&lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Edward Oakes 氏 &lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-related_article_tout"&gt;





&lt;div class="uni-related-article-tout h-c-page"&gt;
  &lt;section class="h-c-grid"&gt;
    &lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/ray-on-tpus-with-gke-a-more-native-experience/"
       data-analytics='{
                       "event": "page interaction",
                       "category": "article lead",
                       "action": "related article - inline",
                       "label": "article: {slug}"
                     }'
       class="uni-related-article-tout__wrapper h-c-grid__col h-c-grid__col--8 h-c-grid__col-m--6 h-c-grid__col-l--6
        h-c-grid__col--offset-2 h-c-grid__col-m--offset-3 h-c-grid__col-l--offset-3 uni-click-tracker"&gt;
      &lt;div class="uni-related-article-tout__inner-wrapper"&gt;
        &lt;p class="uni-related-article-tout__eyebrow h-c-eyebrow"&gt;Related Article&lt;/p&gt;

        &lt;div class="uni-related-article-tout__content-wrapper"&gt;
          &lt;div class="uni-related-article-tout__image-wrapper"&gt;
            &lt;div class="uni-related-article-tout__image" style="background-image: url('')"&gt;&lt;/div&gt;
          &lt;/div&gt;
          &lt;div class="uni-related-article-tout__content"&gt;
            &lt;h4 class="uni-related-article-tout__header h-has-bottom-margin"&gt;Ray on GKE で Cloud TPU をよりネイティブに利用&lt;/h4&gt;
            &lt;p class="uni-related-article-tout__body"&gt;Ray on GKE に、ラベルベースのスケジューリング、アトミック スライス予約、JaxTrainer、組み込みの TPU 認識（トポロジ / SPMD / 指標）などの新機能が追加されました。&lt;/p&gt;
            &lt;div class="cta module-cta h-c-copy  uni-related-article-tout__cta muted"&gt;
              &lt;span class="nowrap"&gt;Read Article
                &lt;svg class="icon h-c-icon" role="presentation"&gt;
                  &lt;use xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="#mi-arrow-forward"&gt;&lt;/use&gt;
                &lt;/svg&gt;
              &lt;/span&gt;
            &lt;/div&gt;
          &lt;/div&gt;
        &lt;/div&gt;
      &lt;/div&gt;
    &lt;/a&gt;
  &lt;/section&gt;
&lt;/div&gt;

&lt;/div&gt;</description><pubDate>Wed, 12 Nov 2025 01:01:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/ray-on-gke-new-features-for-ai-scheduling-and-scaling/</guid><category>AI &amp; Machine Learning</category><category>Containers &amp; Kubernetes</category><category>HPC</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>分散 AI と ML の未来に向けて Ray と Kubernetes をともに進化させる</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/ray-on-gke-new-features-for-ai-scheduling-and-scaling/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Andrew Sy Kim</name><title>Staff Software Engineer, Google</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Edward Oakes</name><title>Staff Software Engineer, Anyscale</title><department></department><company></company></author></item><item><title>Ray on GKE で Cloud TPU をよりネイティブに利用</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/ray-on-tpus-with-gke-a-more-native-experience/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 4 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/ray-on-tpus-with-gke-a-more-native-experience?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;エンジニアリング チームは、GPU と Cloud TPU の両方を含む幅広いハードウェアで AI ワークロードをスケーリングするために Ray を使用しています。Ray はコアとなるスケーリング機能を提供する一方、開発者は多くの場合、各アクセラレータの固有のアーキテクチャの詳細を管理してきました。Cloud TPU には、その特定のネットワーキング モデルと、単一プログラム複数データ（SPMD）プログラミング スタイルが含まれます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/partnering-with-anyscale-to-integrate-rayturbo-with-gke?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google は、Anyscale とのパートナーシップ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;の一環として、Google Kubernetes Engine（GKE）で TPU を使用する際のエンジニアリング作業を削減する取り組みを進めています。その目標は、TPU での Ray の使用をできるだけネイティブで低摩擦なものにすることです。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;本日、Google はそれを可能にするための重要な改善をいくつかリリースします。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;Ray TPU ライブラリで、Ray Core における TPU の認識とスケーリングを改善&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TPU には、独自のアーキテクチャと、SPMD と呼ばれる特定のプログラミング スタイルがあります。大規模な AI ジョブは、チップ間相互接続（ICI）と呼ばれる高速ネットワーキングで接続されたチップの集合体である TPU スライスで実行されます。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_oDu45Si.max-1000x1000.jpg"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以前は、この特定のハードウェア トポロジを認識するように Ray を手動で設定する必要がありました。これは重要なセットアップ手順であり、正しく行われなければ、ジョブが接続されていない異なるスライスからリソースを断片的に取得し、深刻なパフォーマンス ボトルネックを引き起こす可能性がありました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この新しいライブラリ &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;ray.util.tpu&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; では、ユーザーがこれらのハードウェアの詳細を設定する必要がなくなりました。&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;SlicePlacementGroup&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; という機能と新しい &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;label_selector&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; API を使用して、コロケーションされた TPU スライス全体を 1 つのアトミック ユニットとして自動的に予約します。これにより、ジョブは統合されたハードウェアで実行されることが保証され、断片化によるパフォーマンスの問題を回避できます。Ray ではこれまで、この単一スライスのアトミック性を保証できなかったため、信頼性の高い真のマルチスライス トレーニング（意図的に複数のユニークなスライスにまたがる）を構築することは不可能でした。この新しい API は、Ray ユーザーがマルチスライス テクノロジーを使用して複数の TPU スライスでスケーリングするための重要な基盤も提供します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;Jax、Ray Train、Ray Serve のサポートを拡大&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Google の開発は、トレーニングと推論の両方に関わっています。トレーニングに関して、Ray Train は TPU 上の JAX（&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/tutorials/distributed-training-tpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;JaxTrainer&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; 経由）と PyTorch のアルファ版サポートを提供しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;JaxTrainer&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; API を使用すると、マルチホスト TPU での JAX ワークロードの実行が簡素化されます。複雑な分散ホストの初期化を自動的に処理するようになりました。以下のコード例に示すように、ワーカー数、トポロジ、アクセラレータ タイプなどのハードウェア要件を、シンプルな &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;ScalingConfig&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; オブジェクト内で定義するだけで済みます。残りの部分は &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;JaxTrainer&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; が行います。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これは、リソースの断片化という重大なパフォーマンス上の問題を解決する、大きな改善点です。以前は、「4x4」トポロジをリクエストするジョブ（スライスと呼ばれる単一のコロケーション ハードウェア ユニットで実行する必要がある）が、代わりに断片化されたリソースを受け取ることがありました。たとえば、1 つの物理スライスから 8 個のチップ、別の接続されていないスライスから 8 個のチップなどです。この断片化は、単一の統合されたスライス内にのみ存在する高速 ICI 相互接続をワークロードが使用できないため、大きなボトルネックとなっていました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;JaxTrainer がマルチホスト TPU でのトレーニングを簡素化する例:&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;import jax\r\nimport jax.numpy as jnp\r\nimport optax\r\nimport ray.train\r\n\u200b\r\nfrom ray.train.v2.jax import JaxTrainer\r\nfrom ray.train import ScalingConfig\r\n\u200b\r\ndef train_func():\r\n&amp;quot;&amp;quot;&amp;quot;この関数は、各分散ワーカーで実行されます。&amp;quot;&amp;quot;&amp;quot;\r\n…\r\n\u200b\r\n# 分散ジョブのハードウェア構成を定義します。\r\nscaling_config = ScalingConfig(\r\nnum_workers=4,\r\nuse_tpu=True,\r\ntopology=&amp;quot;4x4&amp;quot;,\r\naccelerator_type=&amp;quot;TPU-V6E&amp;quot;,\r\nplacement_strategy=&amp;quot;SPREAD&amp;quot;\r\n)\r\n\u200b\r\n# JaxTrainer を定義して実行します。\r\ntrainer = JaxTrainer(\r\ntrain_loop_per_worker=train_func,\r\nscaling_config=scaling_config,\r\n)\r\nresult = trainer.fit()\r\nprint(f&amp;quot;Training finished on TPU v6e 4x4 slice&amp;quot;)&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d56f93820&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Ray Serve API は TPU をサポートしており、&lt;/span&gt;&lt;a href="https://blog.vllm.ai/2025/10/16/vllm-tpu.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;vLLM TPU&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; の改善により、TPU に移行する際も vLLM で Ray を引き続き使用できます。これにより、GPU で使用しているのと同じスタックを、最小限のコード変更で TPU で実行できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;ラベルベースのスケジューリング API で簡単に取得可能&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい&lt;/span&gt;&lt;a href="https://www.anyscale.com/blog/introducing-label-selectors-scheduling-ray" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ラベルベースのスケジューリング API&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/products/containers-kubernetes/introducing-new-gke-custom-compute-class-api/?e=48754805&amp;amp;hl=ja"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;GKE&lt;/strong&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt; &lt;/span&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;カスタム コンピューティング クラス&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;と統合されています。カスタム コンピューティング クラスは、名前付きのハードウェア構成を定義する簡単な方法です。たとえば、&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;cost-optimized&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; というクラスを作成して、GKE にまず Spot インスタンスの取得を試み、次に &lt;/span&gt;&lt;a href="https://cloud.google.com/products/dws/pricing?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Dynamic Workload Scheduler&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; FlexStart インスタンスにフォールバックし、最終的に最後の手段として予約インスタンスにフォールバックするように指示できます。新しい Ray API では、Python からクラスを直接使用できます。シンプルな &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;label_selector&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; を使用して、「TPU-V6E」などのハードウェアをリクエストしたり、&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;費用対効果が最適化された&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;クラスをターゲットにしたりでき、これらすべては個別の YAML ファイルを管理することなく行えます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この同じ &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;label_selector &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;メカニズムは、TPU の詳細なハードウェア制御も公開します。GKE は、スライス用の TPU Pod をプロビジョニングする際に、メタデータ（ワーカーランクやトポロジなど）を各 Pod に挿入します。KubeRay（GKE 上の Ray を管理）は、GKE が提供するこのメタデータを読み取り、ノードの作成時に自動的に Ray 固有のラベルに変換します。これにより、TPU の世代（ray.io/accelerator-type）、物理チップのトポロジ（ray.io/tpu-topology）、スライス内のワーカーランク（ray.io/tpu-worker-id）などの重要な情報が提供されます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらのノードラベルを使用すると、Ray の label_selector を使用して、SPMD ワークロードを特定のコロケーション ハードウェア（「4x4」トポロジや特定のワーカーランクなど）に固定できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以下の例では、Ray ユーザーが v6e-32 TPU スライスをリクエストしていますが、GKE にカスタム コンピューティング クラスを使用して、v6e-32 が利用できない場合は v5e-16 にフォールバックするように指示しています。同様に、ユーザーはスポット リソースまたは DWS リソースをリクエストすることから始め、それらが利用できない場合は、予約インスタンスにフォールバックできます。&lt;/span&gt;&lt;/p&gt;
&lt;div align="left"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt; &lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;div align="left"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;
&lt;div style="color: #5f6368; overflow-x: auto; overflow-y: hidden; width: 100%;"&gt;&lt;table style="width: 100%;"&gt;&lt;colgroup&gt;&lt;col style="width: 42.7511%;"/&gt;&lt;col style="width: 57.2489%;"/&gt;&lt;/colgroup&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;デベロッパーがコンピューティングとノードプールを選択&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;プラットフォーム管理者が Kubernetes を設定&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;@ray.remote(num_cpu=1,&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;  label_selector={&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;  &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt; "ray.io/tpu-pod-type": "v6e-32",    “gke-flex-start”: “true”,&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;  },&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt; fallback_strategy&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;=[&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;    {"label_selector": {&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;     &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; "ray.io/tpu-pod-type": "v5litepod-16",     &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;      “reservation-name”: “&lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;v5e-reservation&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;”,&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;      }&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;   &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt; },&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;  &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;]&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;)&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;def tpu_task():&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;  # v6e 4x8 TPU スライス内のノードで実行を試み、&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;  # v6e が利用できない場合は# v5e 4x4 TPU 内のノードにフォールバックする。&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;…&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;td style="vertical-align: top; border: 1px solid #000000; padding: 16px;"&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;apiVersion: cloud.google.com/v1&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;kind: ComputeClass&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;metadata:&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;  &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;name: cost-optimized&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;spec:&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;  &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;priorities:&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;  &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;- flexStart:&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;      &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;enabled: true&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;    &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;tpu:&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;      type: &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;tpu-v6e-slice&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;      &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;count: 8&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;     &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt; topology: 4x8  &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;  - tpu:&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;      &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;type: tpu-v5-lite-podslice&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;     &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;count: 4&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;      &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;topology: 4x4&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;    &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;reservations:&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;      &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;specific:&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;        &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;- name: &lt;/span&gt;&lt;strong style="vertical-align: baseline;"&gt;v5e-reservation&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;        &lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;- affinity: Specific&lt;/span&gt;&lt;/p&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;TPU の指標とログを 1 か所に&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;TensorCore 使用率、デューティ サイクル、高帯域幅メモリ（HBM）使用率、メモリ帯域幅使用率などの主要な TPU パフォーマンス指標を、Ray ダッシュボードで直接確認できるようになりました。また、低レベルの &lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt;libtpu&lt;/span&gt;&lt;span style="vertical-align: baseline;"&gt; ログも追加しました。これにより、コードが原因で障害が発生したのか、TPU ハードウェア自体が原因で障害が発生したのかをすぐに確認できるため、デバッグが大幅に高速化されます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;span style="vertical-align: baseline;"&gt;使ってみる&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;これらのアップデートは、TPU を Ray エコシステムにシームレスに組み込む、大きな一歩です。これにより、既存の Ray アプリケーションを GPU と TPU の間で適応させるプロセスがはるかに分かりやすいものになります。詳細とご利用開始方法は次のとおりです。&lt;/span&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;ドキュメントを読む:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;ul&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;a href="https://docs.ray.io/en/latest/cluster/kubernetes/user-guides/tpu.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;KubeRay で TPU を使用する&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;JAX ワークロード:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; JaxTrainer の使用方法については、新しい&lt;/span&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/tutorials/distributed-training-tpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;JAX を使ってみるガイド&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。&lt;/span&gt;&lt;a href="https://docs.ray.io/en/master/train/getting-started-jax.html" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;JaxTrain の詳細&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;もご覧ください。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="2" style="list-style-type: circle; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 指標: &lt;/strong&gt;&lt;a href="https://docs.cloud.google.com/kubernetes-engine/docs/add-on/ray-on-gke/how-to/view-tpu-metrics"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;TPU 指標&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を Ray ダッシュボードまたは Grafana で表示&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;TPU 容量のリクエスト:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; 7 日未満で実行されるジョブに TPU へのアクセスを提供する &lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/dws-flex-start-training-tpu"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt; TPU 向け&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; &lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/dws-flex-start-training-tpu"&gt;&lt;strong style="text-decoration: underline; vertical-align: baseline;"&gt;DWS Flex Start&lt;/strong&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; を使用して、すぐに開始できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: decimal; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;span style="vertical-align: baseline;"&gt;関連コンテンツ: &lt;/span&gt;&lt;a href="https://jax-ml.github.io/scaling-book/index" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;TPU の概要&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p role="presentation"&gt; &lt;/p&gt;
&lt;p role="presentation"&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;-Nisha Mariam Johnson、&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;プロダクト マネージャー&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;-Ryan O'Leary、&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;ソフトウェア エンジニア&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 11 Nov 2025 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/ray-on-tpus-with-gke-a-more-native-experience/</guid><category>AI &amp; Machine Learning</category><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Ray on GKE で Cloud TPU をよりネイティブに利用</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/ray-on-tpus-with-gke-a-more-native-experience/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Nisha Mariam Johnson</name><title>Product Manager</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Ryan O'Leary</name><title>Software Engineer</title><department></department><company></company></author></item><item><title>Gemini CLI を使用して費用対効果の高い LLM ワークロードを GKE にデプロイする</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/use-gemini-cli-for-cost-effective-llm-workloads-on-gke/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 10 月 18 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/use-gemini-cli-for-cost-effective-llm-workloads-on-gke?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;LLM ワークロードをデプロイするのは複雑で費用もかかり、多くの場合、時間のかかる複数ステップのプロセスを伴います。この問題を解決するために、Google Kubernetes Engine（GKE）では&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/machine-learning/inference/inference-quickstart?hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Inference Quickstart&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;が提供されています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Inference Quickstart を使用すると、手作業による数か月もの試行錯誤を、すぐに使えるマニフェストとデーに基づく分析情報に置き換えることができます。Inference Quickstart は、ネイティブの Model Context Protocol（MCP）サポートを通じて Gemini CLI と統合され、LLM ワークロードのコストとパフォーマンス要件に合わせた最適な推奨を提供します。これらのツールを組み合わせることで、LLM を分析、選択、デプロイする作業を数分で完了できます。その方法をご紹介します。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;1. Gemini CLI を使用して GKE で LLM を選択して提供する&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;a href="https://github.com/google-gemini/gemini-cli" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;gemini cli&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と &lt;/span&gt;&lt;a href="https://github.com/GoogleCloudPlatform/gke-mcp" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;gke-mcp&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; サーバーをインストールする手順は以下のとおりです。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;# Gemini CLI をインストールする（追加の手順）\r\nbrew install gemini-cli\r\n\u200b\r\n# gke-mcp を Gemini CLI 拡張機能としてインストールする\r\ngemini extensions install https://github.com/GoogleCloudPlatform/gke-mcp.git&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d858ab580&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Gemini CLI に指定して LLM ワークロードを選択し、モデルを GKE クラスタにデプロイするために必要なマニフェストを生成するプロンプトの例を以下に示します。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;1. GKE Inference Quickstart で利用できる最も安価なモデルを 3 つ挙げてください。関連するパフォーマンス データと、実行したアクセラレータをすべて提供してください。\r\n2. このモデルを異なるアクセラレータで実行した場合、パフォーマンスはどのように異なりますか？\r\n3. この 2 つのモデルのどちらを選べばよいですか？\r\n4. このアクセラレータでこのモデルのマニフェストを生成し、現在のディレクトリに保存したいです。&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d858ab8b0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;以下の動画では、この Gemini CLI の設定を使用して、最適な LLM ワークロードを迅速に特定し、既存の GKE クラスタにデプロイするエンドツーエンドの例を示しています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-video"&gt;



&lt;div class="article-module article-video "&gt;
  &lt;figure&gt;
    &lt;a class="h-c-video h-c-video--marquee"
      href="https://youtube.com/watch?v=j8AoLxeO_KA"
      data-glue-modal-trigger="uni-modal-j8AoLxeO_KA-"
      data-glue-modal-disabled-on-mobile="true"&gt;

      
        

        &lt;div class="article-video__aspect-image"
          style="background-image: url(https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_FO4rbPT.max-1000x1000.jpg);"&gt;
          &lt;span class="h-u-visually-hidden"&gt;Use Gemini CLI to deploy more cost effective LLM workloads on GKE&lt;/span&gt;
        &lt;/div&gt;
      
      &lt;svg role="img" class="h-c-video__play h-c-icon h-c-icon--color-white"&gt;
        &lt;use xlink:href="#mi-youtube-icon"&gt;&lt;/use&gt;
      &lt;/svg&gt;
    &lt;/a&gt;

    
  &lt;/figure&gt;
&lt;/div&gt;

&lt;div class="h-c-modal--video"
     data-glue-modal="uni-modal-j8AoLxeO_KA-"
     data-glue-modal-close-label="Close Dialog"&gt;
   &lt;a class="glue-yt-video"
      data-glue-yt-video-autoplay="true"
      data-glue-yt-video-height="99%"
      data-glue-yt-video-vid="j8AoLxeO_KA"
      data-glue-yt-video-width="100%"
      href="https://youtube.com/watch?v=j8AoLxeO_KA"
      ng-cloak&gt;
   &lt;/a&gt;
&lt;/div&gt;

&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;2. パフォーマンスを維持しながらコストを節約&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;推論ワークロードに適したハードウェアを選択するには、パフォーマンスとコストのバランスを取る必要があります。ただし、そのトレードオフは単純ではありません。この複雑なトレードオフを簡単にするために、Inference Quickstart は Googleのベンチマークに基づいた、さまざまなアクセラレータにおけるパフォーマンスとコストの分析情報を提供します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;たとえば、下のグラフに示すように、vLLM 上の Gemma 3 4b のようなモデルのレイテンシを最小限に抑えると、コストが大幅に増加します。超低レイテンシを実現するには、リクエストのバッチ処理の効率を犠牲にする必要があるため、アクセラレータの利用率が下がってしまうためです。リクエストの負荷、モデルサイズ、アーキテクチャ、ワークロードの特性はすべて、特定のユースケースに最適なアクセラレータに影響する可能性があります。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_NKTHzu1.max-1000x1000.png"
        
          alt="image1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;十分な情報に基づいて意思決定を行うために、Gemini CLI に質問するか、Inference Quickstart の &lt;/span&gt;&lt;a href="https://colab.research.google.com/github/GoogleCloudPlatform/kubernetes-engine-samples/blob/main/ai-ml/notebooks/giq_visualizations.ipynb" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Colab ノートブック&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;を使用して、データドリブンな推奨事項を即座に取得できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;3. 入力 / 出力トークンあたりの費用を計算する&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE などのプラットフォームで独自のモデルをホストする場合、課金されるのはアクセラレータの時間であり、個々のトークンではありません。Inference Quickstart では、アクセラレータの時間あたりのコストと入力 / 出力スループットを使用して、トークンあたりのコストを計算します。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;次の式では、アクセラレータの総コストを入力トークンと出力トークンの両方に帰属させています。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;$/出力トークン = アクセラレータ $/秒 /（1/4 入力トークン/秒 + 出力トークン/秒）\r\n\u200b\r\nここで\r\n$/入力トークン = ($/出力トークン) / 4&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d858ab970&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この式では、出力トークンのコストは入力トークンの 4 倍であると想定しています。このヒューリスティックの理由は、プレフィル フェーズ（入力トークンの処理）は高度に並列化されたオペレーションであるのに対し、デコード フェーズ（出力トークンの生成）はシーケンシャルな自己回帰プロセスであるためです。Gemini CLI に、ワークロードの予想される入出力比率に合わせてこの比率を変更するように依頼できます。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;費用対効果の高い LLM 推論を実現する鍵は、データドリブンなアプローチを採用することです。ワークロードのベンチマークに依存し、トークンあたりのコストなどの指標を使用することで、予算とパフォーマンスに直接影響する情報に基づいた意思決定を行うことができます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;次のステップ&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/machine-learning/inference/inference-quickstart?hl=ja#deploy"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Inference Quickstart&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; は、コストに関する分析情報と Gemini CLI の統合だけでなく、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/machine-learning/inference/inference-quickstart?hl=ja#storage-optimized"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ストレージ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/machine-learning/inference/inference-quickstart?hl=ja#autoscaling-optimized"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;自動スケーリング&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;、&lt;/span&gt;&lt;a href="https://cloud.google.com/kubernetes-engine/docs/how-to/machine-learning/inference/inference-quickstart?hl=ja#auto-monitoring"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;オブザーバビリティ&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;の最適化も含まれています。GKE Inference クイックスタートを使用して、LLM ワークロードを今すぐ実行し、GKE で LLM を迅速化および最適化する方法をご確認ください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;-Shuwen Fang、&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;ソフトウェア エンジニア&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;-Anna Pendleton、&lt;/strong&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;ソフトウェア エンジニア&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Tue, 11 Nov 2025 00:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/use-gemini-cli-for-cost-effective-llm-workloads-on-gke/</guid><category>AI &amp; Machine Learning</category><category>GKE</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>Gemini CLI を使用して費用対効果の高い LLM ワークロードを GKE にデプロイする</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/use-gemini-cli-for-cost-effective-llm-workloads-on-gke/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Shuwen Fang</name><title>Software Engineer</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Anna Pendleton</name><title>Software Engineer</title><department></department><company></company></author></item><item><title>GKE と Gemini CLI の組み合わせで広がる可能性</title><link>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-and-gemini-cli-work-better-together/</link><description>&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;※この投稿は米国時間 2025 年 11 月 1 日に、Google Cloud blog に&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/products/containers-kubernetes/gke-and-gemini-cli-work-better-together?e=48754805&amp;amp;hl=en"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;されたものの抄訳です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;クラウドネイティブ開発は常に進化しており、Google は、強力かつ直感的なツールで開発者と運用担当者を支援することに専念しています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="https://github.com/GoogleCloudPlatform/gke-mcp" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Gemini CLI 拡張機能&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;がオープンソース化されました。今回は、&lt;/span&gt;&lt;a href="https://github.com/google-gemini/gemini-cli" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Gemini CLI&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; と Google Kubernetes Engine（GKE）がどのように連携し、どのような新しい可能性を生み出すのかをご紹介します。この拡張機能により、GKE が Gemini CLI エコシステムに直接統合され、他の MCP クライアントからも MCP サーバーとして利用できます。これにより、開発者には次のようなメリットがあります。&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;リソース&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: GKE 固有のコンテキストを Gemini CLI の操作にシームレスに統合し、より簡潔で自然なプロンプトを実現します。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;プロンプト:&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt; Gemini CLI のスラッシュ コマンドと統合された詳細なプロンプトを提供し、一般的でありながら複雑なワークフローも簡単に完了できます。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li aria-level="1" style="list-style-type: disc; vertical-align: baseline;"&gt;
&lt;p role="presentation"&gt;&lt;strong style="vertical-align: baseline;"&gt;強力なツール&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: 直感的なコマンドで GKE の機能を活用し、複雑な操作を簡素化します。Cloud Observability などのコンパニオン プロダクトとの統合も、特定のコンテキストとツールの追加により強化され、GKE 利用時の他の GCP プロダクトとのシームレスな互換性を確保しています。&lt;/span&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/images/1_ItG0bc3.max-1000x1000.png"
        
          alt="1"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;定期的なリリースを通じて、GKE および GKE MCP サーバー向けの Gemini CLI 拡張機能の改善と強化を続けています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;お客様からは、すでにこの 2 つの連携について次のような声が寄せられています。「GKE と Gemini CLI の統合に強い関心を寄せています。この統合は、現実世界の課題を解決するためのエキサイティングな道筋を描いており、Google と協力してその未来を共に形作っていくことを楽しみにしています。」- Macquarie Bank エンジニアリング AI およびアーキテクチャ担当責任者 Jason O'Connell 氏&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;Gemini CLI が開発者にとって不可欠なツールになった理由&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;コマンドラインから直接 AI を活用する開発者にとって、Gemini CLI は瞬く間に欠かせないツールとなりました。詳細は、Gemini CLI に関するこちらの&lt;/span&gt;&lt;a href="https://cloud.google.com/blog/ja/topics/developers-practitioners/introducing-gemini-cli/?e=48754805"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;ブログ投稿&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をご覧ください。この強力な AI エージェントは、コアツールへのアクセス機能を備え、幅広い標準機能を提供します。これにより、複雑なタスクを合理化し、開発ワークフローを加速できます。生産性を高めるインテリジェントなツールが持つ変革力を示しています。Gemini CLI は、GitHub で最も多くのスターを獲得したエージェント CLI となり、100 人を超えるコミュニティ コントリビューターが関わる数十回のリリースを重ねています。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;Gemini CLI の主な強みの一つは、その&lt;/span&gt;&lt;a href="https://geminicli.com/extensions/about/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;拡張性&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;です。&lt;/span&gt;&lt;a href="https://geminicli.com/extensions/" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Gemini CLI 拡張機能&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、MCP サーバー、コンテキスト ファイル、カスタム コマンドをシンプルなパッケージにまとめ、Gemini にあらゆるツールの使い方を教えます。この革新的なアーキテクチャにより、多様な拡張機能をシームレスに統合でき、開発者は AI を活用したワークフローを自在にカスタマイズして新たな可能性を切り開くことができます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE: 次世代のワークロードを支える原動力&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;a href="https://cloud.google.com/kubernetes-engine?utm_source=google&amp;amp;utm_medium=cpc&amp;amp;utm_campaign=na-US-all-en-dr-bkws-all-all-trial-e-dr-1710134&amp;amp;utm_content=text-ad-none-any-DEV_c-CRE_665665924789-ADGP_Hybrid%20%7C%20BKWS%20-%20MIX%20%7C%20Txt-Containers-Google%20Kubernetes%20Engine-KWID_43700077212829832-kwd-369526655975&amp;amp;utm_term=KW_google%20kubernetes%20engine-ST_google%20kubernetes%20engine&amp;amp;gclsrc=aw.ds&amp;amp;gad_source=1&amp;amp;gad_campaignid=20368580321&amp;amp;gclid=Cj0KCQjw_L_FBhDmARIsAItqgt7K1rNEhWuf0p_Puridj5pFWPS7whmo6jOeZfu1-3bmGqLTNTX1p-8aAs-gEALw_wcB&amp;amp;e=48754805&amp;amp;hl=ja"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Google Kubernetes Engine（GKE）&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;は、コンテナ化されたアプリケーションのデプロイ、管理、スケーリングを求める企業にとって、引き続き中核的なプラットフォームです。その堅牢で柔軟なインフラストラクチャにより、今後さらに重要性が高まる AI モデルのトレーニングや推論タスクなど、高度で要求の厳しいワークロードに最適な選択肢となっています。これまで GKE は、専用のリソースやプロンプト、ツールを持たず、Gemini CLI に組み込まれた Gemini 基盤モデルを活用してきました。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;新しい GKE Gemini CLI 拡張機能は、驚くほど簡単に利用を開始できます。次の簡単なコマンドを実行して Gemini CLI にインストールするだけです。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-code"&gt;&lt;dl&gt;
    &lt;dt&gt;code_block&lt;/dt&gt;
    &lt;dd&gt;&amp;lt;ListValue: [StructValue([(&amp;#x27;code&amp;#x27;, &amp;#x27;gemini extensions install https://github.com/GoogleCloudPlatform/gke-mcp&amp;#x27;), (&amp;#x27;language&amp;#x27;, &amp;#x27;&amp;#x27;), (&amp;#x27;caption&amp;#x27;, &amp;lt;wagtail.rich_text.RichText object at 0x7f3d82dc37c0&amp;gt;)])]&amp;gt;&lt;/dd&gt;
&lt;/dl&gt;&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;他の MCP クライアントを使用している場合は、&lt;/span&gt;&lt;a href="https://github.com/GoogleCloudPlatform/gke-mcp/tree/main/docs/installation_guide" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;こちら&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;でインストール手順を確認できます。&lt;/span&gt;&lt;/p&gt;
&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;GKE + Gemini CLI: 推論の CUJ を実現&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE と Gemini CLI を組み合わせることで、一般的な推論ユースケースで優れた効果を発揮します。GKE 上での AI モデルのデプロイと管理は、まるでコマンドラインと会話しているかのように自然です。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;この強力な組み合わせがワークフローをどのように変革できるのかを、次の例で見てみましょう。&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong style="vertical-align: baseline;"&gt;シナリオ&lt;/strong&gt;&lt;span style="vertical-align: baseline;"&gt;: ML エンジニアとして、推論モデルをデプロイしたいと考えています。ビジネス要件を満たすために、どのモデルやアクセラレータを使用すればよいかわかりません。そこで、GKE MCP サーバーで構成された Gemini CLI に、レイテンシ要件 1,500 ミリ秒でモデルをデプロイするよう指示します。Gemini CLI は、モデルとアクセラレータの検出から、ビジネス要件に基づいたデプロイ可能な Kubernetes マニフェストの生成までのプロセスを自動化します。この動的なワークフローにより、作業の手間が大幅に軽減されました。&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;
&lt;div class="block-image_full_width"&gt;






  
    &lt;div class="article-module h-c-page"&gt;
      &lt;div class="h-c-grid"&gt;
  

    &lt;figure class="article-image--large
      
      
        h-c-grid__col
        h-c-grid__col--6 h-c-grid__col--offset-3
        
        
      "
      &gt;

      
      
        
        &lt;img
            src="https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2_b3nZdvZ.gif"
        
          alt="2"&gt;
        
        &lt;/a&gt;
      
    &lt;/figure&gt;

  
      &lt;/div&gt;
    &lt;/div&gt;
  




&lt;/div&gt;
&lt;div class="block-paragraph_advanced"&gt;&lt;h3&gt;&lt;strong style="vertical-align: baseline;"&gt;使ってみる&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;&lt;span style="vertical-align: baseline;"&gt;GKE と Gemini CLI を組み合わせることで、開発者は Kubernetes 上で AI を活用する際に、これまでになく効率的でパワフルな開発環境を体験できます。皆さんがこれらのツールを使って生み出す革新的なソリューションを楽しみにしています。&lt;/span&gt;&lt;a href="https://github.com/google-gemini/gemini-cli" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;Gemini CLI&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt; をダウンロードし、&lt;/span&gt;&lt;a href="https://github.com/GoogleCloudPlatform/gke-mcp" rel="noopener" target="_blank"&gt;&lt;span style="text-decoration: underline; vertical-align: baseline;"&gt;GKE Gemini CLI 拡張機能&lt;/span&gt;&lt;/a&gt;&lt;span style="vertical-align: baseline;"&gt;をインストールして、ぜひ試してみてください。ご意見もお聞かせください。&lt;/span&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google シニア エンジニアリング マネージャー &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Adam Parco&lt;/strong&gt;&lt;/p&gt;
&lt;p role="presentation"&gt;&lt;span style="font-style: italic; vertical-align: baseline;"&gt;-Google プロダクト管理担当ディレクター &lt;/span&gt;&lt;strong style="font-style: italic; vertical-align: baseline;"&gt;Allan Naim&lt;/strong&gt;&lt;/p&gt;&lt;/div&gt;</description><pubDate>Fri, 07 Nov 2025 03:00:00 +0000</pubDate><guid>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-and-gemini-cli-work-better-together/</guid><category>AI &amp; Machine Learning</category><category>Containers &amp; Kubernetes</category><og xmlns:og="http://ogp.me/ns#"><type>article</type><title>GKE と Gemini CLI の組み合わせで広がる可能性</title><description></description><site_name>Google</site_name><url>https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-and-gemini-cli-work-better-together/</url></og><author xmlns:author="http://www.w3.org/2005/Atom"><name>Adam Parco</name><title>Senior Engineering Manager, Google</title><department></department><company></company></author><author xmlns:author="http://www.w3.org/2005/Atom"><name>Allan Naim</name><title>Director of Product Management GKE</title><department></department><company></company></author></item></channel></rss>