Googleが「スマホ単体AI」を解禁──PlayストアにオンデバイスAIの実験場が登場、音声まで乗った今が転換点です

2025年09月15日

ぶっちゃけ「知識」が必要なのではなく、今すぐ結果が欲しい!という方へ

人工知能(LLM)を駆使した広告運用マシンをα版につき大幅割引でご提供します＊α版につき、定員に達し次第締め切ります。

宣伝失礼しました。本編に移ります。

スマートフォンが、ついにクラウドの支えなしに生成AIを走らせる時代に入りました。GoogleはオンデバイスAIのショーケースアプリ「Google AI Edge Gallery」をPlayストアで公開し、最新の軽量モデル群を端末内だけで動作させる体験を誰もが試せるようにしました。今回の公開は、テキストと画像に続いて音声のモダリティを正式にサポートしたことが特に大きな意味を持ちます。通信の有無に左右されず、録音した音声の文字起こしや翻訳がスマホ上で完結する――この変化は、モバイル体験の常識を静かに塗り替え始めています。

何が起きたのか：Playストアで「端末内だけで動くAI」を一般公開

Googleは開発者向けに先行公開していたオンデバイスAIのプレイグラウンドを、Playストアのオープンベータとして一般ユーザーにも開放しました。アプリを入れるだけで、端末内でモデルを読み込み、画像への質問応答、要約・リライト、チャット、そして音声の文字起こし・翻訳までを、オフラインで体験できます。さらに、今後はiOS版の提供、RAG（検索拡張生成）やオンデバイス関数呼び出しのデモ、そして新しい完全オープンソース推論ランタイムへの移行がロードマップに含まれています。開発者の期待も大きく、I/O後わずか2か月でAPKが50万回ダウンロードされたというトラクションが示すとおり、この波は一部の技術者の実験段階を超えて、一般ユーザーの手に届くフェーズへと進みました。

┌─ 2025年春：I/Oでプレビュー公開
│    ・画像＋テキストのオンデバイス体験
├─ 2025年初秋：音声モダリティ追加
│    ・30秒の音声バッチ推論
│    ・アプリ「Audio Scribe」で録音→即文字起こし
└─ 同時期：Playストアのオープンベータ開始
     ・誰でもインストールしてローカルAIを体験

オンデバイスAIの一般公開までの流れ（概念図）

オンデバイスAIの価値：速い、漏れない、止まらない

オンデバイスAIの最も分かりやすい価値は、レイテンシの劇的な低減です。クラウド経由の往復遅延が消えるため、タップした瞬間に返ってくる応答は、意識せずとも体験の質を上げます。次にプライバシーです。音声や画像など、個人性の強いデータは端末から出さずに処理でき、社内規程や顧客の同意管理に悩む機会も減ります。最後に可用性です。機内モード、地下、オフサイトのイベント会場――電波が弱い環境でも、要約・翻訳・画像説明といった主要機能が途切れません。速度・保護・継続性という三位一体のメリットが、モバイルのユースケースを根本から拡張します。

クラウドAI：［端末］⇄（ネットワーク）⇄［サーバ］→応答
オンデバイス：［端末内CPU/GPU/NPU］→即応答
利点：低遅延／データ非持ち出し／オフライン可用性

クラウド推論とオンデバイス推論の体験差（概念図）

このアプリで何ができるか：4つの体験がすべて「端末内」

アプリには、実務でもすぐ使える4つの体験が並んでいます。画像について自然文で質問できる「Ask Image」、録音や音声ファイルを即時に書き起こす「Audio Scribe」、要約やリライト、コード生成など単発タスクを試す「Prompt Lab」、複数ターンのやりとりが可能な「AI Chat」。いずれもネット接続を前提とせず、モデルが端末上で直接応答を返します。音声はまずバッチ処理（最大30秒）からの対応ですが、ストリーミング処理のサポートも計画されており、将来的にはリアルタイム通訳やライブ字幕といった高度な体験に広がる見込みです。

機能            入力         出力           主な用途
Ask Image       画像＋質問   説明・識別      マニュアル代替/現場点検
Audio Scribe    音声         文字起こし/翻訳 会議メモ/取材/医療メモ
Prompt Lab      文章         要約/リライト   ドキュメント整形/コード雛形
AI Chat         文章         対話応答        QA/指示実行/発想支援

Google AI Edge Galleryに実装された主要デモ（筆者編集）

技術の正体：MediaPipe LLM Inference × Gemma 3n × LiteRT

根幹にあるのは、Googleが提供する「MediaPipe LLM Inference API」です。Android上でテキスト生成をはじめ、画像・音声を組み合わせたマルチモーダル入力を処理できる設計で、Gemma 3n（Gemini Nano系の小型モデル）などの軽量LLMが動きます。モデルの量子化やグラフ最適化を施したLiteRT系のランタイムにより、スマホのCPU/GPU/NPUを最大限に活用し、モバイルでも実用的な速度と消費電力に収めます。さらに、GitHubとHugging Faceのコミュニティ連携を通じ、LiteRT形式に最適化されたモデルを簡単に取り込み、アプリ上で入れ替え・評価できるのが特徴です。今後は完全オープンソースの新ランタイム「LiteRT‑LM」への移行も示されており、透明性と拡張性が一段と高まります。

［アプリUI］
   ↓
［MediaPipe LLM Inference API］
   ↓（.task/.litertlm）
［LiteRT推論ランタイム］
   ↓
［Gemma 3nなど軽量LLM（テキスト/画像/音声）］

オンデバイスAIスタックの構造（簡略図）

配信の仕組みが変わる：モデルを「Play」が届ける時代へ

従来、巨大なモデルはアプリに同梱できず、各社は独自の配信や初回ダウンロードで対応してきました。Googleはここに「Play for On-device AI」を重ね、App BundleやGoogle Play配信を使ってモデルの配布・更新を簡素化する仕組みを整えています。開発ドキュメントでも、モデルはビルド時ではなく実行時にダウンロードして端末に配置する運用が推奨され、開発時はadbでのプッシュ、本番はサーバやコミュニティ（Hugging FaceのLiteRTコミュニティ等）から取得する形が案内されています。結果として、ユーザーはアプリ更新と同じ体感でモデルの入れ替えが行え、企業側は配信とストレージの負担を抑えやすくなります。

［開発時］PC→adb→端末（検証）
［本番時］Play/サーバ/コミュニティ→端末（初回DL→差分更新）
利点：アプリ軽量化／更新容易化／回線負荷の平準化

モデル配布の新たな実務フロー（概念図）

誰が使えるのか：対応デバイスと必要スペック

LLM Inference APIは「Pixel 8やGalaxy S23以降の高性能端末に最適化」と明記されています。つまり、最新世代のTensor/ Snapdragon/ Dimensityなど、強力なNPUと十分なメモリ帯域を備えることが前提条件です。エミュレータでは安定動作しない旨も示されており、実機での検証が必須です。企業での横展開を考える際は、社内の端末構成やBYODポリシーと照らし合わせ、サポート対象機の最低ラインを明示することが重要になります。

推奨例：Pixel 8/8 Pro/9系、Galaxy S23/S24/S25系、最新ハイエンドSoC搭載機
注意点：エミュレータ非推奨／RAM・発熱管理／バッテリー最適化

対応デバイス選定の目安（非網羅）

他社の布陣：Samsung・Apple・Metaが描くオンデバイス像

Samsungは「Galaxy AI」を掲げ、S25シリーズでマルチモーダル理解とエージェント型の自動化を前面に出しました。画面上を囲むだけで検索する「かこって検索」の強化や、アプリ横断で操作を代行する方向性が公式にも打ち出されています。さらに「Galaxy AIは2025年末まで無料提供」と案内され、まず体験を浸透させる戦略が見て取れます。Appleは「Apple Intelligence」を中核に据え、対応デバイスを段階的に広げつつ、日本語対応も公表。メモや電話アプリに録音・文字起こし・要約が組み込まれ、通話の文字起こし時には参加者通知などの配慮も明記されています。MetaはLlama 3.2で1B/3Bの軽量モデルを公開し、エッジやモバイルでの組み込みを前提とするラインアップを整えました。オープンな小型モデルの台頭は、端末内AIの裾野をさらに広げます。

項目        Google                         Samsung                         Apple                           Meta
基本方針    Play配信＋Gemma 3n             Galaxy AI（無料*期間）          Apple Intelligence               Llama 3.2（1B/3B等）
特徴        音声対応/Playで試せる           マルチモーダル＋エージェント     端末内処理とプライベートクラウド   オープンで軽量/長文脈
注記        近くiOS版/新ランタイム計画      体験浸透を優先                    日本語対応拡大/通話要約配慮        エッジ最適化が進展

主要プレイヤーのオンデバイスAI戦略（公表情報の要約）

アプリ体験は「タップ」から「意図」へ：エージェント化でUXが跳ねる

オンデバイスAIは、単に速く安全なだけではありません。ユーザーの文脈を端末内で保持し、アプリ横断での行動を自律的に連結できるようになると、体験は「タップ操作」から「意図の委任」へと変わります。旅程づくりなら、メールの予約情報を読み取り、地図と日程表を横断し、リマインダーを自動で設定する。ここにオンデバイス関数呼び出しやRAGが重なると、クラウドとのハイブリッドで知識補完しつつ、個人データの要点は端末に留める新しい標準が見えてきます。ユーザーは1往復の指示で成果物に近づき、アプリの「起動→入力→確認」の摩擦は急速に小さくなります。

［意図］→［オンデバイスLLM］→［関数呼び出し/アプリ連携］→［結果］
（個人データは端末に留め、知識は必要時のみクラウドで補完）

「意図駆動」のスマホ体験（ハイブリッドの基本像）

現場での実装ポイント：90日で「ローカルAI」をプロダクションに

実装は段階的に進めるのが得策です。まずはLLM Inference APIのクイックスタートで、Gemma 3系の量子化済みモデルを取得し、端末内に配置して推論まで動かします。次に、要約やリライトなど単目的のGenAI API（Nano）で「即効のある小さな勝ち」を作る。続いて、画像や音声のマルチモーダル入力を加え、固有業務の語彙や書式に合わせてLoRAで微調整する。最後に、Playを使ったモデル配布と監視運用（温度・トップK・トークン長のパラメータ管理、端末温度・消費電力の計測）を整えれば、企業内展開に耐える基盤になります。

1）端末推論の起動→2）単目的Nano適用→3）マルチモーダル化→4）LoRA微調整→5）Play配信と運用

段階導入の勘所（ロードマップ例）

リスクと限界：精度・負荷・機種格差にどう向き合うか

小型LLMは万能ではありません。長文推論や複雑なコード生成はクラウドの大型モデルに軍配が上がる場面が残ります。端末負荷も無視できません。発熱・バッテリーのピーク管理、バックグラウンド制限への配慮、メモリ断片化対策など、モバイルならではの運用設計が必要です。また、機種格差は避けられません。社内の対応端末を明確にし、非対応機へのフォールバック（クラウド経由や機能縮退）を設けることで、体験の分断を防ぎます。さらに、音声や画像を扱う場合の誤認識・誤検出の取り扱い、記録や通知の設計など、ガバナンス面の設計も欠かせません。

留意点：精度の上限／発熱・電池／機種差／誤認識時の責任境界／フォールバック設計

オンデバイスAI導入時のチェックリスト（要約）

これから半年〜1年で起きること：3つの注目トピック

第一に、音声のストリーミング対応が加速します。リアルタイムの字幕化や逐次通訳、ハンズフリーのエージェント体験が現実味を帯びます。第二に、LiteRT‑LMへの移行とコミュニティ連携の強化です。Hugging FaceのLiteRTコミュニティで最適化済みモデルが増え、アプリからの乗り換えが一段と容易になります。第三に、Playによるモデル配布が整流化し、端末内AIの更新がアプリ更新と同じ感覚で回るようになります。これに合わせて、SamsungやApple、そしてMetaの軽量モデル群とのエコシステム連携が深まり、モバイルAIは「クラウドの一機能」から「プラットフォームの中心」へと位置づけが変わるでしょう。

［今］30秒バッチ音声→［次］ストリーミング／LiteRT‑LM／Play配信高度化→［12か月］本格エージェント化

短期ロードマップの俯瞰（予測）

結び：スマホが「自分専用LLM」になる

今回のPlayストア公開は、開発者のハックを越えて、ビジネスと生活の中心にオンデバイスAIを据える合図です。スマホは単なる入出力の端末ではなく、個人と仕事の文脈を理解し、守り、即座に応える「自分専用LLM」へと進化を始めました。音声という人間の自然なインターフェースが乗ったことで、AIとの距離は一段と縮まります。クラウドと端末が役割分担する新常態のなかで、どの企業も「端末内で何を完結させるか」を設計する時代です。早い段階で試し、学び、基準を固める――それが次の競争優位になります。

［いま］Playで試す→［基盤化］端末＋クラウドの役割分担→［定着］自分専用LLMが日常へ

オンデバイスAIの定着に向けた三段階（まとめ）

なお、Playストアのアプリ詳細には「すべての処理は端末内で完結」「第三者へのデータ共有なし」といったデータセーフティ情報が明記され、企業導入時の説明責任にも資する仕様となっています。アプリ側の「What's new」欄には、Ask ImageやAudio Scribe、Prompt Lab、AI Chatといった具体的なユースケースが列挙され、実利用のイメージをつかみやすくなっています。こうした透明性の高い表現は、オンデバイスAIの価値を非技術者にも理解しやすくする重要な工夫と言えるでしょう。

速度面では、初回トークンの出力時間やデコード速度の実測ベンチマークをアプリ内で確認でき、モデルを切り替えながら端末ごとの体感差を把握できます。プライバシー面では、録音や画像といったセンシティブデータがクラウドに送信されない設計が、多くの業務領域での採用障壁を下げます。通信断下でも機能することは、屋外現場、鉄道・航空、地下設備点検、被災地支援など、ネットワークが不安定になりやすいシーンにおいて致命的な違いを生みます。オンデバイスAIは、単なる「便利」ではなく、業務継続性（BCP）に直結する技術です。

Audio Scribeについては、長尺化・高速化の余地がロードマップに示されており、将来的には同時通訳や会議のライブ要約、取引先との通話メモ自動作成など、より動的なワークフローへの組み込みが想定されます。Ask Imageは製造・建設・小売での現場確認、コンプライアンスの一次チェック、製品カタログの即席検索などに適し、Prompt Labは社内文書の体裁統一やFAQ自動生成、コードの雛形作成などに効きます。AI Chatは個人アシスタントとしての利用に加え、社内ツールとの関数連携が進めば、定型業務の自然言語化が進みます。

技術面では、AndroidのLLM Inference APIが画像・音声の両モダリティを扱えるようになったことで、従来は複数のSDKを横断しなければならなかった処理系を統合できます。Gemma 3nは小さなフットプリントでありながら、量子化や演算の効率化により、数千トークン規模の要約や文体変換、図版の要点抽出といったタスクを現実的な時間と電力でこなします。開発者にとっては、LoRAによる軽量なタスク適応が可能になった点も大きく、特定領域の語彙・文体・フォーマットへ素早く追従できます。LiteRT‑LMへの移行が進めば、推論グラフの可視性とデバッグ性が向上し、端末ごとの最適化もより体系化される見込みです。

配信の実務では、モデルはAPKに内包せず、初回実行時に取得して端末のストレージに配置するのが基本です。これはアプリの容量膨張を避け、モデル更新だけを差分で届けるための設計です。Play for On‑device AIの仕組みを活用すれば、ユーザーの操作なしに安定した配信が可能になり、企業はモデル更新の検証・段階ロールアウト・ロールバックといった運用パターンをPlay Consoleに集約できます。社内向け配布でも、プライベートチャネルやMDMを併用することで、バージョン統制の一貫性を保てます。

対応端末の選定では、SoCの世代とNPU性能、メモリ容量、サーマル設計を総合的に見ます。同じシリーズでも容量違いや地域向けチップ差で体感が大きく変わるため、代表モデルを複数用意し、初回トークンまでの時間、トークン/秒、発熱、バッテリー放電率を定点観測するのが現実的です。特に音声や画像を扱う場合は入出力の前処理コストも無視できません。スレッド数やバッチサイズ、トップK/温度などの生成パラメータは、UIの滑らかさと精度のバランスを取りながら最適化するのが定石です。

SamsungはGoogleのGeminiとの連携を前提に、アプリ横断のAIエージェント像を公式コミュニケーションで提示しています。囲んで検索の即応性向上、文脈理解に基づく次アクションの提案、端末内の情報とクラウド知識のハイブリッドなど、日常操作の自動化に重心を置く姿勢です。Appleは端末内処理を軸に、必要時のみプライベートクラウドにオフロードするアーキテクチャで、通話の録音・文字起こし・要約の組み込み、優先通知などの機能を強化しました。Metaは軽量かつ長文脈の小型モデルを公開し、QualcommやMediaTekといった半導体各社が最適化を進めることで、Android陣営の選択肢を押し広げています。

UXの刷新を進める際は、「どこまで端末内で閉じ、どこからクラウドに委ねるか」をあらかじめ設計図に落とすのが肝要です。たとえば、個人データ（録音・写真・メモ）は端末内で前処理・分類・要約まで行い、公開知識の参照や正規ソースの照合はクラウドの大規模モデルにRAGで問い合わせる、といった分担が現実解です。関数呼び出しは端末内のアプリ権限と整合させ、監査ログを残すことで、セキュリティと再現性を確保できます。これにより、ユーザーは意図を1回伝えるだけで、複数アプリをまたいだ成果物を得られます。

導入プロジェクトでは、まず「使う場面」をクリアに定義し、KPIに先行してユーザーの摩擦を取り除くことに集中します。議事録要約、現場写真の説明生成、コールログの整理といった日次業務の小さな繰り返しを、端末内で瞬時に終わらせる体験を作ることが起点です。その上で、端末負荷を下げるための実装（トークン上限や圧縮、キャッシュ設計、UIの非同期化）を重ね、ロードテストでピーク時の安定性を検証します。運用段階では、モデル更新とアプリ更新を分離し、障害時のロールバック手順を定義することで、現場への影響を最小化できます。

リスク対応では、誤認識時のユーザー通知・修正導線の設計が重要です。音声の固有名詞や専門用語は誤りやすいため、辞書やホットワードを端末内に持たせ、復唱確認や候補提示で補正できるようにします。画像については、品質のばらつきや逆光・手ぶれを前提に、再撮影指示や撮影ガイドを組み込みます。さらに、機種格差を前提に「この機能は端末要件を満たしている場合にのみ有効」と明記することで、サポートコストの肥大化を抑制できます。監査上は、端末内で処理したことを示すログや同意記録を、暗号化して安全に保存する運用が求められます。

短期ロードマップに関しては、音声のストリーミング実装が最大の転換点です。逐次通訳、会議の同時要約、作業現場でのハンズフリー指示といった用途が、端末内のみで成立する段階に入ります。あわせてLiteRT‑LMの成熟とHugging Faceコミュニティの活性化により、モデルの差し替え・比較・評価がこれまで以上に俊敏になります。Playによる配布は、企業や教育機関にとって、アプリ管理の延長でAIモデルを扱える共通言語となり、端末内AIは「導入のための特殊技術」から「運用のための一般スキル」へと移行していきます。

結局のところ、オンデバイスAIは「賢く、静かで、速い」体験を日常化します。ユーザーは待ち時間を意識せず、データの持ち出しに怯えず、電波の心配をせずに創造と判断に集中できます。企業にとっては、クラウド費用の最適化や規制対応の容易化という実利も見逃せません。モバイルOS、チップ、モデル、配信の四層が同じ方向を向き始めた今、早期に基盤と運用の型を押さえた企業から、静かに競争優位が積み上がっていきます。

当社では、AI超特化型・自立進化広告運用マシン「NovaSphere」を提供しています。もしこの記事を読んで
・理屈はわかったけど自社でやるとなると不安
・自社のアカウントや商品でオーダーメイドでやっておいてほしい
・記事に書いてない問題点が発生している
・記事を読んでもよくわからなかった
など思った方は、ぜひ下記のページをご覧ください。手っ取り早く解消しましょう

▼AI超特化型・自立進化広告運用マシンNovaSphere▼