みんなのケータイ

Googleの最新「Gemini 1.5 Pro」を触ってみたら音声・動画認識がスゴい!

 日々AI絡みの何かしらの進化があって、キャッチアップするのがめちゃ大変になってきている今日この頃。4月9日にはGoogleの最新AIモデル「Gemini 1.5 Pro」がプレビューリリースされて、誰でも試せるようになったので、ちょっとだけ触ってみた。

 「Gemini 1.5 Pro」を試すには、「Google AI Studio」というWebサイトが手っ取り早い。これは、基本的にはGeminiのAPIを利用してサービス開発したい人向けの、いわゆるプレイグラウンド的なもの。プロンプトや入力データによる挙動をあらかじめここで確認し、各種プログラミング言語のコードとして出力できるツールだ。

Gemini 1.5 Proを手っ取り早く試せる「Google AI Studio」。画面テーマはダークモードしかないようだ

 ChatGPTと同じようにプロンプトを入力し、チャット形式でAIとやりとりする形になっている。ただ、4月11日時点ではGemini 1.5 Proを利用したコード出力には対応していない。プレビュー段階ということで、とりあえずはGemini 1.5 ProのAIモデルの動作をここで確認できるよ、という状況のようだ。

Gemini 1.0 Pro選択時はコード出力のボタンが無効化される

 Webサイトなのでスマホからもアクセス可能ではあるものの、PCなど横幅の広い画面に最適化されており、縦置きだと表示されないことがある。その場合は端末を横置きにすることでギリギリ利用できるが、やはりPCやタブレットなど画面の広い端末がおすすめだ。

縦置き時に画面幅が狭い場合、利用できない
スマホを横置きすればなんとか見えるが使いにくい
タブレットならまあまあイイ感じに表示される

 利用料金は、今のところは無料。といっても、1分間に2回までのリクエストかつ3万2000トークンまで、といったわりと厳しい制限があるので、ガシガシ使いまくる、というわけにはいかない。制限が緩和される有料版は近日提供予定(PCからアクセスすると筆者の場合は5月2日と表示された)となっているので、本格利用はそれ以降ということになるだろう。

有料版は後日提供。今は無料の制限の範囲内で試せる

 で、気になるのは、Gemini 1.5 Proで音声認識できるようになったうえに、動画の認識も可能になったという点。今回はこの2つの機能をチェックしてみることにした。

 まずは音声認識がどれくらいの精度なのか、Google Pixel 8 Proのレコーダーアプリで録音した音声ファイルを元に確かめてみる。参考までにレコーダーアプリの端末ローカル(リアルタイム)と、ChatGPT(Whisper API)での文字起こし結果とも比べてみた。

「Gemini 1.5 Pro」を選択した状態で「Audio」からファイルアップロード
音声ファイルなどのデータは自身のアカウントのGoogle ドライブにアップロードする形になる
わずか数秒で文字起こしが完了
各種ツールでの文字起こしの結果比較

 Gemini 1.5 Proでは固有名詞が正確に表記され、文字起こししたときに強調すべき「水」というワードをカギカッコつきで表現していることが、なによりもスゴい。一部端折られている言葉があるのは気になるものの、全般的には影響のないレベルで、早く有料版のAPIでガッツリ使ってみたいなと思う。

 ちなみに、録音データをアップロードするだけでなく、その場でマイク入力して録音し、文字起こしすることも可能。スマホやタブレットでも動作する。いずれはGemini 1.5 Proを利用したリアルタイム文字起こしアプリも登場するのだろうか。

スマホから音声入力してみた
スマホを横置きすればなんとか見えるが使いにくい
PCで同じ画面を表示。「古池や蛙飛びこむ水の音」の認識精度は残念ながら低めだったが、筆者のしゃべり方の問題かも

 次に動画の認識だ。Google AI Studioでは最初からいくつかのサンプル動画が用意されているが、ここでは筆者が撮影した数秒の動画をもとに、場所の推定と、映り込んでいる人の数の認識、看板等の文字の認識が可能かどうかにチャレンジした。

サンプル動画があらかじめいくつか用意されている
筆者が撮影した短い動画を使ってみる
認識結果

 結果はスクリーンショットにある通り。場所はAIの指摘通りたしかに空港(ラスベガス)だ。映り込んでいる人の数は実際には7、8人いそうだが、「少なくとも5人」と認識された。人の姿形ではっきり見えているのは多くないから、ここは仕方がないかも。看板などの文字も、画質があまりよくないなかで頑張って読み取ってくれている。ただ、「Excape the ordinary」「Lounge like a boss」「HOLLYWOOD」という3つは誤認識だ。

 無料版しかまだ試せないこともあって、本来の実力はまだまだはかり切れていないけれど、このレベルのAI認識が遠くない将来、スマホ上で当たり前のように使えるようになるかも、ということを考えると、ものすごく楽しみ。ChatGPTやCopilotやClaudeやCommand R+などなど、他にもたくさんのAIサービスやAIモデルが存在するとはいえ、スマホと密接に連携してくれそうという意味で、Google Geminiに対する筆者の期待感は自然と大きくなってしまうところだ。