グーグルは12月7日、 テキスト・画像・音声・動画など複数のデータ形式を理解し、 利用できる新しいAIモデル 「Gemini」 を発表しました。
Geminiは、 そのサイズに応じて3つのモデル(Gemini Ultra、 Gemini Pro、 Gemini Nano)が提供されます。 グーグルのチャットAI 「Bard」 (英語版)ではすでにGemini Proが利用可能で、 2024年度中にはGemini Ultraを用いた 「Bard Advanced」 もリリース予定としています。
一部でGPT-4を凌駕も、 Geminiの性能
Geminiは、 テキスト、 画像、 音声、 動画などの異なるデータ形式を処理できるマルチモーダルAI。 グーグルの最新AIモデルとして、 これまでバックエンドで動いてきた 「LaMDA」 や 「PaLM」 を引き継ぐ流れになります。
なお、 グーグルが提供するチャットAIサービス 「Bard」 は元々これらのLLM(大規模言語モデル)をベースとしており、 Geminiの導入でさらに高度な言語理解と生成能力を持つサービスに進化することが期待されます。
グーグルによれば、 Geminiは 「32の業界ベンチマークのうち30で既存モデルを上回る性能」 を示したといいます。
人文科学、 社会科学など幅広い科目の知識と問題解決力を問うベンチマーク 「MMLU※」 では、 GPT-4の86.4%、 人間の専門家の89.8%を超えて90.0%という驚異的な数値を叩き出したGemini。 その可能性は計り知れません。
※ MMLU: Massive Multitask Language Understandingの略。 テキストモデルのマルチタスク精度を測定するための新しいベンチマーク。
今回提供される3種類のバリエーションのうち、 Gemini Proはマルチタスクに対応する設計がされており、 Gemini Nanoはモバイルデバイスでの動作に特化したモデルとなっています。 いずれのモデルもAI研究の最新技術を活用し、 複数の分野での応用が見込まれるでしょう。
広告/Advertisement
「Pixel 8 Pro」 にGemini実装アップデート
グーグルは2023年12月13日より、 開発者や企業がGoogle Cloudを通じてGemini Proにアクセスできるようにするとしています。 開発者や企業は独自のアプリケーションでGeminiを活用できるとのことです。
また、 グーグルは自社の最新スマートフォン 「Pixel 8 Pro」 にモバイルデバイス向けのGemini Nanoを導入するアップデートを発表。 Googleの独自チップ 「Tensor G3」 上で動作し、 スマートフォン単体(オフライン)での使用が可能になるとしています。
Gemini Nanoはボイスレコーダーアプリでの文字起こしや、 キーボードアプリ 「Gboard」 の機能向上に活かされます。 たとえば文字起こしした録音テキストの要約や、 メールやチャットの返信文の提案を受けられるようになります。 ただし執筆時点での対応言語は英語のみとなっているため注意。
英語版の 「Bard」 ではGemini Proがすでに実装されているため、 誰でも新機能を試すことができます。 また、 2024年度中にはGemini Ultraを用いて処理能力を高めた 「Bard Advanced」 もリリースされる予定です。
SOURCE