(以下は、TechCrunchのGoogle Geminiに関する記事を翻訳・要約編集したものであり、元の記事・内容について当社が独自に制作・発信しているものではございません。)
Googleは、主力の生成AIモデル、アプリ、およびサービスのフラッグシップスイートであるGeminiで注目を集めている。
しかし、Geminiは有望であるように見えるが別の側面では不十分でもある。
Tech Crunchのレビューで明らかになった情報をもとに、Geminiとは何か、どのように使用できるのか、競合他社と比較してどのような性能なのか、解説していく。
Geminiの最新情報を簡単に把握できるように、新しいGeminiモデルや機能がリリースされるたびに更新されるガイドをまとめた。
Geminiとは?
Geminiは、GoogleのAI研究所であるDeepMindとGoogle Researchによって開発された、Googleの待望の次世代生成AIモデルファミリーである。
Geminiには以下の3つのバリエーションがある:
- Gemini Ultra:Geminiのフラッグシップモデル
- Gemini Pro:Geminiのライトモデル
- Gemini Nano:Google Pixel 8 Proなどのモバイルデバイスで利用される小さく凝縮されたモデル
すべてのGeminiモデルは「ネイティブ・マルチモーダル」に、言い換えれば言葉以上のものを扱い使用できるようにトレーニングされている。
さまざまな音声、画像、動画、プログラムコードベース、異なる言語のテキストを事前にトレーニングし、微調整を行っている。
これは、テキストデータのみでトレーニングされたGoogle独自のLaMDAのようなモデルとは一線を画している。
LaMDAはテキストデータに特化しており、テキスト以外のもの、例えばエッセイやメールの草稿を理解したり、生成したりすることはできない。
しかし、Geminiにはこの制約がなく様々なメディア形式に対応している。
GeminiアプリとGeminiモデルの違いは?
GoogleはGeminiモデルがモバイルのGeminiアプリとは別ものであることを最初から明確にしていなかった。
Geminiのアプリは、特定のGeminiモデルにアクセスするためのインターフェースに過ぎない。
ちなみに、Geminiアプリとモデルは、Googleの開発ツールや環境の一部で利用可能なImagen 2からも完全に独立している。
Imagen 2はGoogleのテキストから画像へ生成するAIモデルである。
これで混乱しているのはあなただけではない。
Geminiは何ができる?
Geminiモデルはマルチモーダル、つまりテキスト、画像、音声、数値など複数の種類のモダリティー(データ)を一度に処理できる統合されたAIモデルであるため、理論的には音声の書き起こしから画像や動画のキャプション付け、アートワークの生成まで、さまざまなマルチモーダルなタスクを実行することができる。
これらの機能のうちまだ製品段階に達しているものはほとんどない(詳しくは後述)が、Googleは近い将来これらすべて(そしてそれ以上)を達成すると約束している。
もちろんGoogleの言葉を鵜吞みにするのは少し難しい。
Googleは元々Bardのローンチで期待を下回る結果を出した。
さらに最近では、Geminiの能力を示すとされた動画が実際には大幅に編集されており、多かれ少なかれ理想的なものであったことが分かり、一部の人々をいら立たせている。
それでも、Googleの主張がおおむね真実であると仮定すると、Geminiのさまざまな層がその潜在能力をフルに発揮したときにできることは以下の通りだ。
Gemini Ultra
Googleによれば、Gemini Ultraはそのマルチモダリティのおかげで、物理の宿題の手助けや、ワークシート上の問題を段階的に解いたり、すでに記入された答えの間違いを指摘したりすることができるという。
特定の問題に関連する科学論文を探し、それらの論文から情報を抽出したり、より最新のデータから新しい図式をつくるために必要な数式を生成するといったタスクにも適用できる。
Gemini Ultraは、先に述べたように、技術的には画像生成をサポートしている。
しかし、この機能はまだ製品化されていない。おそらく、ChatGPTのようなアプリが画像を生成する方法よりも仕組みが複雑だからだろう。
ChatGPTでいうDALL-E 3のような画像ジェネレーターにプロンプトを送るのではなく、Geminiは中間ステップなしで、”ネイティブに “画像を出力する。
Gemini Ultraは、GoogleのフルマネージAI開発者プラットフォームであるVertex AIや、Googleのアプリ・プラットフォーム開発者向けウェブベースツールであるAI Studioを介してAPIとして利用できる。
また、Geminiアプリの動力源にもなっているがこれは無料ではない。Gemini Advancedを介してGemini Ultraにアクセスするには、月額20ドルのGoogle One AI Premiumプランに加入する必要がある。
AI Premiumプランでは、GeminiをあなたのGoogle Workspaceアカウント(Gmail、Docsのドキュメント、Sheetsのプレゼンテーション、Google Meetの録画など)に接続することもできる。例えば、メールを要約したり、ビデオ通話中にGeminiにメモを取らせたりするのに便利だ。
Gemini Pro
Googleによれば、Gemini Proは推論、計画、理解能力においてLaMDAを超えている。
カーネギーメロン大学とBerriAIの研究者による独立研究では、Gemini Proが確かにOpenAIのGPT-3.5よりも長く複雑な推論チェーンを扱うのに優れていると結論づけた。
しかし、この研究ではすべてのLLMと同様に、Gemini Proが特に複数桁の数字を含む数学の問題に苦戦していることも判明しており、ユーザーは誤った推論やミスの例を多く発見している。これに対してGoogleは改良を約束しており、その第一弾がGemini 1.5 Proとして発表された。
Gemini 1.5 Pro(現在はプレビュー中)は、前モデルと比較して多くの点で改良されており、おそらく最も顕著なのは処理可能なデータ量であろう。
Gemini 1.5 Proは約70万単語または約3万行のコードを処理可能だ。これは、Gemini 1.0 Proが処理できる量の35倍に相当する。
また、Gemini 1.5 Proはマルチモーダルであるため、その利用はテキストに制限されない。Gemini 1.5 Proは、異なる言語で最大11時間の音声または1時間の動画を分析できるが、処理速度は遅い。
例えば、1時間の動画でシーン検索をするには30秒から1分の処理がかかる。
Gemini Proは、テキストを入力として受け入れ、テキストを出力として生成するためのAPIとして、Vertex AIを介しても利用できる。
また、追加のエンドポイントであるGemini Pro Visionは、テキストと画像(動画を含む)を処理し、OpenAIのGPT-4 with Visionモデルと同様の形式でテキスト出力できる。
Vertex AI内で、開発者はGemini Proを特定のコンテキストやユースケースにカスタマイズするために、微調整や「grounding」プロセスを使用することができる。
また、Gemini Proは特定のアクションを実行するために外部のサードパーティAPIに接続することも可能だ。
AI Studioには、Gemini Proを使って構造化されたチャットプロンプトを作成するためのワークフローがある。
開発者は、Gemini ProとGemini Pro Visionの両方のエンドポイントにアクセスすることができ、モデル温度を調整して出力のクリエイティブな範囲を制御し、トーンやスタイルの指示を与える例を提供したり、セーフティ設定を調整したりできる。
Gemini Nano
これはGemini ProとUltraモデルを大幅に小型化したもので、モバイルで直接実行できるほど効率的だ。
タスクをどこかのサーバーに送る代わりに、直接スマートフォン内で実行可能だ。
現時点ではGoogle Pixel 8 Proの「Recorder」での要約、および「Gboard」でのスマートリプライの2つの機能をサポートしている。
どちらの機能も日本を含むグローバルで展開されているが、対応言語は US キーボードの英語のみだ。
Recorderアプリはユーザーがボタンを押して音声を録音しテキストに書き起こすことができるアプリで、録音した会話、インタビュー、プレゼンテーション、その他の断片のGeminiを利用した要約が含まれている。
ユーザーは、電波が届かない場所やWi-Fi接続ができない場所でも要約を取得できる。
またプライバシーに配慮し、このプロセス中にデータがモバイルを離れることはない。
Gemini Nanoは、GoogleのキーボードアプリであるGboardにも開発者プレビューとして入っている。
GboardにはSmart Replyと呼ばれる機能を搭載しており、メッセージングアプリで会話をしているときに次に言いたいことを提案してくれる。
この機能は当初WhatsAppでのみ動作していたが、Googleによれば2024年には他のアプリでも利用可能になる予定だ。
Geminiの価格はいくら?
Gemini ProはGeminiアプリ、および現時点ではAI StudioとVertex AIで無料で利用できる。
ただし、VertexでのGemini Proのプレビュー終了後、モデルの利用には1文字あたり0.0025ドルがかかり、出力には1文字あたり0.00005ドルがかかる。
Vertexの顧客は1,000文字(約140から250単語)あたりに支払いが発生し、Gemini Pro Visionなどのモデルの場合は画像ごとに0.0025ドルの支払いがある。
たとえば、500単語の記事には約2,000文字が含まれると仮定する。この記事をGemini Proで要約する場合のコストは5ドルだ。一方で、同じくらいの長さの記事を生成する場合のコストは0.1ドルになる。
Ultraの価格についてはまだ発表されていない。
Geminiはどこで試せる?
Gemini Pro
Gemini Proを体験する最も簡単な方法は、Geminiアプリ内だ。ProおよびUltraはさまざまな言語でクエリに回答している。
Gemini ProとUltraはVertex AIのプレビューでもAPIを介してアクセス可能だ。APIは当面「一定の制限内」で無料で利用でき、ヨーロッパなどの特定の地域や、チャット機能やフィルタリングなどの機能をサポートしている。
また、AI StudioでもGemini ProおよびUltraが利用できる。このサービスを使用すると、開発者はプロンプトやGeminiベースのチャットボットを反復処理し、それらをアプリで使用するためのAPIキーを取得するか、コードをより充実したIDEにエクスポートすることができる。
開発者向けのDuet AIは、Googleのコード補完と生成のためのAIを搭載した支援ツール群で、現在Geminiモデルを使用している。そしてGoogleは、ChromeとFirebaseモバイル開発プラットフォーム用の開発ツールにもGeminiモデルを導入した。
Gemini Nano
Gemini NanoはGoogle Pixel 8 Proに搭載されており、将来的には他のデバイスにも搭載される予定だ。
このモデルをAndroidアプリに組み込むことに興味のある開発者は、スニークピークに登録することができる。
出所:https://techcrunch.com/2024/02/16/what-is-google-gemini-ai/