Google Gemini: 新しい生成AIプラットフォームについて知っておくべきすべて

2024 2/20

2024年2月20日

URLをコピーしました！

（以下は、TechCrunchのGoogle Geminiに関する記事を翻訳・要約編集したものであり、元の記事・内容について当社が独自に制作・発信しているものではございません。）

TechCrunch

Page not found | TechCrunch

Googleは、主力の生成AIモデル、アプリ、およびサービスのフラッグシップスイートであるGeminiで注目を集めている。

しかし、Geminiは有望であるように見えるが別の側面では不十分でもある。

Tech Crunchのレビューで明らかになった情報をもとに、Geminiとは何か、どのように使用できるのか、競合他社と比較してどのような性能なのか、解説していく。

Geminiの最新情報を簡単に把握できるように、新しいGeminiモデルや機能がリリースされるたびに更新されるガイドをまとめた。

Geminiとは？

Geminiは、GoogleのAI研究所であるDeepMindとGoogle Researchによって開発された、Googleの待望の次世代生成AIモデルファミリーである。

Geminiには以下の3つのバリエーションがある：

Gemini Ultra：Geminiのフラッグシップモデル
Gemini Pro：Geminiのライトモデル
Gemini Nano：Google Pixel 8 Proなどのモバイルデバイスで利用される小さく凝縮されたモデル

すべてのGeminiモデルは「ネイティブ・マルチモーダル」に、言い換えれば言葉以上のものを扱い使用できるようにトレーニングされている。

さまざまな音声、画像、動画、プログラムコードベース、異なる言語のテキストを事前にトレーニングし、微調整を行っている。

これは、テキストデータのみでトレーニングされたGoogle独自のLaMDAのようなモデルとは一線を画している。

LaMDAはテキストデータに特化しており、テキスト以外のもの、例えばエッセイやメールの草稿を理解したり、生成したりすることはできない。

しかし、Geminiにはこの制約がなく様々なメディア形式に対応している。

GeminiアプリとGeminiモデルの違いは？

GoogleはGeminiモデルがモバイルのGeminiアプリとは別ものであることを最初から明確にしていなかった。

Geminiのアプリは、特定のGeminiモデルにアクセスするためのインターフェースに過ぎない。

ちなみに、Geminiアプリとモデルは、Googleの開発ツールや環境の一部で利用可能なImagen 2からも完全に独立している。

Imagen 2はGoogleのテキストから画像へ生成するAIモデルである。

これで混乱しているのはあなただけではない。

Geminiは何ができる？

Geminiモデルはマルチモーダル、つまりテキスト、画像、音声、数値など複数の種類のモダリティー（データ）を一度に処理できる統合されたAIモデルであるため、理論的には音声の書き起こしから画像や動画のキャプション付け、アートワークの生成まで、さまざまなマルチモーダルなタスクを実行することができる。

これらの機能のうちまだ製品段階に達しているものはほとんどない（詳しくは後述）が、Googleは近い将来これらすべて（そしてそれ以上）を達成すると約束している。

もちろんGoogleの言葉を鵜吞みにするのは少し難しい。

Googleは元々Bardのローンチで期待を下回る結果を出した。

さらに最近では、Geminiの能力を示すとされた動画が実際には大幅に編集されており、多かれ少なかれ理想的なものであったことが分かり、一部の人々をいら立たせている。

それでも、Googleの主張がおおむね真実であると仮定すると、Geminiのさまざまな層がその潜在能力をフルに発揮したときにできることは以下の通りだ。

Gemini Ultra

Googleによれば、Gemini Ultraはそのマルチモダリティのおかげで、物理の宿題の手助けや、ワークシート上の問題を段階的に解いたり、すでに記入された答えの間違いを指摘したりすることができるという。

特定の問題に関連する科学論文を探し、それらの論文から情報を抽出したり、より最新のデータから新しい図式をつくるために必要な数式を生成するといったタスクにも適用できる。

Gemini Ultraは、先に述べたように、技術的には画像生成をサポートしている。

しかし、この機能はまだ製品化されていない。おそらく、ChatGPTのようなアプリが画像を生成する方法よりも仕組みが複雑だからだろう。

ChatGPTでいうDALL-E 3のような画像ジェネレーターにプロンプトを送るのではなく、Geminiは中間ステップなしで、”ネイティブに “画像を出力する。

Gemini Ultraは、GoogleのフルマネージAI開発者プラットフォームであるVertex AIや、Googleのアプリ・プラットフォーム開発者向けウェブベースツールであるAI Studioを介してAPIとして利用できる。

また、Geminiアプリの動力源にもなっているがこれは無料ではない。Gemini Advancedを介してGemini Ultraにアクセスするには、月額20ドルのGoogle One AI Premiumプランに加入する必要がある。

AI Premiumプランでは、GeminiをあなたのGoogle Workspaceアカウント（Gmail、Docsのドキュメント、Sheetsのプレゼンテーション、Google Meetの録画など）に接続することもできる。例えば、メールを要約したり、ビデオ通話中にGeminiにメモを取らせたりするのに便利だ。

Gemini Pro

Googleによれば、Gemini Proは推論、計画、理解能力においてLaMDAを超えている。

カーネギーメロン大学とBerriAIの研究者による独立研究では、Gemini Proが確かにOpenAIのGPT-3.5よりも長く複雑な推論チェーンを扱うのに優れていると結論づけた。

しかし、この研究ではすべてのLLMと同様に、Gemini Proが特に複数桁の数字を含む数学の問題に苦戦していることも判明しており、ユーザーは誤った推論やミスの例を多く発見している。これに対してGoogleは改良を約束しており、その第一弾がGemini 1.5 Proとして発表された。

Gemini 1.5 Pro（現在はプレビュー中）は、前モデルと比較して多くの点で改良されており、おそらく最も顕著なのは処理可能なデータ量であろう。

Gemini 1.5 Proは約70万単語または約3万行のコードを処理可能だ。これは、Gemini 1.0 Proが処理できる量の35倍に相当する。

また、Gemini 1.5 Proはマルチモーダルであるため、その利用はテキストに制限されない。Gemini 1.5 Proは、異なる言語で最大11時間の音声または1時間の動画を分析できるが、処理速度は遅い。

例えば、1時間の動画でシーン検索をするには30秒から1分の処理がかかる。

Gemini Proは、テキストを入力として受け入れ、テキストを出力として生成するためのAPIとして、Vertex AIを介しても利用できる。

また、追加のエンドポイントであるGemini Pro Visionは、テキストと画像（動画を含む）を処理し、OpenAIのGPT-4 with Visionモデルと同様の形式でテキスト出力できる。

Vertex AI内で、開発者はGemini Proを特定のコンテキストやユースケースにカスタマイズするために、微調整や「grounding」プロセスを使用することができる。

また、Gemini Proは特定のアクションを実行するために外部のサードパーティAPIに接続することも可能だ。

TechCrunch

Google brings Gemini Pro to Vertex AI | TechCrunch After coming to Bard and the Pixel 8 Pro last week, Gemini, Google’s recently announced flagship GenAI model family, is launching for Google Cloud

AI Studioには、Gemini Proを使って構造化されたチャットプロンプトを作成するためのワークフローがある。

開発者は、Gemini ProとGemini Pro Visionの両方のエンドポイントにアクセスすることができ、モデル温度を調整して出力のクリエイティブな範囲を制御し、トーンやスタイルの指示を与える例を提供したり、セーフティ設定を調整したりできる。