(以下は、SearchEngineLandのAIツール比較記事を一部要約・編集したものであり、元の記事・内容については当社が独自に制作・発信しているものではございません。)
AIツール比較:ChatGPT、Bard、Bing Chat Balanced、Bing Chat Creative 現時点でのお勧めは?
この研究では、Open AIのChatGPT、GoogleのBard、MicrosoftのBing Chat Balanced、およびBing Chat Creativeの4ツールに、テーマに沿っているか、正確性、完全性、品質の4つの尺度に基づき比較調査を行った。
テストツールと測定方法
本調査でテストしたツールは以下のとおり;
- Bard(Google)
- Bing Chat バランス (Microsoft)…より短い結果を提供
- Bing Chat クリエイティブ (Microsoft)…より長い結果を提供
- Chat GPT (OpenAI)…GPT-4をベースにしたもの
Bing Chatでは、セッション開始ごとに以下の3つのモードから選べる仕様となっている
- Creative クリエイティブ…3つのモードの中で最も長いもの
- Balanced バランス…トピックをやや拡大したバージョン
- Precise 精密…最も短い。今回のテストには含んでいない
各ツールには様々なトピック領域にわたる30の質問を投げかけ、以下四つの指標について4段階評価を行った。
- テーマに沿っているか(以降”オン・トピック” ):回答内容がクエリの意図にどれだけ忠実か。
A(回答が的確)~D(回答が質問と無関係だったり、ツールがクエリに回答しない) - 正確性:回答で提示された情報が適切で正しいか。
A(結果のすべてが質問に関連した正確なもの)、D(完全にテーマから外れている、重要な事実誤認がある、など) - 完全性:ユーザーが完全で完璧な回答を求めていることを前提する。
重要なポイントが漏れていたり、内容が大きく隔たる場合はスコア4となる。 - 品質:文章そのものの質を測定。
結論から言うと、4つのツールとも、それなりにうまく書けている。
調査結果
正確性:OpenAIが優勢
OpenAIは100%正確な回答を81.5%の精度で正確な回答を提供。(つまり、5件に1件は事実と異なっていた)
Google Bardの精度は63%(回答の1/3以上に誤った情報を含む)で、Bingベースの2ツールはともに精度77.8%(4件に1件の割合で間違いがあった)となった。
ChatGPTは30回中11回満点を獲得、4指標すべにおいてAを獲得した。
Bing Creativeは30回中9回満点を獲得、2番目に高評価となった。
完全性:現時点での突飛した有意ツールは現れず
完全性で50%以上を記録したツールは無し。ただし、A(完璧)とB(ほぼ完璧、わずかな抜けがある)の合計ではChatGPTが3/4強と非常に堅実な回答を提供している。
Bing Creativeがその後に続いた。
ChatGPTは、30回中11回満点を獲得、4つの指標(オン・トピック、正確性、完全性、品質)はすべて最高評価Aを獲得した。
Bing Creativeは、満点の回数が2番目に多く、30回中9回満点を獲得した。
以上の調査結果から、ツールはあくまで支援するものであり専門家ではないこと、また、アウトプットに対し人間の手による確認が必要であることがわかる。
更に、マーケティングの観点からも、ウェブ上の他の場所で見つけた情報をただ再利用するだけでは、ユーザーに価値を提供できないことを理解しておく必要がある。
調査結果の説明
ジョーク、ヘイト、記事の概略を要求する3種類のクエリをテストした結果、ChatGPTが、最も網羅性が高く、Bing Chat BalanceとBing Chat Creativeはやや網羅性に欠けるこが判明した。
Bardは2つのクエリに対して堅実なものの、医療関連のクエリでは良い概要を作成できなかった。Bing Chatも、第1次世界大戦や第2次世界大戦といった主要な出来事について言及できなかった。
また、既存の公開コンテンツにおけるコンテンツギャップを特定するよう指示したところ、ChatGPTが最もよく機能し、Bing Chat CreativeとBardがそれに続いた。
医療系のクエリも三つ試してみた。ユーザーに現実的な影響を与える話題であり、基本的な医学的アドバイスしか提供しないため、医学的な問い合わせへの対応には慎重でなければならない。
あいまいさを伴うクエリをいろいろと試してみたところ、すべてのツール低いパフォーマンスを示したが、Bardはちょっと機知に富んだ回答して読者を楽しませてくれた。
最適なAIツールはどれか: 総合力ならChatGPT
今回調査した30の質問において、ChatGPTは総合的に最も高く、Bing Chat Creativeを僅かに上回った。3位にはBing Chat Balancedが入ったが、多くの場合は十分な詳細を提供しなかった。新規参入のBardは、今回の調査では最下位となった。
Googleが、AIツールの分野で今後どれだけ差を詰めることが出来るかは未知数だ。Amazon Echo(シェア28%)がGoogle Home(同17.2%)との差を詰めていったように、AIツールの分野で今後どれだけ差を詰めることが出来るかは未知数だ。
これからどうなっていくかはわからないが、見ていて楽しい戦いになるだろう。
質問(抜粋)
当テストに用いた質問の一部を抜粋する
- 特殊相対性理論に関する論文の概略を説明して
- 第二次世界大戦におけるビスマルク号沈没の意義について論ぜよ
- 一番近いピザ屋はどこ?
- トランプ前米大統領が複数の理由で起訴される可能性があるが、次期大統領選にどのような影響が予想されるか
- どの航空会社が一番いいのか: ユナイテッド航空、アメリカン航空、ジェットブルーのどれ?
- 1800年代のアメリカにおける奴隷制の影響について述べなさい
- オレンジ色の食べ物しか食べない偏食の幼児に作ってあげられる食事は?
出所:Search Engine Land/ ChatGPT vs. Google Bard vs. Bing Chat: Which generative AI solution is best?