AIツール比較:ChatGPT、Bard、Bing Chat Balanced、Bing Chat Creative 現時点でのお勧めは?

wall e toy on beige pad
  • URLをコピーしました!

(以下は、SearchEngineLandのAIツール比較記事を一部要約・編集したものであり、元の記事・内容については当社が独自に制作・発信しているものではございません。)

AIツール比較:ChatGPT、Bard、Bing Chat Balanced、Bing Chat Creative 現時点でのお勧めは?

この研究では、Open AIのChatGPT、GoogleのBard、MicrosoftのBing Chat Balanced、およびBing Chat Creativeの4ツールに、テーマに沿っているか、正確性、完全性、品質の4つの尺度に基づき比較調査を行った。

目次

テストツールと測定方法

本調査でテストしたツールは以下のとおり;

  • Bard(Google)
  • Bing Chat バランス (Microsoft)…より短い結果を提供
  • Bing Chat クリエイティブ (Microsoft)…より長い結果を提供
  • Chat GPT (OpenAI)…GPT-4をベースにしたもの 

Bing Chatでは、セッション開始ごとに以下の3つのモードから選べる仕様となっている

  • Creative クリエイティブ…3つのモードの中で最も長いもの
  • Balanced バランス…トピックをやや拡大したバージョン
  • Precise 精密…最も短い。今回のテストには含んでいない

各ツールには様々なトピック領域にわたる30の質問を投げかけ、以下四つの指標について4段階評価を行った。

  • テーマに沿っているか(以降”オン・トピック” ):回答内容がクエリの意図にどれだけ忠実か。
    A(回答が的確)~D(回答が質問と無関係だったり、ツールがクエリに回答しない)
  • 正確性:回答で提示された情報が適切で正しいか。
    A(結果のすべてが質問に関連した正確なもの)、D(完全にテーマから外れている、重要な事実誤認がある、など)
  • 完全性:ユーザーが完全で完璧な回答を求めていることを前提する。
    重要なポイントが漏れていたり、内容が大きく隔たる場合はスコア4となる。
  • 品質:文章そのものの質を測定。
    結論から言うと、4つのツールとも、それなりにうまく書けている。

調査結果

monitor screen with openai logo on black background
Photo by Andrew Neel on Pexels.com

正確性:OpenAIが優勢
OpenAIは100%正確な回答を81.5%の精度で正確な回答を提供。(つまり、5件に1件は事実と異なっていた)
Google Bardの精度は63%(回答の1/3以上に誤った情報を含む)で、Bingベースの2ツールはともに精度77.8%(4件に1件の割合で間違いがあった)となった。

ChatGPTは30回中11回満点を獲得、4指標すべにおいてAを獲得した。
Bing Creativeは30回中9回満点を獲得、2番目に高評価となった。

完全性:現時点での突飛した有意ツールは現れず
完全性で50%以上を記録したツールは無し。ただし、A(完璧)とB(ほぼ完璧、わずかな抜けがある)の合計ではChatGPTが3/4強と非常に堅実な回答を提供している。
Bing Creativeがその後に続いた。
ChatGPTは、30回中11回満点を獲得、4つの指標(オン・トピック、正確性、完全性、品質)はすべて最高評価Aを獲得した。
Bing Creativeは、満点の回数が2番目に多く、30回中9回満点を獲得した。

以上の調査結果から、ツールはあくまで支援するものであり専門家ではないこと、また、アウトプットに対し人間の手による確認が必要であることがわかる。
更に、マーケティングの観点からも、ウェブ上の他の場所で見つけた情報をただ再利用するだけでは、ユーザーに価値を提供できないことを理解しておく必要がある。

「ジェネレーティブAIツール スコア比較」
左より、Bard、Bing Chat Balanced、Bing Chat Creative、Chat GPT
(青地:オン・トピック、オレンジ:正確さ、グレー:完全性、黄:品質) 
出典:Search Engline Land

調査結果の説明

ジョーク、ヘイト、記事の概略を要求する3種類のクエリをテストした結果、ChatGPTが、最も網羅性が高く、Bing Chat BalanceとBing Chat Creativeはやや網羅性に欠けるこが判明した。
Bardは2つのクエリに対して堅実なものの、医療関連のクエリでは良い概要を作成できなかった。Bing Chatも、第1次世界大戦や第2次世界大戦といった主要な出来事について言及できなかった。

また、既存の公開コンテンツにおけるコンテンツギャップを特定するよう指示したところ、ChatGPTが最もよく機能し、Bing Chat CreativeとBardがそれに続いた。

医療系のクエリも三つ試してみた。ユーザーに現実的な影響を与える話題であり、基本的な医学的アドバイスしか提供しないため、医学的な問い合わせへの対応には慎重でなければならない。

あいまいさを伴うクエリをいろいろと試してみたところ、すべてのツール低いパフォーマンスを示したが、Bardはちょっと機知に富んだ回答して読者を楽しませてくれた。

smartphone laptop working industry
Photo by Matheus Bertelli on Pexels.com

最適なAIツールはどれか: 総合力ならChatGPT

今回調査した30の質問において、ChatGPTは総合的に最も高く、Bing Chat Creativeを僅かに上回った。3位にはBing Chat Balancedが入ったが、多くの場合は十分な詳細を提供しなかった。新規参入のBardは、今回の調査では最下位となった。
Googleが、AIツールの分野で今後どれだけ差を詰めることが出来るかは未知数だ。Amazon Echo(シェア28%)がGoogle Home(同17.2%)との差を詰めていったように、AIツールの分野で今後どれだけ差を詰めることが出来るかは未知数だ。
これからどうなっていくかはわからないが、見ていて楽しい戦いになるだろう。

質問(抜粋)

当テストに用いた質問の一部を抜粋する

  • 特殊相対性理論に関する論文の概略を説明して
  • 第二次世界大戦におけるビスマルク号沈没の意義について論ぜよ
  • 一番近いピザ屋はどこ?
  • トランプ前米大統領が複数の理由で起訴される可能性があるが、次期大統領選にどのような影響が予想されるか
  • どの航空会社が一番いいのか: ユナイテッド航空、アメリカン航空、ジェットブルーのどれ?
  • 1800年代のアメリカにおける奴隷制の影響について述べなさい
  • オレンジ色の食べ物しか食べない偏食の幼児に作ってあげられる食事は?

出所:Search Engine Land/ ChatGPT vs. Google Bard vs. Bing Chat: Which generative AI solution is best?

TikTokマーケティングのお問い合わせはTORIHADA

torihada

TikTokを活用したマーケティング施策でお困りの際は、TORIHADAまでご相談ください。コンテンツの企画制作、施策のKPI設計とPDCAの実行まで、一貫してサポートいたします。

また、700人以上のクリエイターやインフルエンサーが所属する「PPP STUDIO」から、お客様に適した人材のキャスティングも可能です。

「TikTokの運用のやり方が分からない」「思うような成果が出ない」「インフルエンサーマーケティングをやってみたい」など、ノウハウや実績に基づきお客様の課題や要望に沿って最適なプランをご提案します。

お問い合わせはこちら

wall e toy on beige pad

この記事が気に入ったら
いいね または フォローしてね!

  • URLをコピーしました!

TORIHADA RECRUIT

TORIHADA中途採用はこちら
目次