(以下は、Tech CrunchのAIに関する記事を翻訳・要約編集したものであり、元の記事・内容について当社が独自に制作・発信しているものではございません。)
AIは、SAT(アメリカの大学進学適性試験)を簡単に突破し、チェスのグランドマスターを打ち負かし、何事もなかったかのようにコードをデバッグする。
しかし、中学生のスペリング大会に参加すればたちまちに負けてしまうだろう。
AIの進歩の割には、まだスペルが書けないのだ。
DALL-Eのようなテキスト画像生成ツールにメキシコ料理店のメニュー作成を依頼すれば、ちんぷんかんぷんな単語の海に混じって「taao」「burto」「enchida」のような食欲をそそるアイテムが見つかるかもしれない。
また、ChatGPTはあなたの代わりに論文を書いてくれるかもしれないが、”A “や “E “を含まない10文字の単語を出すように促すと、滑稽なほど無能である(”balaclava “と言われた)。
InstagramのAIを使って「New Post」と書かれたステッカーを生成しようとしたところ、家族向けウェブサイトであるTechCrunchでは発言できないようなグラフィックが作成されてしまった。
Lesanの共同創設者でありDAIR InstituteのフェローでもあるAsmelash Teka Hadgu氏は、「画像ジェネレーターは、車や人の顔などの人工物の生成については非常に優れたパフォーマンスを発揮しますが、指や手書き文字などの小さなものについてはあまり優れていません。」と述べている。
画像ジェネレーターとテキストジェネレーターの基礎的な技術は異なるが、どちらの種類のモデルもスペルなどの細部で同じような苦戦を強いられている。
画像ジェネレーターは一般的に拡散モデルを使用し、ノイズから画像を再構成する。
テキストジェネレーターに関しては、LLM(大規模言語モデル)が人間の脳のようにプロンプトを読み取って応答しているように見えるかもしれないが実際には複雑な数学を使用し、プロンプトのパターンをその潜在空間の中のパターンと一致させ、それに応じた回答を生成している。
「画像生成に使われる最新のアルゴリズムである拡散モデルは、与えられた入力を再構築するものです」とHagdu氏はTechCrunchに語った。
「我々は、画像上の文は、非常に、非常に小さな部分であると仮定することができますので、画像ジェネレーターは、これらのピクセルの多くをカバーするパターンを学習します。」
これらのアルゴリズムは学習データで見たものと似たものを再現しようとするが、私たちが当たり前だと思っているルール、例えば “hello “の綴りが “heeelllooo “ではないことや、人間の手には通常5本の指があることなどは、ネイティブには知らない。
AI研究者でアルバータ大学のMatthew Guzdial助教授は、
「昨年でさえ、これらのAIモデルはすべて指の生成が本当に苦手だった。6本か7本の指がついた手を見れば、『すごい、指みたいだ』と言えるでしょう。
同様に、生成されたテキストについても、これは “H “に見えるし、これは “P “に見えると言うことができる。
しかし、これらを一緒に構造化するのは苦手です。」と述べている。
エンジニアは、AIに手の形を教えるために特別に設計されたトレーニングモデルでデータセットを補強することで、これらの問題を改善することができる。
しかし専門家たちは、スペル問題がすぐに解決するとは考えていない。
「似たようなことをすることは想像できる。テキストを大量に作れば、何が良いか悪いかを認識するモデルをトレーニングすることができる。
しかし残念ながら、英語は本当に複雑なのです。」とGuzdial助教授は語った。
また、AIが学習しなければならない言語がいくつもあることを考えると、問題はさらに複雑になる。
Adobe Fireflyのように、テキストをまったく生成しないようにトレーニングしてあるモデルもある。
例えば”レストランのメニュー”や”広告のついた看板”のような単純なものを入力すると、食卓の上に置かれた白紙の画像や、高速道路上の白いビルボードが表示される。
しかし、プロンプトに十分な詳細を盛り込めば、こうしたガードレールは簡単に回避できる。
「これはモグラたたきをしているようなもので、『多くの人が手について文句を言っている— 次のモデルでは手に関する新しいものを追加しましょう』といった具合です。」
「しかし、テキストはもっと難しい。そのため、ChatGPTでさえ本当にスペルを書くことができません。」
Reddit、YouTube、Xなどのプラットフォームでは、ChatGPTがアスキーアート(テキスト文字を使って画像を作成する初期のインターネット・アート)でスペルに失敗する様子を示す動画をアップロードしている人が何人かいる。
「プロンプト・エンジニアリング・ヒーローズ・ジャーニー」と呼ばれる最近のビデオでは、ChatGPTで “Honda “と書かれたアスキーアートの作成に苦戦している。
最終的に成功するが、試練と苦難がなかったわけではない。
「私の仮説のひとつは、彼らがトレーニングでアスキーアートをあまり使わなかったということです」とHagduは言う。
しかし、LLMはたとえ数秒でソネットを書くことができても、本質的には文字が何であるかを理解していない。
「LLMはこのトランスフォーマー・アーキテクチャに基づいているが、実際にはテキストを読んではいない。
プロンプトを入力すると、それがエンコーディングに変換される。
“the “という単語を見たとき、”the “が何を意味するかという一つのエンコーディングを持っていますが、”T”、”H”、”E “については理解していないのです。
そのため、ChatGPTに “O”や “S”のない8文字の単語のリストを作成するように依頼すると、成功率は半分以下です。
実際には、”O”や “S”が何を意味するかを理解していないのです(しかし、おそらく文字のウィキペディアの歴史を引用できるでしょう)。」
これらのDALL-Eによるまずそうなレストランメニューの画像は面白いが、AIの欠点はデマを特定する際に役立つ。
怪しげな画像が本物なのかAIが生成したものなのかを見分けようとするとき、道路標識や文字の書かれたTシャツ、本のページなど、ランダムな文字列がAI生成画像であることを露呈させるだろう。
また、これらのAIモデルが手を生成するのが上手くなる前であれば、6本目(または7本目、8本目)の指が手がかりになることもあった。
しかしGuzdialによれば、AIが間違えるのは指やスペルだけではない。
「これらのモデルは常にこれらの小さな、局所的な問題を起こしています — ただ、私たちはそのいくつかを認識するために特によく調整されているだけなのです」と彼は言う。
例えば、普通の人にとってはAIが生成した楽器店の画像は簡単に信じられるものかもしれない。
しかし、少し音楽に詳しい人が同じ画像を見れば、ギターの弦が7本だったりピアノの黒鍵と白鍵の間隔が違っていたりすることに気づくかもしれない。
AIモデルは驚くべきスピードで進歩しているとはいえ、このようなツールはまだこのような問題に遭遇する可能性があり、技術の能力を制限している。
「これは確かな進歩であることは間違いありません。」とHagduは言う。
「しかし、この技術の誇大宣伝は正気の沙汰ではない。」
出所:https://techcrunch.com/2024/03/21/why-is-ai-so-bad-at-spelling/