(以下は、TechCrunchのOpenAIに関する記事を翻訳編集したものであり、元の記事・内容について当社が独自に制作・発信しているものではございません。)
投資家たちはサム・アルトマン氏がOpenAIから不本意な形で解任された後、アルトマンが会社に戻る計画を立てていましたが、その一方でOpenAIのスーパーアラインメントチーム(不正な超知的AIの出現を防ぐことを目的とした専門チーム)のメンバーは、人間よりも賢いAIをどのように制御するかという問題に精力的に取り組んでいた。
少なくとも、彼らはそういう印象を与えたいのだろう。
今週、私はスーパーアラインメントチームのメンバーであるコリン・バーンズ、パヴェル・イズマイロフ、レオポルド・アッシェンブレナーの3人と電話で話をした。
彼らはニューオーリンズで毎年開催される「NeurIPS」という機械学習カンファレンスに参加しており、OpenAIの最新の取り組みを発表して、AIシステムが意図した通りに振る舞うことを確認するOpenAIの最新研究を発表していた。
OpenAIは7月にスーパーアラインメントチームを結成。
このチームは「超知能」AIシステム、つまり人間をはるかに超える知能を持つ理論的なシステムを操縦、規制、管理する方法を開発している。
「今日、私たちは基本的に、私たちよりも頭の悪い、あるいはせいぜい人間レベルのモデルを整列させることができます」バーンズは述べた。
「しかし、実際に私たちよりも賢いモデルを整列させることははるかに明白ではなく、どのようにしてそれを行うかはさらに難しく、明らかになっていません。」
スーパーアラインメントの取り組みは、OpenAIの共同設立者でありチーフ・サイエンティストである イリヤ・スツケヴァーによって率いられている。
7月の時点では注目されていなかったが、スツケヴァーがアルトマンの解雇を最初に推し進めた人物の一人であったという事実が判明した今では注目を浴びている。
一部の報道では、アルトマンが復帰した後スツケヴァーが「中立的な立場」にあるとされているが、OpenAIの広報によれば、スツケヴァーは今日現在スーパーアラインメントチームを率いているとのこと。
スーパーアラインメントはAI研究コミュニティ内で少し敏感な話題とされている。このサブフィールドは時期尚早だと主張する人もいれば、赤信号だとほのめかす人もいる。
アルトマンはOpenAIとマンハッタン計画との比較を呼びかけ、化学や核の脅威を含む「破滅的なリスク」からAIモデルを保護するためのチームを結成するまでになったが、一部の専門家は、スタートアップの技術が世界を終わらせ、人間を出し抜く能力をすぐにでも獲得するという根拠はほとんどないと述べている。
差し迫った超知能の主張は、アルゴリズムの偏見やAIの毒性への傾向など、現在のAI規制の差し迫った問題から意図的に注意をそらし、目をそらすことにしかならないと、これらの専門家は付け加えている。
スツケヴァーはOpenAI自体ではなく、それを具現化した何かが将来的に存在の脅威となり得ると真剣に信じているようだ。
彼は、AIが人類に危害を及ぼすことを防ぐというコミットメントを示すために、会社の敷地外で木製の肖像画を燃やしたと伝えられている。また、OpenAIの既存のコンピューターチップの20%をスーパーアラインメントチームの研究のために提供するよう命じている。
アッシェンブレナーは、「最近のAIの進歩は非常に急速であり、それが鈍化しているわけではないことを保証できます」と述べている。
「私たちはまもなく人間レベルのシステムに達すると思いますが、そこで止まるわけではありません。我々は超人的なシステムまで進むでしょう…では、超人的なAIシステムを整列させ、安全なものにするにはどうすれば良いのでしょうか? これは実際には全人類にとっての問題であり、おそらくは現代における最も重要な未解決の技術的な課題かもしれません。」
現在、スーパーアラインメントチームは、将来の強力なAIシステムに適用できる統治および制御フレームワークを構築しようとしている。
超知能の定義や、特定のAIシステムがそれを達成したかどうかが議論の的であることを考えると、これは一筋縄ではいかない作業だ。
しかし、現時点でチームが採用しているアプローチは、より進んだ洗練されたモデル、例えばGPT-4を、GPT-2のようなより弱く、洗練されていないモデルである方向に導くことだ。これにより、望ましい方向に進むように誘導している。
しかしAIがAIを導くことと、人類を脅かすAIを防ぐことと、何の関係があるのだろうか?
これは比喩である。
弱いモデルは人間の監督者の代役であり、強いモデルは超知的なAIの代役である。超知的なAIシステムを理解できないかもしれない人間と同じように、弱いモデルは強いモデルの複雑さやニュアンスをすべて「理解」することはできない。
「小学6年生が大学生を指導していると考えればいい」とイズマイロフは説明した。「小学6年生が、あるタスクについて大学生に教えようとしているとしましょう。たとえ小学6年生が監督しても、細部には間違いがあるかもしれませんが、大学生が要点を理解し、監督者よりもうまくタスクをこなせるという希望があります。」
スーパーアラインメントチームのセットアップでは、特定のタスクで微調整された弱いモデルがラベルを生成し、そのラベルを使って強いモデルにタスクの大枠を「伝達」する。
これらのラベルが与えられれば、たとえ弱いモデルのラベルに誤りや偏りがあったとしても、強いモデルは弱いモデルの意図に従って、多かれ少なかれ正しく汎化することができる。
弱-強モデルのアプローチは、幻覚の分野でのブレークスルーにつながるかもしれない、と研究チームは主張している。
「AIの幻覚は実に興味深いもので、モデルは内部的には、言っていることが事実なのか虚構なのかを知っているのです」とアッシェンブレナーは述べている。
「しかし、今日このようなモデルが訓練される方法では、人間の監督者が、物事を言ったモデルに対して ‘良い’ か ‘悪い’ の評価を行います。そのため、時折無意識のうちに人間は、モデルが虚偽のことを言ったり、モデルが実際には知らないことを言ったりすることに対して、良い評価を与えてしまうことがあるのです。」
「私たちの研究が成功すれば、基本的にモデルの知識を呼び出すことができる技術を開発し、何かが事実で何が虚偽であるかについてその呼び出しを適用し、幻覚を減らすためにこれを使用することができるはずです。」
しかし、この例えは完璧ではない。そのため、OpenAIはクラウドソーシングでアイデアを募りたいと考えている。
このため、OpenAIは1,000万ドルの助成プログラムを立ち上げ、スーパーインテリジェント・アライメントに関する技術研究を支援する。
OpenAIはまた、2025年初頭にスーパーアライメントに関する学術会議を開催し、スーパーアライメント賞のファイナリストたちの研究を共有し、促進する予定だ。
興味深いことに、この助成金の一部は、Googleの元CEOで会長のエリック・シュミットから提供される。
アルトマンの熱烈な支持者であるシュミットは、危険なAIシステムの到来が間近に迫っており、規制当局が十分な備えをしていないと主張し、AI悲観主義の申し子となりつつある。
『Protocol』や『Wired』の報道によれば、AIへの積極的な投資家であるシュミットは、米国政府がAI研究を強化するために提案した設計図を実行に移せば、商業的に莫大な利益を得ることができるという。
この寄付は、皮肉な視点からは美徳を装うものと見なされるかもしれない。
シュミットの個人資産はおよそ240億ドルと推定され、数億ドルもの資金を、彼自身のものも含め、倫理にあまり重点を置いていない他のAIベンチャーやファンドにつぎ込んでいる。
もちろん、シュミットはこれを否定している。
「AIやその他の新興テクノロジーは、私たちの経済と社会を再構築しています。「私は、公共の利益のために責任を持ってAIを開発し、制御するためのOpenAIの新しい(助成金を)支援できることを誇りに思います。
実際、このような商業的動機が透けて見える人物の関与は、OpenAIのスーパーアライメント研究は、コミュニティが将来のカンファレンスに提出することを奨励している研究と同様に、誰でも好きなように利用できるようになるのだろうか?
スーパーアライメント・チームは、OpenAIの研究(コードを含む)と、スーパーアライメント関連の研究でOpenAIから助成金や賞金を受け取った他の人々の研究の両方が、公開されると断言した。
我々はその約束を守るように同社に期待する。
「我々のモデルの安全性だけでなく、他の研究所のモデルや先進的なAI全般の安全性に貢献することは、我々の使命の一部です」とアッシェンブレナーは言う。
「人類全体の利益のために(AIを)安全に構築するという我々の使命の中核をなすものです。そして、この研究を行うことは、AIを有益で安全なものにするために絶対に必要なことだと考えています。」