Googleの新AIツール：ImageFXとMusicFX、画像と音楽生成の新次元

2024 2/02

2024年2月2日

URLをコピーしました！

（以下は、TechCrunchのAIツールに関する記事を翻訳・要約編集したものであり、元の記事・内容について当社が独自に制作・発信しているものではございません。）

TechCrunch

Google launches an AI-powered image generator | TechCrunch Google has launched a new image generation tool, ImageFX, powered by its recently released Imagen 2 GenAI model.

TechCrunch

Google releases GenAI tools for music creation | TechCrunch Google has released and updated its tools for music creation and lyrics generation. The tools are available in AI Test Kitchen, its app for experimental AI proj…

ImageFX

テイラー・スウィフトのディープフェイクに臆することなく、Googleは画像作成のための新しいAI搭載ツール「ImageFX」をリリースした。

ImageFXは、GoogleのDeepMindチームによって開発された生成AI画像モデルであるImagen 2に基づいており、画像を作成・編集するためのプロンプトベースのUIを提供する。

これは、OpenAIのDALL-E 3、Midjourney、MetaのImagine with Meta AI、Microsoft Designerなどのツールと変わらない。

しかし、ImageFXのユニークな要素は、”表現力豊かなチップ “である。基本的には、キーワード候補のリストで、ユーザーは自分の作品やアイデアの “隣接する次元 “を試すことができる。

Googleはブログポストで、「実験と創造性のために設計されたImageFXは、シンプルなテキストプロンプトで画像を作成し、表現力豊かなチップを使用してプロンプトの新しいテイクを簡単に修正できます」と述べている。

しかし、最近の出来事を考えると悪用される可能性はどうなのだろうか？

Googleは、ImageFXが意図しない方法で使用されることがないよう「技術的セーフガード」を追加し、暴力的、攻撃的、または性的なコンテンツなどの「問題のある出力」を制限する対策を講じていると主張している。

ImageFXはまた、「名前のある人物」（おそらく公人）に対するプロンプトレベルのフィルターも備えている。ただし、Googleはその点についての資料で明確にしていない。

「我々は当初から学習データの安全性に投資してきました。AIの原則に従い、潜在的に有害で問題のあるコンテンツを特定し軽減するために、大規模なテストとレッドチーミングも実施しました。」とGoogleは述べている。

さらなる安全対策として、GoogleはImageFXを使用して作成された画像に”SynthID”と呼ばれるデジタルウォーターマークを付けており、これは画像の編集やクロップに対して頑強であるとされている。

Imagen2で生成されたイメージサンプル
**Image Credits:** Google

Googleはブログポストにて「SynthIDと呼ばれるデジタルウォーターマークは人間の目には見えないが、識別することはできます」と記している。

「Google SearchやChromeでGoogleのAIツールで生成された可能性がある画像に出会った場合、’About this image（この画像について）’の追加の情報でそれを知ることができます。」

ImageFXは、Googleの実験的なAIプロジェクト向けのウェブアプリであるAI Test Kitchenにある。

Imagen2の拡大

関連ニュースとして、Googleは今日、Imagen 2を今週からより多くの製品やサービスに導入すると発表した。これには、次世代のAI検索エクスペリエンスと、管理されたAIサービスVertex AIが含まれます。

Imagen 2は、現在Google Adsのtext-to-image機能やWorkspaceのDuet AI、Duet AIにも組み込まれており、GoogleのSGE（Search Generative Experience）にも統合されている。

SGEは、昨年10月にGoogle Image Searchでユーザーに画像生成ツールを提供し始め、Imagen 2を使用して画像を生成する。ユーザーは望む種類の画像を指定するプロンプトを入力し、SGEの会話内で4つの結果を返してくれる。

Vertex AIでは、Imagen 2はGoogle Cloudの顧客向けにAPIを介して利用可能だ。

また、Imagen 2はGoogleのAI駆動のチャットボットであるBardを介して呼び出すことができる。

Googleは「Imagen 2を使用するとBardはシンプルなプロンプトも、複雑なプロンプトも理解し、さまざまな高品質な画像を生成できます」と説明している。

「犬がサーフボードに乗っている画像を作成してください」といった説明を入力するだけで、Bardはアイデアを具現化するためのカスタムで幅広い視覚的な要素を生成してくれる。

GoogleはまだImagen 2のトレーニングデータを明らかにしていないが、これはそれほど驚くことではない。

Googleのような生成AIベンダーが公に利用可能なデータ（著作権がある場合も含む）を使用してモデルを訓練し、それを商業化して良いのかどうか法的な疑問が残る。

該当する訴訟は進行中であり、ベンダーは公正使用の原則によって保護されていると主張している。しかし、埃が落ち着くまでにはまだ時間がかかるだろう。

その間、Googleは慎重に対応して、この問題については黙秘している。

MusicFX

生成AIツールが信じられないほどの方法で音楽業界を変化させている中、GoogleはAI技術への投資を拡大して新しい曲や歌詞を作成している。

Googleは昨年リリースされた音楽生成ツールであるMusicLMのアップグレードである「MusicFX」を発表した。

MusicFXは、最大70秒の短い歌や音楽ループを作成し、「高品質」かつ「高速」な音楽生成を提供する。

MusicFXは、GoogleのAI Test Kitchenで利用可能であり、このアプリでは実験的なAIシステムを試すことができる。MusicFXは昨年12月に特定のユーザー向けにローンチされたが、今では一般に利用可能となっている。

出来はまずまずといったところだ。

MusicFXは前身と同様に、まずユーザーが作成したい曲を説明するテキストプロンプト（「フラメンコスタイルで演奏される2本のナイロン弦のギター」など）を入力する。

これによりデフォルトで30秒のバージョンを2つ生成し、トラックの長さを50秒または70秒に延ばすか、自動的に開始と終了を繋いでループさせるオプションを選べる。

新しい追加機能として、入力されたテキストプロンプトの代替を提案してくれる。

例えば、「country style」と入力すると、「rockabilly style」と「bluegrass style」といったジャンルが含まれたドロップダウンが表示されるかもしれない。

「catchy」という言葉に対しては、「chill」と「melodic」などのドロップダウンが表示される可能性がある。

MusicFXが生成しない、または生成されたトラックから取り除けないものもある。

著作権に抵触しないようにするため、Googleは特定のアーティストを言及したり、ボーカルが含まれるプロンプトをフィルタリングしている。

また、DeepMind部門が開発した聞こえないウォーターマークであるSynthIDを使用して、MusicFXから生成されたトラックがどれであるかを明確にすることができる。

Googleがアーティストや曲名をフィルタリングするために使用したマスターリストの詳細は不明だが、フィルターを突破することはそれほど難しくないと感じた。

MusicFXはSZAやThe Beatlesのスタイルで曲を生成することを拒否したが、Lake Street Diveに言及したプロンプトは喜んで受け入れた。ただし、生成されたトラックにはそれほど感動できるものではなかった。

TextFX

GoogleはAI Test Kitchenで新しい歌詞生成ツール「TextFX」をリリースした。

これは、MusicFXの一種として想定されているものだ。MusicFXと同様に、TextFXはしばらくの間一部のユーザーにのみ提供されていたが、現在は広く利用可能でアップグレードされている。

GoogleはAI Test Kitchenアプリで説明しているように、TextFXはラップアーティスト兼レコードプロデューサーであるLupe Fiascoとの共同制作だ。

PaLM 2と呼ばれるGoogleのテキスト生成AIモデルによって駆動されており、「[Fiasco]がキャリアを通じて開発してきたリリカルおよび言語的な技術」からインスピレーションを得ています。」とGoogleは述べている。

TextFXがほぼ自動的な歌詞生成ツールであると予想していたが、実際にはそうではなかった。

TextFXは歌詞の執筆プロセスを支援するための一連のモジュールであり、選択した文字で始まる特定のカテゴリの単語を見つけるモジュールや、2つの無関係な物の類似性を見つけるモジュールなどが含まれているものだ。

このツールは使いこなすまでに少し時間がかかるが、作詞家や一般的なライターにとっては有益なリソースとなり得るだろう。

しかし、出力されたものを注意深く確認する必要がある。

Googleは、「TextFXは人物に関する不正確な情報を表示する場合があります。」と警告しており、実際に著者はTextFXに「気候変動は中国政府によってアメリカのビジネスを傷つけるための陰謀である」と提案させた。なんということだろう。

疑問は残る

GoogleはMusicFXやTextFXなど、生成AIを利用した音楽技術への大きな投資を示している。ただし、生成AI音楽に関する厳しい問題に対処する代わりに最新の流行を追う姿勢は、最終的には疑問が残る。

最近では、生成AIを使って慣れ親しんだ音やボーカルを模倣し、本物とほぼ同じかそれに近いものとして広まるトラックが増えている。音楽レーベルは知的財産権の懸念を引き合いに出して、これらのAI生成トラックをSpotifyやSoundCloudなどのストリーミングパートナーに速やかに通報している。

しかし、「ディープフェイク」音楽がアーティスト、レーベル、および他の権利保有者の著作権を侵害するかどうかについての明確な基準はまだ不足している。

昨年8月に、連邦裁判官はAIによって生成されたアートは著作権の対象にならないと判決を下した。しかし、米国著作権庁はまだ立場を明確にしておらず、最近ようやくAIに関連する著作権の問題についての公衆の意見を求め始めた。

また、他のアーティストのスタイルで生成された音楽を商業利用しようとすると、ユーザーが著作権法に違反する可能性があるかどうかも不明なままだ。

Googleは、DeepMindと提携してAlec Benjamin、Charlie Puth、Charli XCX、Demi Lovato、John Legend、Sia、T-Painなどのアーティストと共に作成されたAIモデルをテストしている。これにより、GoogleはYouTubeビジネスの側面に生成AI音楽ツールを展開する慎重な道を築こうとしているのだ。

これは、Stability AIのようないくつかの競合他社とは異なり、「公正使用」がクリエーターの許可なしにコンテンツをトレーニングすることを正当化する立場を取っている。

しかし、レーベルがトレーニングデータ内の著作権のある歌詞について生成AIベンダーを訴え、アーティストたちの不満がある中でも、Googleはその仕事を減速させることなく進めている。

出所：https://techcrunch.com/2024/02/01/google-launches-an-ai-powered-image-generator/　https://techcrunch.com/2024/02/01/google-releases-genai-tools-for-music-creation/