文章からリアルな画像を生成!未来のAI「DALL・E 2」をつかってみた

 

文章を入力すると、複数の概念や要素を組み合わせた高画質な画像を生成できるAIモデルの最新バージョン「DALL・E2」。

 

イーロン・マスクをはじめとする、有力な実業家・投資家が参加していることでも注目を集めている、人工知能を研究する非営利団体 Open Aiが開発したこのツール。

 

2021年のリリース直後から利用は招待制となっており、ウェイティングリストで待ちの状態となっていますが、ようやく招待状が届いたので、実際にDALL・E2をつかってみました。

 

 

DALL・E2とは?

 

DALL・E2は、入力した文章テキストの記述から、オリジナルでリアルな画像やアートをAIが自動で作成する、話題となっている未来を感じるツールで、コンセプトやスタイルを思い通りに組み合わせることができます。

 

たとえば、公式で公開されている以下のデモでは、「A bowl of soup that is a portal to another dimension as digital art(デジタルアートとして異次元への入口となる一杯のスープ)」という文章から生成された画像。

 

どれも細部まで書き込まれたリアルなアート作品に仕上がっているのが分かります。

 

 

 

また文字テキストをもとにアップロードした画像にリアルな編集を行うことができ、影やテクスチャを考えながら、特定の位置にオブジェクトを配置、削除することも可能。

 

以下では、犬の位置が絵画の中から、ソファー前に移動しています。

 

 

 

さらにアップロードした画像をもとに、複数のバリエーションを生成することも可能。

 

さまざまな技法や時代に描かれた世界的な名画やアート作品も、オリジナル画像にインスパイアされた新しいデザインに一新されているのが分かります。

 

 

 

DALL・E2のAIテクノロジーは、画像とそれを説明する文字テキストとの関係を学習しています。ランダムなドットのパターンからはじまり、あるイメージの特定の部分を認識すると、そのイメージに向かって徐々にパターンが変化する「ディフュージョン」という処理が施されています。

 

2021年1月に、AIを研究する非営利団体 Open AI が前身となる DALL・E をリリース。その1年後、最新システムとなった「DALL・E2」は、解像度を4倍に高め、よりリアルで正確な画像を生成できるようになっています。

 

以下はDALL・EとDALL・E2を比較した様子。ちなみにお題は、「A painting of a fox sitting in a field at sunrise in the style of Claude Monet(クロード・モネ風に描かれた、朝日に照らされながら野原に座るキツネの絵)」。

 

 

 

DALL・E2を実際に使ってみた

 

DALL・Eがリリースされた2021年1月に利用の応募をし、そこからおよそ1年半。

 

そのまま忘れていたのですが、 やっと利用できる招待状が届いたので、実際にDALL・E2でどのようなことができるのか試してみました。

 

 

 

DALL・E2のログインした状態がこちら。これまでに生成された画像やアート作品が並びます。

 

 

 

実際にゴールデンレトリバーの写真をアップロードし、顔部分のみをブラシでペイントし、「Cute Cat(かわいい猫)」と文字入力を行ったところ、以下のような結果に。

 

 

左上のオリジナル画像と比較すると、見事にかわいい猫と顔が入れ替わっています、しかもリアル。

 

さらにもう一枚、手元にあった愛犬の写真をアップロードし、他のバリエーションを生成してみたところ、。

 

 

二匹の犬がくっつきながら、手を伸ばしている様子までうまく再現されています。

 

では、文字入力による画像の生成はどうでしょう。ここでは、「A koala skateboarding in the park behind sunset(夕日をバックに公園でスケートボードをするコアラ)」と入力してみたところ、。

 

 

こちらもAIが描いたとは思えないほど、正確にコアラをデジタルアート風に仕上げています。

 

 

アメリカで人気の投稿サイト Redditでも話題となっており、招待状を受け取ったユーザーがDALL・E2をつかってさまざまな画像を生成、投稿しています。

 

“Homer Simpson reacts to a Bitcoin crypto crashing, Award-winning, photograph, 3d render”(ホーマー・シンプソンがビットコインの大暴落に反応している様子を、受賞歴のある高画質な3Dレンダリングで)

 

 

“Computer LAN party of the “last supper painting”, in the style of Leonardo da Vinci, oil painting, detailed”(レオナルド・ダ・ビンチの「最後の晩餐」風に油絵で描かれたコンピューターLANパーティー)

 

 

“post apocalyptic McDonald’s (not award-winning)”(この世の終わりのマクドナルド、アマチュア風の撮影で)

 

 

“Ants wearing tiny realistic top hats”(リアルな小さな帽子をかぶったアリ)

 

 

“A man holding a colossal pizza”(巨大なピザを持つ男)

 

 

どれも本物そっくりなリアルな画像で、ありえない状況をAIが見事に描写しています。まだまだたくさんの作品が投稿されています

 

あいまいな文章からでも、かなりの精度で絵を生成されていることには驚き。

 

DALL・E 2は暴力的、憎悪的、または成人向けの画像を生成する能力は制限されています。学習データからこれらのコンテンツを削除することで、DALL・E 2がこれらの概念に触れることを最小限に抑えているそう。

 

また、世界的な問題となっているディープフェーク画像が生成されないよう、公人を含む実在の人物の顔をリアルに表現しないよう、高度なテクニックが駆使されています。