您的位置:首頁»生活常識»正文

用企鵝做出的炸雞什麼樣?這個AI「畢卡索」的答案把我逗笑了

由「企鵝」構成的「炸雞」長什麼樣?

用「長頸鹿」組成的「雞」是什麼鬼...長頸雞嗎?

你或許覺得這種並不存在的事物過於荒誕, 而且靠自身的想像力有點難以描述, 但最近,

有AI能把這些東西畫出來了。

例如當你給出設定, 用「大象」構成的「雞」, 一般人還在愁雞頭應該安排在哪, 這款最新的AI已經畫完了, 而且一口氣畫了幾十張:

情不自禁的想來一個「看懂, 掌聲」。

今天要介紹的這位AI界的新晉畢卡索正是OpenAI最近訓練出的圖像生成器, DALL·E。

DALL·E有點特別, 在一定的框架下, 它能按照人類的文字描述, 給出畫面圖像, 無論這段描述有多離譜。

如果讓你畫一幅「一個小白菜寶寶穿著芭蕾舞裙遛狗」, 你可能會一臉懵, 但DALL·E直接就生成了:

主角換成皮卡丘也沒問題, 而且每只狗子都不一樣:

所以, 這看起來就是一個可以利用文本描述生成圖像的AI。 人類的指令就是像是完成填空題, 有一些可選選項, 模式類似:繪製一個「xxx」的「xxx」, 比如下圖中, 選取了「綠色」, 得到了綠色的表。

於是, 不同的關鍵字就組成了千奇百怪的東西, 雖然看著有一絲絲沙雕,

但其實這款AI在製圖方面有著比較全面的功能。

DALL·E都能「畫」些什麼?

比較基礎的就是「控制屬性」。 我們剛才介紹過, 例如「立方體」的「老虎」, 通過兩個簡單的關鍵字構成的一組詞彙, 然後生成畫面:

「環面」的「水」, 很有美感:

還可以「繪製多個物件」, 包括他們的空間關係, 像是下圖:

一個「小」的「紅色」的方塊, 「立」在一個大的「綠色」方塊上。

此時AI不僅要將片語正確組合,而且要形成正確的關聯,避免混淆。下圖是「一隻綠色的大象坐在一隻紅色老鼠身上」,可以感受一下AI的抽象畫法:

另外還可以根據「畫面的視角」生成圖片。

如「美洲獅」「坐在山上」的「鳥瞰圖」,當然也可以選擇平視或者特寫等多個視角選項:

根據「畫面風格」變動生成圖片,「狐貍」「坐在森林裡」的「3D渲染圖」:

類似的關鍵字,還可以換成前幾年比較火的低多邊形風格,也可以改成圖元風格:

還可以生成「橫截面圖」,這西瓜讓AI切的稀碎:

其他的功能還有很多,例如「推理背景細節」,給出一個大概的方向讓AI補充畫面。

像是「早晨,一隻水豚坐在森林裡的畫」,AI會根據關鍵字,推斷光線一類的需求,然後生成不同風格的「畫」這個結果,看效果確實藝術極了:

而我最喜歡的是「合併不相關的概念」。

通常來說,我們組合一個詞彙都是用於描述真實存在的事物,例如木質的桌子。不過好玩的是,DALL·E可以將不同概念的物件「強行」縫合,創造出新的東西,舉個例子,設置由「蝸牛」組成的「漢堡」,於是就出現了漢堡蝸牛:

感覺類似的生成方式,很適合做設計。下圖的關鍵字是,一個「冰川」「形式」的「茶壺」:

更進一步還可以製作「腦洞插畫」,「皮卡丘」「穿著西裝」「擤鼻涕」:

「動物與動物之間的嵌合體」,用「長頸鹿」組成的「雞」:

還有神話中的不太好想像的「貓龍」,在AI眼裡,竟然是長成這樣的:

DALL-E,是什麼?

如果你對去年的GPT-3有印象,就能更簡單的理解DALL·E。GPT-3就是那個給一些詞或者句子,就能夠自己寫文章的那個AI。

這次的DALL·E也是類似的功能,只不過變成給文字生成圖片了。

其本質跟GPT-3一樣,還是變壓器語言模型。在GPT-3那裡,變壓器是從「文字到文字」,這個DALL·E則更進一步,變成了「文字到圖片」。

是不是很神奇?那麼,這個AI又是如何做到的呢?

根據DALL·E創造者OpenAI的介紹,實現這個DALL·E,有兩個關鍵的核心。

第一個,是接收資料流程進行訓練。DALL·E會接收圖像和文字所組合的資料流程,在模型訓練之前,需要對資料進行預處理,一次接受後,會用到1280個標記,其中256個用於標記文本,1024個用於標記圖像。

之後,便是對這些資料進行自回歸建模,這時候,DALL·E使用了一種名為「自注意力層」以及其中的「注意遮罩」。

怎麼理解這個概念呢?大家可以回想一下,平時你在聚精會神地觀察某個東西的時候,是不是會忽略周圍的東西,這時候,你的注意力都集中在那個事物上?

是的,在AI上,也有類似的概念:注意力機制。簡單來說,就是用演算法,讓AI可以在不同外界需要下去選擇性地觀察,找出最有用的點。不同的演算法得出的不同結果,就類似於咱們對同一事物的不同聚焦點,正如詩雲「橫看成嶺側成峰」。

而在「自注意力」上,其實與注意力,只差了一個字,它是後者的一種變體。二者的區別,就是「自注意力」減少了對外部資訊的依賴,在原本就具有的「注意力」分析上,更側重於分析資料流程內部各標記的相關性。

在這個DALL·E中,這樣的不同注意力「遮罩」,一共有著64個。

正是有了足夠多關注和分析的角度,保證了訓練中同一輸入中的每個圖像標記,都能或強或弱地與文字標記產生關聯。

其次,DALL·E還有另外一個核心:看看自己畫得好不好。

你讓他畫畫,他其實會先畫出512幅畫,不過嘛,AI在給你輸出結果前,還會自己斟酌斟酌。

這個使用的便是CLIP網路,這是一個評價系統,它會對自己的作品進行評分,然後根據高低順序排列,排名靠前的,才會輸出給你。

DALL·E畫出的作品

瞭解完來龍去脈,接下來就是作品時間了。

儘管DALL·E推給你的作品都是精挑細選的,但依然有很多鬼畜他媽給鬼畜開門——鬼畜到家的作品。

例如「地球的橫截面」,有的像是Minecraft裡的方塊,有的像是切了一塊火腿。

美洲獅在森林裡的黏土動畫,獅子看完想離開森林:

我這一輩子已經坐過數千次馬桶,但「粉色」、「六邊形」馬桶還是第一次看見:

同時這樣的馬桶,它一秒就畫了一堆。

我們都沒有見過「環形」的「西瓜」,但DALL·E給出的答案似乎也有點道理:

而這個「四面體」的「斑馬」徹底給我笑吐了。

大自然看完,直呼內行。

還有用長頸鹿構成的烏賊:

下圖分別是用貓熊構成的鱷魚、羊駝、企鵝、鯨、烏賊,哪個最可愛?

用企鵝構成的黃瓜:

由企鵝構成的炸雞...那這到底算是炸雞還是炸企鵝?

不過無論是哪一種,都挺萌,而且看起來似乎也挺好吃的。

最後推薦一波DALL·E繪製的最匪夷所思的畫作,「企鵝與肉餅」。真正的——「企鵝肉」。

此時AI不僅要將片語正確組合,而且要形成正確的關聯,避免混淆。下圖是「一隻綠色的大象坐在一隻紅色老鼠身上」,可以感受一下AI的抽象畫法:

另外還可以根據「畫面的視角」生成圖片。

如「美洲獅」「坐在山上」的「鳥瞰圖」,當然也可以選擇平視或者特寫等多個視角選項:

根據「畫面風格」變動生成圖片,「狐貍」「坐在森林裡」的「3D渲染圖」:

類似的關鍵字,還可以換成前幾年比較火的低多邊形風格,也可以改成圖元風格:

還可以生成「橫截面圖」,這西瓜讓AI切的稀碎:

其他的功能還有很多,例如「推理背景細節」,給出一個大概的方向讓AI補充畫面。

像是「早晨,一隻水豚坐在森林裡的畫」,AI會根據關鍵字,推斷光線一類的需求,然後生成不同風格的「畫」這個結果,看效果確實藝術極了:

而我最喜歡的是「合併不相關的概念」。

通常來說,我們組合一個詞彙都是用於描述真實存在的事物,例如木質的桌子。不過好玩的是,DALL·E可以將不同概念的物件「強行」縫合,創造出新的東西,舉個例子,設置由「蝸牛」組成的「漢堡」,於是就出現了漢堡蝸牛:

感覺類似的生成方式,很適合做設計。下圖的關鍵字是,一個「冰川」「形式」的「茶壺」:

更進一步還可以製作「腦洞插畫」,「皮卡丘」「穿著西裝」「擤鼻涕」:

「動物與動物之間的嵌合體」,用「長頸鹿」組成的「雞」:

還有神話中的不太好想像的「貓龍」,在AI眼裡,竟然是長成這樣的:

DALL-E,是什麼?

如果你對去年的GPT-3有印象,就能更簡單的理解DALL·E。GPT-3就是那個給一些詞或者句子,就能夠自己寫文章的那個AI。

這次的DALL·E也是類似的功能,只不過變成給文字生成圖片了。

其本質跟GPT-3一樣,還是變壓器語言模型。在GPT-3那裡,變壓器是從「文字到文字」,這個DALL·E則更進一步,變成了「文字到圖片」。

是不是很神奇?那麼,這個AI又是如何做到的呢?

根據DALL·E創造者OpenAI的介紹,實現這個DALL·E,有兩個關鍵的核心。

第一個,是接收資料流程進行訓練。DALL·E會接收圖像和文字所組合的資料流程,在模型訓練之前,需要對資料進行預處理,一次接受後,會用到1280個標記,其中256個用於標記文本,1024個用於標記圖像。

之後,便是對這些資料進行自回歸建模,這時候,DALL·E使用了一種名為「自注意力層」以及其中的「注意遮罩」。

怎麼理解這個概念呢?大家可以回想一下,平時你在聚精會神地觀察某個東西的時候,是不是會忽略周圍的東西,這時候,你的注意力都集中在那個事物上?

是的,在AI上,也有類似的概念:注意力機制。簡單來說,就是用演算法,讓AI可以在不同外界需要下去選擇性地觀察,找出最有用的點。不同的演算法得出的不同結果,就類似於咱們對同一事物的不同聚焦點,正如詩雲「橫看成嶺側成峰」。

而在「自注意力」上,其實與注意力,只差了一個字,它是後者的一種變體。二者的區別,就是「自注意力」減少了對外部資訊的依賴,在原本就具有的「注意力」分析上,更側重於分析資料流程內部各標記的相關性。

在這個DALL·E中,這樣的不同注意力「遮罩」,一共有著64個。

正是有了足夠多關注和分析的角度,保證了訓練中同一輸入中的每個圖像標記,都能或強或弱地與文字標記產生關聯。

其次,DALL·E還有另外一個核心:看看自己畫得好不好。

你讓他畫畫,他其實會先畫出512幅畫,不過嘛,AI在給你輸出結果前,還會自己斟酌斟酌。

這個使用的便是CLIP網路,這是一個評價系統,它會對自己的作品進行評分,然後根據高低順序排列,排名靠前的,才會輸出給你。

DALL·E畫出的作品

瞭解完來龍去脈,接下來就是作品時間了。

儘管DALL·E推給你的作品都是精挑細選的,但依然有很多鬼畜他媽給鬼畜開門——鬼畜到家的作品。

例如「地球的橫截面」,有的像是Minecraft裡的方塊,有的像是切了一塊火腿。

美洲獅在森林裡的黏土動畫,獅子看完想離開森林:

我這一輩子已經坐過數千次馬桶,但「粉色」、「六邊形」馬桶還是第一次看見:

同時這樣的馬桶,它一秒就畫了一堆。

我們都沒有見過「環形」的「西瓜」,但DALL·E給出的答案似乎也有點道理:

而這個「四面體」的「斑馬」徹底給我笑吐了。

大自然看完,直呼內行。

還有用長頸鹿構成的烏賊:

下圖分別是用貓熊構成的鱷魚、羊駝、企鵝、鯨、烏賊,哪個最可愛?

用企鵝構成的黃瓜:

由企鵝構成的炸雞...那這到底算是炸雞還是炸企鵝?

不過無論是哪一種,都挺萌,而且看起來似乎也挺好吃的。

最後推薦一波DALL·E繪製的最匪夷所思的畫作,「企鵝與肉餅」。真正的——「企鵝肉」。

Next Article
喜欢就按个赞吧!!!
点击关闭提示