實時更新飛瑞敖最新動態(tài),了解飛瑞敖
老牌雜志《經(jīng)濟(jì)學(xué)人》的封面一向以辛辣和構(gòu)思獨特取勝,而今年年中,《經(jīng)濟(jì)學(xué)人》的雜志封面《Ai’s New Frontier》竟是一張Midjourney人工智能生成的圖片。美國科羅拉多州博覽會美術(shù)大賽的冠軍作品——《太空歌劇院(Théatre D'opéra Spatial)》,也是由AI所生成。
普通人可以用AI生成媲美藝術(shù)家的作品,這讓“一句話生成圖片”在網(wǎng)絡(luò)上爆紅。硅谷知名投資機(jī)構(gòu)紅杉也寫了一篇文章,叫做《Generative AI: A Creative New World》,一時間,也成為投資人競相追逐的賽道,業(yè)內(nèi)人士將生成式AI的賽道稱之為AIGC(Artificial IntelligenceGenarated Content)。
本期節(jié)目,《硅谷101》邀請到了美國西北大學(xué)工業(yè)工程及管理科學(xué)系和計算機(jī)科學(xué)系助理教授汪昭然和大廠數(shù)據(jù)科學(xué)家鐘凱祺來聊聊我們的使用體驗,并嘗試回答“一句話生成圖片”到底是什么,以及AI生成圖片的數(shù)據(jù)與版權(quán)問題。
以下是部分訪談精選
《硅谷101》:您覺得在使用AIGC生成圖片的過程中,有什么有意思的地方,跟大家介紹一下你的使用經(jīng)驗?
鐘凱祺:你之前提到看過一幅照片,后面全是圖書館里的書,前面是幾個機(jī)器人,那張圖就是我畫的。制圖過程當(dāng)中感覺比較重要的事是,后面一定要去學(xué)很多描述風(fēng)格的裝飾詞,甚至是你需要的藝術(shù)家風(fēng)格要明確的告訴它。比如在那一幅圖里面,我就很明確地說是一個比較中古的油畫風(fēng),一個人和一些機(jī)器人一起合作,在一個巨大的古老的圖書館當(dāng)中一起工作。需要把這種感覺描述出來,越精確越好。接下來就是去試結(jié)果,可能試了大概20次左右,已經(jīng)得到一個不錯的結(jié)果。再去看看別人有沒有一些更好的方案。還挺好玩的,像拆盲盒一樣。
《硅谷101》:讓我想起來在片頭提到了這幅獲獎作品,叫做《太空歌劇院》,我其實看了那幅作品,覺得他絕對不是一個“一句話生成圖片”的初級玩家,一定是個高級玩家。
鐘凱祺:那幅圖是精修過的。
《硅谷101》:怎么精修?
鐘凱祺:要參賽的圖片,一般是先用 Midjourney 畫一個底稿,專業(yè)的畫家會在這基礎(chǔ)上再去對它用電腦做一些精修。
原畫師現(xiàn)在用兩種方法精修:
一是直接打出底稿之后用它來做精修;
二是直接做局部:我在某一個局部想要什么,把這個做出來,然后再把幾個局部的圖片“捏”起來,做自己想要的構(gòu)圖。
這幾類的方法現(xiàn)在都有,不完全直接用 AI 制圖。就像攝影技術(shù),照片生成的時候攝影也不太好直接出,因為有可能過度曝光等等的原因,必須要在弄完之后加很多的操作,這種邏輯也是一樣的。等于現(xiàn)在還處在我們和AI作畫技術(shù)不斷磨合、進(jìn)步的這么一個過程當(dāng)中。
《硅谷101》:Midjourney的美學(xué)風(fēng)格是什么決定的?
鐘凱祺:決定美學(xué)風(fēng)格的,
第一是數(shù)據(jù)集,看看本身有什么風(fēng)格?
第二是整個訓(xùn)練和推理的過程,會在過程當(dāng)中不斷地進(jìn)行調(diào)試:設(shè)置一定的函數(shù),來保證達(dá)到的效果是它們想要的。它們會對某一既定的、一致的美學(xué)風(fēng)格去給一些征照的打分,等等的方式來調(diào)優(yōu)每一個模型自己的美學(xué)風(fēng)格。
當(dāng)然這一塊我不是特別專業(yè),但我看到過有一些專業(yè)的畫師在用了各大產(chǎn)品后,非常詳盡的評測,對它們的美學(xué)風(fēng)格是有一定的差異性評價的。
《硅谷101》:我片頭開始講到了那幅獲獎的作品《太空歌劇院》,說它引來了版權(quán)爭議。這個作品它算不算你創(chuàng)作的?它的版權(quán)歸誰?我用DALL·E·2生成的我們播客封面圖的這兩張照片,它的版權(quán)又是歸誰,其他人能不能用這兩幅圖?它目前其實是沒有任何的法律保護(hù),在一個真空地帶的。您怎么看?
汪昭然:這里面包含一個非常嚴(yán)重的問題,就是數(shù)據(jù)確權(quán)的問題。數(shù)據(jù)生成出來的模型到底歸誰,包括一直到下游,你的 Prompt 生成出來的特定的圖片,這個圖片的版權(quán)歸誰?其實現(xiàn)在有很大的爭議。
這也是另外一個值得研究的熱點,就是數(shù)據(jù)怎么定價、數(shù)據(jù)怎么確權(quán)、你怎么保護(hù)你自己的隱私。包括GBP-3做代碼生成,還有微軟現(xiàn)在的產(chǎn)品集成到Visual Studio Code里,它從把Github上的代碼給讀了一遍,生成出來代碼到底算誰的。有些代碼它的許可證可能不允許你去直接抄。如果我的模型生成代碼出來的是一模一樣的,比如生成了3行一樣的,你很有可能就被告了。像谷歌被Oracle告Java的專利侵權(quán),這其實是類似的。就算是人完全看一遍,自己記住再寫一遍,其實也不能保證完全不一樣。所以這其實是一個很大的問題。
那具體到數(shù)據(jù)集里面,如果出現(xiàn)特定人的臉,就算不是一模一樣,但是大同小異,到底算不算侵犯隱私,或者我干脆就愿意把我的數(shù)據(jù)賣給 Open AI 或者是 Stability 做訓(xùn)練,它應(yīng)該給我付多少錢,下游的分成應(yīng)該分多少。這是一個很大的問題,在廣義的經(jīng)濟(jì)學(xué)上,信息是怎么定價的?也是有很多值得研究的課題。
但是另外一方面,這也是好事。我們可以這樣想:如果出現(xiàn)了一個非常嚴(yán)格的、可執(zhí)行的數(shù)據(jù)確權(quán)、數(shù)據(jù)定價的規(guī)則,那么它馬上就能形成一個非常大的數(shù)據(jù)的市場。不僅僅是大模型的,包括現(xiàn)在的推薦系統(tǒng)用到的這些數(shù)據(jù),本質(zhì)上也是從用戶手里面給“騙”來的。你推薦的這些利潤是不是應(yīng)該給用戶分一部分,現(xiàn)在還是非常模糊的階段。
但是現(xiàn)在數(shù)據(jù)隱私的立法已經(jīng)很完善了,我們可能馬上也能看到數(shù)據(jù)的交易。不論是在美國、歐洲或者中國,可能也會有一些政策層面的改變,在這些政策下會發(fā)掘出來什么機(jī)會。很有意思,同時也有很多新的挑戰(zhàn)需要解決。
《硅谷101》:我稍微補(bǔ)充一點,剛剛我們提到的在AI圖片生成平臺生成的作品,它們采用的版權(quán)協(xié)議叫做 CC0機(jī)制:它是一個開放版權(quán)協(xié)議,它的版權(quán)并不完全是屬于我的。比如我雖然可以被認(rèn)為是跟機(jī)器共同創(chuàng)作作品的作者,但是這個作品同時也可以被其他的人去使用或者修改。所以現(xiàn)在應(yīng)該來說在法律上它是最寬泛的一種,但未來會不會收緊我們不知道。
我們剛剛提到的是數(shù)據(jù)的隱私的問題,但另外還有一個是昨天我看見有人轉(zhuǎn)發(fā)了一條即刻,是一期Joe Rogan(美國一個非常著名的播客主持人),跟Steve Jobs(喬布斯)的采訪對話。聽到這里大家肯定會非常奇怪,因為大家知道喬布斯已經(jīng)去世了,是不可能接受采訪的。所以第一反應(yīng)是不是生前的采訪?它其實是一段假的,也是就AI生成的。根據(jù)比如 Joe Rogan 的數(shù)據(jù),和喬布斯生前的采訪的東西,把它整理成的一個AI的采訪對話。我沒有全部聽,大概點進(jìn)去稍微聽了一下,感覺還挺順暢的,它相當(dāng)于是一個假的播客作品。因為GPT3也能寫, 那以后是不是AI可以生成這種大量的假新聞。我記得AI生成圖片火之前,有一段時間 Deepfake(深度偽造技術(shù))也很火。未來這種技術(shù)要怎么樣去做好安全性,完全靠這些企業(yè)的道德標(biāo)準(zhǔn)嗎?
汪昭然:對,這就是一個非常大的挑戰(zhàn)。其實大家可能也沒有什么好的解決方法,因為從原理來看,以前我們說有知識產(chǎn)權(quán)的保護(hù),是因為可以很嚴(yán)格的比對,你到底有沒有侵犯專利,有沒有抄襲文章。但是現(xiàn)在很多東西,你說它是抄了,它也沒有完全抄,但卻有一些神似。就像在連續(xù)空間上不可能有兩個點完全重合,概率是非常非常小的。
所以我覺得這些都是一些需要研究的問題,特別像生成模型,其實很多時候它會帶來一些想不到的技術(shù)難點,就像您說的 Deepfake(深度偽造技術(shù)),或者是生成得一些很有冒犯性的內(nèi)容,這些在某種意義上也回到了“可控生成”的問題上:什么是冒犯性的內(nèi)容?其實我們可能也都沒有一個共識。怎么嚴(yán)格定義、立法定義,因為確立規(guī)則是在這個東西出來之后,本質(zhì)上都會有一些滯后性。甚至在這個時代已經(jīng)不太好定義什么叫做“不好的內(nèi)容”,這是非常有挑戰(zhàn)性的。我其實就非常感興趣在這方面有沒有一些簡單的解決方案,這些都是一些研究性的前沿理論。
《硅谷101》:您覺得生成式AI的最終目標(biāo)可能是什么?
鐘凱祺:其實我覺得這一塊未來會碰到的邊界越來越多,也不斷會有法規(guī)完善,可能法規(guī)和業(yè)界的發(fā)展磨合會是不斷發(fā)生的,有一個碰撞的過程。Stability 的CEO Emad Mostaque 在Twitter上就說過,包括Open AI 的 CEO Sam Altman也在Twitte上說過,生成式AI的最終目標(biāo)是做一個類似于像新時代的搜索引擎。
當(dāng)你想要一幅畫或者一句話、一段語音等等的時候,輸入你想要的內(nèi)容,直接得到一個根據(jù)歷史拼接出來的結(jié)果。這個過程當(dāng)中一定會有越來越多的,可能是版權(quán)、可能是安全性所帶來的問題。但是我認(rèn)為這個過程確實是一個未來的趨勢以及不可逆的。在這個過程當(dāng)中肯定也就會有數(shù)據(jù)定價。
前面所討論到的問題,我理解目前技術(shù)可能還暫時不支持,但肯定會有發(fā)展的空間,因為目前學(xué)界在做的很多,包括深度學(xué)習(xí)的可解釋性等等的探索,如果未來真的可以定位到一些圖片或者是音頻當(dāng)中所用到的語料、或者是素材庫的一個可解釋性,比如根據(jù)Transformer當(dāng)中的Attention(注意力機(jī)制)來定位到一些真正的圖片當(dāng)中的對象,到底哪一個在圖片當(dāng)中的占比最大?可能是來自于哪個藝術(shù)家等等。運(yùn)用這樣的深度學(xué)習(xí)的邏輯,或者是用Prompt當(dāng)中的一些歸因的邏輯,去確定一些數(shù)據(jù)源頭的定價,這應(yīng)該會成為一個新的搜索引擎以及數(shù)據(jù)定價的一個模型。感覺會有很大一段發(fā)展和思潮的路要去走。
《硅谷101》:您覺得未來藝術(shù)家們的機(jī)會與挑戰(zhàn)會有哪些?
汪昭然:我覺得很有意思的是,從藝術(shù)家的角度,現(xiàn)在的商業(yè)模式是不是會有改變?現(xiàn)在大家把一個特定的畫去拍賣,比如畫家成名之后拍賣得更貴、轉(zhuǎn)賣、收藏,像NFT這種風(fēng)格的。但是另外一方面,如果在未來,作為一個畫家,我有沒有可能去賣我的風(fēng)格?因為我的風(fēng)格可以生成無限多的類似風(fēng)格的圖片。其實已經(jīng)出現(xiàn)了一些例子,比如有人就在他的Prompt里面加入一個畫家的名字,這個畫家是專門畫龍的,畫得特別逼真。那是不是加入畫家的名字,生成出來的就有他的風(fēng)格,這個畫家好像現(xiàn)在就遇到了這樣一些法律上的麻煩,到底算不算侵犯我的知識產(chǎn)權(quán),反過來想,這對于畫家是不是也算是一種新的機(jī)會?我來賣我的名字,賣我的風(fēng)格,其實是超越了一幅特定的畫、特定的作品,更廣義上的一種知識產(chǎn)權(quán),或者是一種藝術(shù)升華,我覺得其實也是一個很有意思的方向,可以思考。
【名詞解釋】
OpenAI
一個人工智能實驗室,由營利組織OpenAI LP與母公司非營利組織OpenAI Inc組成,是特斯拉創(chuàng)始人Elon Musk與前YC總裁Sam Altman共同創(chuàng)建。
DALL·E·2
一個通過文本描述生成圖像的人工智能工具,是OpenAI旗下的模型。
Midjourney
一款A(yù)I繪畫工具,只要輸入你想到的文字,就能通過人工智能產(chǎn)出相對應(yīng)的圖片,耗時只有大約一分鐘。