前篇: midjourney 初心者 AI詠唱詩學徒筆記: 用 midjourney 學 色彩入門
續篇: midjourney 初心者 AI詠唱詩學徒筆記: 公眾領域創作
很喜歡鄭問的作品, Midjourney 上似乎有他的風格, 但不確定,
一開始自由創作時, 跑出一張美圖.
不曉得是否是因為 我之前都在產生美照的關係... ^^
free creation in the style of Chen Uen
想想還是來指定一個他之前畫的主題 刺客
assassin jumping up to embrance, in the style of Chen Uen
( PS: Midjourney 現在禁止使用 kill 這個單字, 還好刺客 assassin 是可以的... )
似乎有一點他的風格, 之後有機會來寫篇關於他的網誌 ^^
偶然間 看 wiki 知道鄭問最後想做一個關於清明上河圖的作品
一時興起, 想讓 Midjourney 畫清明上河圖
Chinese drawing, Along the River During the Qingming Festival
但不是想要的感覺. 或者會不會其實 AI 已經有學張擇端的畫風?
上圖總覺得AI 可能還不認識,
不像井上雄彥那樣, 即使指定了 cinematic 還會一直畫他的風格?
free creation in the style of Inonu takehiko
slam dunk, in the style of Inonu Takehiko, cinematic
slam dunk, style of Inonu Takehiko
看來AI 學到紅頭髮是標誌 ^^
( 話說灌籃高手台灣 1/13 也要上映了, 1/11 7-11 電影套票紀念開賣 )
再用 free creation by 看看,
的確 Zhang Zeduan, Qiu Ying, Shen Yuan,
也跑出美圖了 OMG, 這些圖總感覺在哪看過?
版權問題?
或許拿來激發 idea, 或做些免費素材來用蠻不錯的.
繼續指定國畫 chinese drawing, 來試試看
chinese drawing, Along the River During the Qingming Festival ,
by Zhang Zeduan, hyper detailed, UHD
好一點, 果然 midjourney 似乎不是只記住那個名字, 而是那一群相關的字, 或許和演算法有關, 這樣在有限時間內比較能亂數撞到該位的模型?
但和清明上河圖似乎感覺不大相同.. 是否真有學到畫風, 還是只是畫像國畫, 得看有沒有國畫老師能指點一下 ^^
一直 rolling 可能也不是辦法..想到或許可以傳張 清明上河圖 的圖上去看看, 但 清明上河圖 有沒有版權問題呢?
Ref: facebook 經濟部智慧財產局
"由於「清明上河圖」已因著作權保護期間(著作人之生存期間及其死亡後50年)屆滿而成為公共財,原則上任何人均得自由利用,
但是「文化資產保存法」有特別規定,想要再複製公立古物保管機關/構(如國立故宮博物院)典藏的古物,還須徵得故宮同意,
不過自106年起,故宮已經開放部分的文物圖像供大家免費下載使用囉!"
https://digitalarchive.npm.gov.tw/Integrate/Index
太棒了, 版本還蠻全的^^
先來個常看到的 易簡圖
有 CC 標誌 ^^
下載後是 zip 檔案, 解壓縮後是 TIFF 檔. 有 21 M
看了之後深覺這真是大師呀, 媽呀太厲害了! 這還只是個易簡圖...
把原圖用螢幕截圖後, 也放大截圖確認差不多如下
傳上去看看
不過最近這方法連接有 bug. 連結 只有一部分, 後面數字和 jpg 都不見了..
後來我是點選圖片 -> 在瀏覽器開啟, 然後把連結 copy 過去
魔鬼藏在細節裡, 一刀下去 6666 (誤)
這邊指定 seed 好處 就像下了定身咒
每次跑出來都會是差不多這四張的構圖
牛頓時代科學的重要特性之一是可重複實驗, 不會因人而異.
於是人開始覺得萬物都有解, 世界走向美好... 接著爆發了一戰...
Along the River During the Qingming Festival ,
by Zhang Zeduan, hyper detailed, UHD --ar 3:2 --seed 6666
有差距, 從整體構圖, 到每個細節人臉精細度, 到用色, 和原作都有不同, AI 大概也沒有每張臉都去 render ?那 AI 對這張國畫的理解是什麼呢?
第一張圖很有趣, midjourney AI 覺得是沙漠裡的建築.
人因為必須生存, 一開始對食物的連結是最強的,
就像小狗可以懂一百多個人類的語言單字,
剛開始用食物來連接坐下, 握手, 這些動作,
之後小狗可以不用食物, 學會這單字和動作的連結
而就像 馬斯洛 的需求金字塔,
之後小狗會和你一起玩, 學會其他的單字,
而這時候已經不是為了吃東西, 而是想和你在一起.
同樣的, 小籠包這照片, 乍看不會去聯想到其他的,
因為從小這個固有觀念太強了,
但如果是其他地方沒有吃過小籠包的人呢?
或許這就是所謂的異國風情, 在不同的語言文化背景刺激下,
可以比較容易打破固有觀念, 而有新的想法.
來看看 AI 對這張國畫的理解
認知表現比我想像好,
AI 知道有個建築, 有樹, 有群人, 是在一個空曠的地方, 有長堤 (的確這橋太厲害了), 黃色基調...
或許因為繪畫元素很多, 所以需要亂數 擲色子決定, 然後出現 1/2/3/4 四張圖, 會有些微 變化 和 重疊的地方, 接著選圖出來配對 remix , 不斷地用類似 DNA 演算法的方式, 或可趨近到原來想要的圖像..
而在這過程中, AI 會促使腦力激盪, 有不同的想法, 類似共同創作.
或許這就是類似 易經的 易簡, 變易, 不易 的道理...
之後或許可以看看 midjourney 的 transformers
https://github.com/midjourney/transformers
會更了解他的做法, 和如何改進,
目前 midjourney 的優點, 或許在於它是用 server 端的 GPU, 所以不會太要求個人的設備, 且已經經過大量的圖形訓練, 不用自己再訓練, 但或許可以自己裝一個針對某一小塊, 專門訓練. 總覺得目前靠大量的硬體記憶去強連結 單字和圖像, 還差了一點... 似乎沒有歸納理解的能力, 用理解到的方法去推算圖而無需記憶這麼多張圖. 也就是所謂入道的能力...
還是先繼續畫小籠包看看...
雖然 字典 查不到 xiaolongbao ( 可以查到 Yoda )
但是如果 prompt 下
one xiaolongbao in a steambasket
是有可能跑出這樣的畫面
但用 --seed 6666 也有可能跑出, 這種詭異的圖
和只寫小籠包 xiaolongbao 比較, 看來 prompt 給越多相關的單字,
AI 比較能找到想要的圖.
來試試看這個:
drawing of xiaolongbao, white background, minimal --ar 3:2 --seed 6666
他的確會畫出類似像小籠包的圖
但如果我們把一個小籠包的照片上傳
加上 url 再做一次的話
white background, minimal --ar 3:2 --seed 6666
似乎畫出來更像了
如法炮製, 先做沒加 url 的 做一個六個的
6 xiaolongbao in the steambasket
接著 用上面小籠包的照片 加上 url 來改變它
6 xiaolongbao in the steambasket
看起來還可以
來放到桌上
on the table in the fancy restaurant in front view
用這照片極簡的畫一下
https://s.mj.run/pL9TLwc0rqU hyperminimalist one line drawing of 6 xiaolongbao in the steambasket, minimalist, flat and sharp vector lines, black and white, white background
或是直接來請大師們幫我畫一下?
chinese drawing by by Zhang Zeduan
anime, in the style of Inonu Takehiko --ar 3:2 --seed 6666
colorful, in the style of Chen Uen --ar 3:2 --seed 6666
任憑弱水三千, 我只取一瓢飲
天呀, 這小籠包長腦袋了, 建國之後不許成精的呀...
還是做一個給小朋友上色, 來陪小狗玩 ^^
a cute sitting chihuahua, coloring book for children,
few lines, simple, minimalistic, flat and sharp vector lines,
black and white, white background
--
[image URL] [text prompt]
with no weights specified results in a 20% image(s) / 80% text generation.
[image URL] [text prompt 1] --iw 1
Results in a 50% image(s) / 50% text generation.
[image URL] [text prompt 1]::2 [text prompt 2]::3 --iw 1
results in a 1/6=17% image(s) , 2/6= 33% text1 , 3/6 = 50% text2.
--
如果知道 job-id, 可以打 /show job-id <id>
該工作產生的圖和動作會再顯示出來
就不用一直滑上去看 ^^
---
留言
張貼留言