受控擴散模型可以改變圖像中物體的材質(zhì)屬性
麻省理工學院計算機科學與人工智能實驗室 (CSAIL) 和谷歌研究中心的研究人員可能剛剛進行了數(shù)字魔法——以擴散模型的形式,可以改變圖像中物體的材質(zhì)屬性。
該系統(tǒng)名為 Alchemist,允許用戶改變真實圖片和 AI 生成圖片的四個屬性:粗糙度、金屬度、反照率(物體的初始基色)和透明度。作為圖像到圖像的擴散模型,可以輸入任何照片,然后在 -1 到 1 的連續(xù)范圍內(nèi)調(diào)整每個屬性以創(chuàng)建新的視覺效果。這些照片編輯功能可能會擴展到改進視頻游戲中的模型、擴展 AI 在視覺效果方面的能力以及豐富機器人訓練數(shù)據(jù)。
Alchemist 背后的魔力始于一個去噪擴散模型:在實踐中,研究人員使用了 Stable Diffusion 1.5,這是一個文本到圖像的模型,因其逼真的效果和編輯功能而備受贊譽。之前的研究基于這個流行的模型,使用戶能夠進行更高級別的更改,例如交換對象或改變圖像的深度。相比之下,CSAIL 和 Google Research 的方法應用此模型來關注低級屬性,通過獨特的基于滑塊的界面修改物體材料屬性的更精細的細節(jié),其性能優(yōu)于其他同類產(chǎn)品。
雖然之前的擴散系統(tǒng)可以為圖像變出一只兔子,但 Alchemist 可以將同一只動物變成半透明的。該系統(tǒng)還可以使小黃鴨呈現(xiàn)出金屬質(zhì)感,去除金魚的金色,并使舊鞋發(fā)亮。Photoshop 等程序具有類似的功能,但此模型可以更直接地更改材料屬性。例如,在廣泛使用的應用程序中,修改照片的金屬外觀需要幾個步驟。
“當你看到自己制作的圖像時,結果往往與你想象的并不完全一致,”麻省理工學院電氣工程和計算機科學博士生、CSAIL 附屬機構、一篇描述這項工作的新論文的主要作者 Prafull Sharma說道。“你想在編輯圖片時控制它,但圖像編輯器中現(xiàn)有的控件無法更改材質(zhì)。借助 Alchemist,我們利用文本到圖像模型輸出的照片級真實感,并梳理出一個滑塊控件,讓我們可以在提供初始圖片后修改特定屬性。”
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!
-
6月25-28日,由中國進出境生物安全研究會、中國國際旅行衛(wèi)生保健協(xié)會主辦,中國青年創(chuàng)業(yè)就業(yè)基金會支持,中國出入...瀏覽全文>>
-
胃腸鏡檢查,聽起來可能有些令人不安,但實際上,它可能是生活中的救命稻草。對于一些人來說,定期進行胃腸鏡...瀏覽全文>>
-
6月16日-20日,2025年優(yōu)秀博士后研究人員(紹興)研學活動順利舉行。本次活動匯聚了來自全國各地的百余名博士后,...瀏覽全文>>
-
近日,天津松果生物醫(yī)療科技有限公司自主研發(fā)的牛跟腱來源去端肽I型膠原蛋白原材料成功通過國家藥品監(jiān)督管理局...瀏覽全文>>
-
在數(shù)字化產(chǎn)業(yè)轉(zhuǎn)型的浪潮奔涌之際,病理學正經(jīng)歷著前所未有的革新機遇。奧偉登(Evident)憑借百年光學技術積淀,以...瀏覽全文>>
-
6月6-8日,CHINAGUT 2025中國腸道大會在寧波國際會議中心隆重舉辦。大會由南京醫(yī)科大學第二附屬醫(yī)院、國家消化...瀏覽全文>>
-
在第28屆北京國際口腔展這一行業(yè)風向標級盛會上,北京易嶺生物科技有限公司(下面簡稱易嶺生物)憑借重磅新品發(fā)...瀏覽全文>>
-
2025款上汽大眾ID 4 X在安徽阜陽地區(qū)的售價會根據(jù)配置和選裝包有所不同?;A版車型的廠商指導價大約在20萬...瀏覽全文>>
-
嵐圖FREE,作為一款集豪華與智能于一體的新能源SUV,正以全新的姿態(tài)迎接每一位渴望高品質(zhì)出行的用戶?,F(xiàn)在,嵐...瀏覽全文>>
-
安徽阜陽的大眾ARTEON 2022新款現(xiàn)已到店,最低售價從34 80萬元起,無疑是近期購車的最佳時機。這款車型以其...瀏覽全文>>