日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 三次元的文本到圖像AI成了:單GPU不到一分鐘出貨,OpenAI出品

          三次元的文本到圖像AI成了:單GPU不到一分鐘出貨,OpenAI出品

          發(fā)布人:機(jī)器之心 時(shí)間:2022-12-21 來源:工程師 發(fā)布文章
          本到 3D 模型生成的速度一下提升了 600 倍,代碼也已開源。

          圖片

          文本生成圖像的 AI 最近已經(jīng)火到了圈外,不論是 DALL-E 2、DeepAI 還是 Stable Diffusion,人人都在調(diào)用 AI 算法搞繪畫藝術(shù),研究對(duì) AI 講的「咒語」。不斷進(jìn)化的技術(shù)推動(dòng)了文生圖生態(tài)的蓬勃發(fā)展,甚至還催生出了獨(dú)角獸創(chuàng)業(yè)公司 Stability AI。


          技術(shù)發(fā)展的腳步并沒有停止,下個(gè)突破可能是 3D 模型生成了:本周,OpenAI 開源的 3D 模型生成器 Point-E 引發(fā)了 AI 圈的新一輪熱潮,剛擺上 GitHub 一天就獲得了 800 多個(gè) star。


          根據(jù)與開源內(nèi)容一并發(fā)布的論文介紹,Point-E 可以在單塊 Nvidia V100 GPU 上在一到兩分鐘內(nèi)生成 3D 模型。相比之下,現(xiàn)有系統(tǒng)(如谷歌的 DreamFusion)通常需要數(shù)小時(shí)和多塊 GPU。


          論文《Point-E: A System for Generating 3D Point Clouds from Complex Prompts》:


          圖片


          • 論文鏈接:https://arxiv.org/abs/2212.08751

          • 項(xiàng)目鏈接:https://github.com/openai/point-e


          Point-E 不輸出傳統(tǒng)意義上的 3D 圖像,它會(huì)生成點(diǎn)云,或空間中代表 3D 形狀的離散數(shù)據(jù)點(diǎn)集。Point-E 中的 E 是「效率」的縮寫,表示其比以前的 3D 對(duì)象生成方法更快。不過從計(jì)算的角度來看,點(diǎn)云更容易合成,但它們無法捕獲對(duì)象的細(xì)粒度形狀或紋理 —— 這是目前 Point-E 的一個(gè)關(guān)鍵限制。


          為了解決這一問題,OpenAI 團(tuán)隊(duì)訓(xùn)練了一個(gè)額外的人工智能系統(tǒng)來將 Point-E 的點(diǎn)云轉(zhuǎn)換為網(wǎng)格。


          圖片


          Point-E 架構(gòu)及運(yùn)行原理


          在獨(dú)立的網(wǎng)格生成模型之外,Point-E 主要由兩個(gè)模型組成:文本到圖像模型和圖像到 3D 模型。文本到圖像模型類似于 OpenAI 自家的 DALL-E 2 和 Stable Diffusion 等生成模型系統(tǒng),在標(biāo)記圖像上進(jìn)行訓(xùn)練以理解單詞和視覺概念之間的關(guān)聯(lián)。在圖像生成之后,圖像到 3D 模型被輸入一組與 3D 對(duì)象配對(duì)的圖像,訓(xùn)練出在兩者之間有效轉(zhuǎn)換的能力。


          圖片


          當(dāng)人們給出一個(gè)文本提示 —— 例如,「一個(gè)可 3D 打印的齒輪,一個(gè)直徑為 3 英寸、厚度為半英寸的齒輪」時(shí),AI 會(huì)生成符合描述的內(nèi)容:


          圖片


          Point-E 通過 30 億參數(shù)的 GLIDE 模型生成綜合視圖渲染,內(nèi)容被饋送到圖像到 3D 模型,通過一系列擴(kuò)散模型運(yùn)行生成的圖像,以創(chuàng)建初始圖像的 3D RGB 點(diǎn)云 —— 先生成粗略的 1024 點(diǎn)云模型,然后生成更精細(xì)的 4096 點(diǎn)云模型。


          圖片

          Point-E 的點(diǎn)云擴(kuò)散模型架構(gòu)。圖像通過一個(gè)凍結(jié)的、預(yù)訓(xùn)練的 CLIP 模型輸入,輸出網(wǎng)格作為標(biāo)記輸入到 transformer 中。

           

          OpenAI 研究人員表示,在經(jīng)過「數(shù)百萬 3D 對(duì)象和相關(guān)元數(shù)據(jù)的數(shù)據(jù)集上訓(xùn)練模型后,Point-E 擁有了生成匹配文本提示的彩色點(diǎn)云的能力。Point-E 的問題和目前的生成模型一樣,圖像到 3D 轉(zhuǎn)換過程中有時(shí)無法理解文本敘述的內(nèi)容,導(dǎo)致生成的形狀與文本提示不匹配。盡管如此,根據(jù) OpenAI 團(tuán)隊(duì)的說法,它仍然比以前的最先進(jìn)技術(shù)快幾個(gè)數(shù)量級(jí)。


          圖片

          Point-E 將點(diǎn)云轉(zhuǎn)換為網(wǎng)格。


          OpenAI 在論文中表示,「雖然 Point-E 在評(píng)估中表現(xiàn)得比 SOTA 方法差,但它只用了后者一小部分的時(shí)間就可以生成樣本。這使得 Point-E 對(duì)某些應(yīng)用程序更實(shí)用,或者可以利用效率獲得更高質(zhì)量的 3D 對(duì)象?!?/span>


          應(yīng)用前景及版權(quán)問題


          也許你會(huì)問,Point-E 具體有哪些應(yīng)用呢?OpenAI 研究人員指出,Point-E 的點(diǎn)云可用于制作真實(shí)世界的對(duì)象,比如通過 3D 打印制作。再加上額外的網(wǎng)格轉(zhuǎn)換模型,系統(tǒng)在完善后可以用于游戲和動(dòng)畫開發(fā)工作流程。


          OpenAI 可能是最新一家涉足 3D 對(duì)象生成器領(lǐng)域的公司,但它并不是第一家。今年早些時(shí)候,谷歌就發(fā)布了 DreamFusion,它是谷歌 2021 年推出的生成式 3D 系統(tǒng) Dream Fields 的擴(kuò)展版本。


          雖然當(dāng)前所有目光都集中在 2D 藝術(shù)生成器上,但模型合成 AI 可能是下一個(gè)重大的行業(yè)顛覆者?,F(xiàn)代電影、視頻游戲、VR 和 AR 的 CGI 效果、空間探索中的測繪任務(wù)、古跡遺址保護(hù)項(xiàng)目以及 Meta 等科技公司的元宇宙愿景都需要高性能的 3D 建模能力。在傳統(tǒng)行業(yè)中,建筑公司也會(huì)使用 3D 模型演示建筑物和景觀,工程師會(huì)利用模型設(shè)計(jì)新設(shè)備、車輛和結(jié)構(gòu)等。


          圖片

          Point-E 失敗的案例。


          不過,制作 3D 模型通常需要一段時(shí)間,從幾小時(shí)到幾天不等。如果有一天解決了這一問題,像 Point-E 這樣的 AI 可以改變很多,并讓 OpenAI 獲得可觀的利潤。


          潛在的問題是可能會(huì)產(chǎn)生知識(shí)產(chǎn)權(quán)糾紛。3D 模型有很大的市場,包括 CGStudio 和 CreativeMarket 在內(nèi)的幾個(gè)在線市場允許藝術(shù)家銷售他們創(chuàng)建的內(nèi)容。如果 Point-E 流行起來并投放到市場,模型藝術(shù)家們可能會(huì)抗議,并拿出現(xiàn)代生成式 AI 嚴(yán)重依賴其自身訓(xùn)練數(shù)據(jù)的證據(jù),比如 Point-E 中有現(xiàn)成的 3D 模型。


          與 DALL-E 2 一樣,Point-E 不承認(rèn)也沒有引用任何可能影響其代代發(fā)展的藝術(shù)家的作品。OpenAI 沒有明確地說明這一問題,Point-E 論文及相應(yīng) GitHub 項(xiàng)目中也都沒有提到版權(quán)問題。


          最后,OpenAI 研究人員預(yù)計(jì) Point-E 還面臨著一些挑戰(zhàn),例如訓(xùn)練數(shù)據(jù)存在的偏差以及對(duì)可能用于創(chuàng)建「危險(xiǎn)對(duì)象」的模型缺乏保護(hù)措施。因此,OpenAI 謹(jǐn)慎地將 Point-E 描述為一個(gè)起點(diǎn),并希望激勵(lì)文本到 3D 合成領(lǐng)域進(jìn)一步發(fā)展。


          不過按照 AI 作畫發(fā)展的速度,我們或許很快就會(huì)看見下一輪技術(shù)爆發(fā)了。


          參考內(nèi)容:

          https://www.engadget.com/openai-releases-point-e-dall-e-3d-text-modeling-210007892.html

          https://techcrunch.com/2022/12/20/openai-releases-point-e-an-ai-that-generates-3d-models/


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉