阿裏推开源社區、谷歌首次开放模型,AIGC進入爆發期?

2022-11-05 14:00:55

作者/ 趙子坤

編輯/ 董雨晴

繼海外多個大模型开源帶來的生成式AI概念大熱後,阿裏也推出了首個中文AI模型社區,意爲降低AI應用門檻,構建AI時代的“基礎設施”。

行業內外也產生了新的討論,即生成式AI(AIGC),能否讓AI行業實現更大規模落地?

“AI的產業化落地,現在來看靠AI公司或者靠算法去落地是不現實的,需要業務、場景先行,靠產業裏的人實現落地。”一位業內人士評價道。

首個中文AI模型社區

今年6月,有阿裏達摩院的員工發現,自己所在的業務團隊改名了。此前,他所在的達摩院團隊名稱以業務目標來命名,現在則是以技術方向來給團隊命名。

“團隊名字的變化,就代表這個團隊本身從算法的研發方式上發生根本性的轉變。以前解決一些具體的業務問題,所以會取一個具體業務的名字。現在我們是做基礎算法能力的研發,所以才會把團隊改成一個算法方向的命名。”阿裏資深技術專家、達摩院基礎視覺實驗室負責人趙德麗說。

達摩院發展過程中,也曾有過將人力投入非常具體的業務开發的階段,這種做法既無法實現規模化,也耗費大量人力和成本。而後,達摩院逐漸轉型,重點投入預訓練基礎模型的研發,並基於基礎模型向外拓展,應用於多個行業,這次又進一步推出集合了諸多模型的AI模型开源社區。

11月3日,阿裏達摩院牽頭推出魔搭社區 ModelScope。社區首批上架超 300 個模型,其中中文模型超過 100 個,覆蓋了視覺、語音、自然語言處理、多模態等 AI 主要領域,覆蓋主流任務超過 60 個,均全面开源並开放使用。

同時,達摩院提出了新概念“模型即服務”(Model as a Service)。也就是說,把 AI 模型當作生產的重要元素,從模型預訓練到二次調優,最後到模型部署,圍繞模型的生命周期來提供相應的服務。

阿裏巴巴集團資深副總裁、阿裏達摩院副院長周靖人介紹,魔搭社區面向所有开發者开放,旨在推動AI大規模應用,不以盈利爲目標。此次开源,目的是降低AI的應用門檻,釋放AI潛能。

放眼海外,和魔搭社區發展路徑類似的是剛拿到投資的Hugging Face。Hugging Face 作爲AI开發者中的流行平臺,托管預先訓練的 AI 模型,包括 Craiyon 和 Stable Diffusion,這兩者都是基於AI的圖像生成器,目標是讓程序員更容易構建AI 技術。

Hugging Face CEO克萊門特德蘭格說:“將會有一大批價值萬億美元的新公司誕生,這些初創公司將以這種新的技術爲基礎。”今年早些時候,Hugging Face 從 Lux Capital 和紅杉資本等投資機構處籌集資金後,估值達20億美元。

“开源开放一定是未來趨勢。”趙德麗認爲,在當下普遍开源开放的背景下,專門針對一個具體場景提供單個算法服務,這樣方式的競爭力和商業價值都在快速下降。

而基礎模型的意義,就是讓底層架構的算法趨於統一,基於此开發的算法和應用,可迭代、可維護、可擴展,也就有機會誕生出一個系統級的AI應用。

“文生圖是在开源模型生態裏面,發展最快的一個例子。一旦有一個真正有競爭力的基礎模型,开源之後帶來的威力,大家都有目共睹。基礎模型要想真正能發揮作用,也要基於比較好的生態才能更有可能。”趙德麗解釋,阿裏开放模型社區,也是爲了建立完善的生態,促進AI更好更快發展。

今年以來,海外備受關注的DALLE2、Stable Diffusion等發展迅速的大模型,都是开放體驗或者是已經开源的模式。基於這些大模型,AIGC得以迅速發展,出現了諸多火熱的AI作畫應用,引起人類畫手圈熱議。

9月以來,繼AI生產文字、圖片之後,硅谷科技巨頭Meta、谷歌相繼發布AI生成視頻模型Make-A-Video和Imagen Video、Phenaki。但目前階段看起來僅處於讓圖片“動起來”。

趙德麗判斷,大概兩年左右時間,AI生成視頻也有望能達到文生圖級別的效果。而目前的困難點在於,不論是質量還是數量都和文生圖的數據有較大差距。“從這個角度來說,業內也需要技術模型的开源,來帶動一些新的研究範式的出現。”

傳統的任務型AI,運行1000個任務需要1000個模型,而以Transformer爲標志的預訓練模型出現,再到以GPT-3爲代表的大模型,基於同一算法架構上的开源釋放了生成式AI技術的進一步的創造力,從文生文,到文生圖,再到文生視頻,AIGC的內容邊界在不斷擴展。

自 2017 年以來,深度學習算法、應用和技術突飛猛進。尤其是Transformer(一種利用自注意力機制來提高算法能力的模型)的出現,這一類純粹基於注意力機制的神經網絡算法,在視覺和語言領域的成功很大程度上促成了統一算法架構的出現。

十多年前,AI學界的不同子領域之間幾乎沒有共通語言,但Transformer的到來表明了融合的可能性,暗含了全領域通用的潛力。

而基於Transformer和Diffusion model的基礎模型,AI的底層架構算法趨於統一後,一個系統級的應用就出現了,即Defining model(基礎模型)。基於此开發出的各類算法體系就可迭代、可維護、可擴展,就能誕生出這種架構範式下的百花齊放的應用範式。

中國計算機學會副理事長、瀾舟科技創始人兼CEO周明博士表示,預訓練模型有望讓AI行業從依賴算法專家手工調參的手工作坊時代,走向大規模、可復制的大工業時代,這其中的關鍵一環就是AI模型社區,堪稱AI時代的基礎設施,能將預訓練模型以較低門檻提供給廣大开發者。

生成式AI的火熱不僅意味着商業上的可能性,更代表着AI進入一個新世代,意味着AI技術從高校、大廠、AI創業公司、算法精英們的專屬能力,進一步轉移到能將AI技術落地的動漫、遊戲、設計等垂直公司。

开源帶動AIGC發展

近些年來,超大規模預訓練模型成爲各大科技巨頭在人工智能領域上尋求突破的新方向。

例如OpenAI开發的GPT-3模型、谷歌开發的LaMDA模型、Meta开發的OPT-175B模型、阿裏巴巴達摩院开發的M6模型、微軟與英偉達聯合开發的Megatron-Turing (MT-NLP)模型等。

而就在阿裏達摩院宣布推出中文AI模型社區的前一天(11月2日),谷歌也首次开放了自家文本圖像模型Imagen的測試。自推出以來,Imagen一直被與OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比較,但谷歌態度一直較爲謹慎,沒有將該模型向公衆开放。

現在,谷歌終於宣布將把Imagen添加到其AI Test Kitchen應用中,作爲一種收集關於該技術的早期反饋的方式。

AI Test Kitchen,是今年谷歌推出的一款用於對各種AI系統進行測試的應用程序,最初用戶僅可以在上面與AI聊天機器人LaMDA 2進行交流,此次更新將添加兩種與Imagen互動的新方式:城市夢想家(City Dreamer) 和Wobble。用戶可以在“城市夢想家” 用文字命令建造主體城市,或者“Wobble”來創造會扭動的卡通形象等。

除此之外,谷歌一鼓作氣發布了四項最新的AIGC技術成果,其能夠根據文本提示生成高分辨率長視頻、3D模型、音樂、代碼、文字內容等。

過往,AI生成技術因其過高的技術門檻,多囿於科技界的小圈層。今年8月,文本-圖像生成模型Stable Diffusion正式开源。此次开源,Stable Diffusion开放了其已經訓練好的模型,後繼者就能更好地借助這一开源工具,挖掘出更豐富的內容生態,爲向更廣泛的C端用戶普及起到至關重要的作用。Stable Diffusion的火爆,本質上就是开源釋放了創造力。

隨着生成擴散模型和多模態預訓練模型等技術的快速發展,在圖文生成效果上有了顯著進步,讓AI可以快速、靈活地生成不同模態的數據內容。

在2021年之前,AIGC還主要是文字生成。而新一代的模型可以處理很多任何內容格式,包含文字、語音、代碼、圖像、視頻、3D模型、機器人的動作等等。比如近期以DALL-E2和Stable Diffusion爲代表的AIGC技術在圖文生成效果上,能夠廣泛應用於內容生成、編輯和創作等領域。

一些風頭正熱的公司也獲得了相應的彈藥:OpenAI 獲得了超過 10 億美元的資金,剛獲1億美元融資的Stable Diffusion 开發商 Stability AI 正以高達 10 億美元的估值籌集風險資金。

此前,風投公司紅杉資本在其網站上發文表示:“從遊戲到廣告再到法律方面,生成式 AI 可能會改變所有需要人類創造力發揮作用的領域。這種技術有可能產生數萬億美元的經濟價值。”有趣的是,這篇文章的一部分就是由 GPT-3 撰寫的——一種生成文本的生成式 AI。

Compound VC 管理合夥人邁克爾鄧普西提到,以前僅限於實驗室的技術進入主流的時刻“非常罕見”,也因此吸引了風險投資者的大量關注。但他同時警告說,生成式 AI 目前處於更接近炒作周期頂峯的“好奇心階段”。處於這個階段的公司比較危險,因爲它們沒有專注在企業或消費者付費意愿強的特定用途上。

事實上,海外淘到第一桶金的AIGC公司也都大多瞄準一個可落地的垂直場景,從而獲得收益。

一家幫助客戶優化營銷文案的初創公司Copy.AI,兩年內的ARR(年度經常性收入)就已達到1000萬美元;最近剛完成1.25億美元融資的Jasper公司,用AI幫助企業和個人客戶寫社交媒體、博客等內容,而距其產品上线僅過去18個月。

如今,無論國內外的獨角獸還是創業公司,AIGC在商業變現上還沒有一個成熟模式,是否能夠成爲AI下一個階段的引爆點,實現大規模應用落地,仍待觀察。

追加內容

本文作者可以追加內容哦 !

0/100