網(wǎng)站首頁(yè) | 網(wǎng)站地圖

大國(guó)新村
首頁(yè) > 理論前沿 > 深度原創(chuàng) > 正文

讓國(guó)產(chǎn)大模型產(chǎn)業(yè)更好賦能經(jīng)濟(jì)社會(huì)發(fā)展

【摘要】近年來(lái),大模型產(chǎn)業(yè)逐步從互聯(lián)網(wǎng)空間走向真實(shí)的物理世界,與實(shí)體經(jīng)濟(jì)深度融合,在深度和廣度上更好地賦能智能經(jīng)濟(jì)與智能社會(huì)的發(fā)展。應(yīng)充分發(fā)揮我國(guó)生成式人工智能產(chǎn)業(yè)的規(guī)模優(yōu)勢(shì),聚焦多樣化應(yīng)用場(chǎng)景的快速落地、商業(yè)模式創(chuàng)新與價(jià)值實(shí)現(xiàn)。從數(shù)據(jù)、算力、模型與應(yīng)用場(chǎng)景等多維度,直面大模型應(yīng)用落地中的各種挑戰(zhàn),通過(guò)政策引領(lǐng)、體制機(jī)制創(chuàng)新、更高質(zhì)量數(shù)據(jù)集的構(gòu)建與開(kāi)放使用、全國(guó)一體化AI算力基礎(chǔ)設(shè)施建設(shè)以及場(chǎng)景創(chuàng)新等的合力支撐,重塑我國(guó)生成式人工智能產(chǎn)業(yè)發(fā)展的全球競(jìng)爭(zhēng)新優(yōu)勢(shì),讓中國(guó)的人工智能發(fā)展為增進(jìn)人類福祉作出更大的貢獻(xiàn)。

【關(guān)鍵詞】大模型產(chǎn)業(yè) 生成式人工智能

通用智能體

【中圖分類號(hào)】TP18 【文獻(xiàn)標(biāo)識(shí)碼】A

生成式人工智能的大型語(yǔ)言模型通常分為基礎(chǔ)(基座或底座)大模型、下游任務(wù)微調(diào)優(yōu)化大模型等,目的是通過(guò)自監(jiān)督學(xué)習(xí)方法,實(shí)現(xiàn)對(duì)文本、圖像、視頻、語(yǔ)音等多模態(tài)序列訓(xùn)練數(shù)據(jù)的語(yǔ)言建模、理解與生成。具有下一個(gè)語(yǔ)義符(token)預(yù)測(cè)能力的大模型通過(guò)模仿人類的語(yǔ)言智能,不但對(duì)各種模態(tài)具有統(tǒng)一的語(yǔ)義對(duì)齊表達(dá)、學(xué)習(xí)與記憶,同時(shí)嵌入了數(shù)據(jù)驅(qū)動(dòng)的人類一般性世界知識(shí)模型,因此能夠以數(shù)據(jù)智能新物種的形態(tài)完成過(guò)去僅有人類才能完成的、從簡(jiǎn)單到復(fù)雜的多樣化任務(wù)。自2022年11月30日ChatGPT問(wèn)世以來(lái),生成式人工智能在全球范圍進(jìn)入到爆發(fā)式發(fā)展階段,已初具產(chǎn)業(yè)落地的應(yīng)用條件與生態(tài)。目前,基礎(chǔ)大模型需要進(jìn)一步提升其完成復(fù)雜任務(wù)的能力,同時(shí)提高準(zhǔn)確率,增強(qiáng)其安全與價(jià)值對(duì)齊,尤其是聚焦于如何大幅提高大模型的復(fù)雜邏輯推理能力。

近年來(lái),國(guó)內(nèi)大模型發(fā)展如火如荼。據(jù)統(tǒng)計(jì),截至2024年4月底,國(guó)內(nèi)總共推出305個(gè)大模型,其中參數(shù)規(guī)模超過(guò)10億的國(guó)產(chǎn)大模型達(dá)到了100多個(gè),并且相當(dāng)一部分來(lái)自于國(guó)內(nèi)外的開(kāi)源代碼,如美國(guó)Meta公司的Llama系列開(kāi)源大模型等。從原理上來(lái)講,目前生成式預(yù)訓(xùn)練模型面向自回歸或受損文本重建語(yǔ)言建模主任務(wù),大多采用Transformer注意力神經(jīng)網(wǎng)絡(luò)架構(gòu),同時(shí)使用基于隨機(jī)梯度下降的自監(jiān)督學(xué)習(xí)方法。從使用的網(wǎng)絡(luò)架構(gòu)與預(yù)訓(xùn)練方法來(lái)說(shuō),各種大模型都相差不大,存在的不同之處主要涉及網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)與超參數(shù),各種(層)歸一化或尺度變換的策略有所不同,預(yù)訓(xùn)練的策略也可能存在差異,但這些本質(zhì)上屬于工程實(shí)現(xiàn)問(wèn)題。顯然,基于Transformer架構(gòu)的基礎(chǔ)大語(yǔ)言模型及從頭開(kāi)始的預(yù)訓(xùn)練算法的研究,實(shí)際上并沒(méi)有多少創(chuàng)新之處,相應(yīng)的開(kāi)源代碼也難以較大程度地進(jìn)行調(diào)整和修改。此外,預(yù)訓(xùn)練所采用的大規(guī)模文本語(yǔ)料庫(kù),如Pile等都屬于公開(kāi)數(shù)據(jù)集,對(duì)應(yīng)的預(yù)訓(xùn)練算力也通常使用各種云服務(wù)器來(lái)完成。

在幾十億到幾十萬(wàn)億參數(shù)規(guī)模的眾多大模型中,部分企業(yè)或研發(fā)機(jī)構(gòu)僅解決了大模型的“發(fā)布”問(wèn)題,并未針對(duì)大型語(yǔ)言模型亟需解決的準(zhǔn)確率、幻覺(jué)與復(fù)雜邏輯推理能力等科學(xué)問(wèn)題與技術(shù)落地“痛點(diǎn)”,開(kāi)展實(shí)質(zhì)性的原始創(chuàng)新或關(guān)鍵技術(shù)突破。一些企業(yè)甚至還涉嫌套牌使用。事實(shí)上,一年多來(lái),我國(guó)大模型的融資案例超過(guò)了100起,新增投入達(dá)到了200億元以上,其中大部分資金主要用來(lái)購(gòu)買或創(chuàng)建相應(yīng)的AI算力或智算中心。

大模型的價(jià)值在于應(yīng)用

只有在多樣化的實(shí)際應(yīng)用場(chǎng)景中賦能智能經(jīng)濟(jì)與智能社會(huì)的發(fā)展,才能體現(xiàn)生成式人工智能的產(chǎn)業(yè)價(jià)值,也才能成就大模型本身。如果說(shuō)自2012年至2022年的人工智能是所謂的弱人工智能,相應(yīng)的應(yīng)用落地與產(chǎn)業(yè)發(fā)展較為艱難,那目前的生成式人工智能則邁入了完全嶄新的階段,其對(duì)經(jīng)濟(jì)社會(huì)的影響與應(yīng)用價(jià)值已不可同日而語(yǔ)。生成式人工智能作為新質(zhì)生產(chǎn)力的典型代表,需要重點(diǎn)關(guān)注“人工智能+”或“+人工智能”,需要聚焦多模態(tài)大模型、具身智能與交互式人工智能在各個(gè)細(xì)分垂直領(lǐng)域與實(shí)際場(chǎng)景中的多樣化應(yīng)用。

我國(guó)移動(dòng)互聯(lián)網(wǎng)快速發(fā)展,不僅建設(shè)了全球規(guī)模最大的5G基礎(chǔ)設(shè)施,而且在移動(dòng)支付、電子商務(wù)、數(shù)字經(jīng)濟(jì)等方面始終位列全球第一梯隊(duì)。這為我國(guó)生成式人工智能產(chǎn)業(yè)的加速落地,提供了全球最具多樣化的應(yīng)用需求與實(shí)際賦能場(chǎng)景。事實(shí)上,我國(guó)在弱人工智能的應(yīng)用上長(zhǎng)期走在世界前列。在政策加持與各種應(yīng)用場(chǎng)景創(chuàng)新的引領(lǐng)下,我國(guó)在弱人工智能的應(yīng)用落地速度、應(yīng)用場(chǎng)景多樣性、標(biāo)簽大數(shù)據(jù)體量和商業(yè)模式創(chuàng)新等方面,被普遍認(rèn)為居于全球領(lǐng)先地位。實(shí)踐表明,在目前的全球創(chuàng)新生態(tài)中,相對(duì)于“從0到1”的原始性創(chuàng)新,加速大模型的落地應(yīng)用是我們最擅長(zhǎng)且最有可能支撐我國(guó)繼續(xù)占據(jù)全球人工智能第一陣營(yíng),并保持世界人工智能應(yīng)用領(lǐng)先優(yōu)勢(shì),賦能經(jīng)濟(jì)社會(huì)發(fā)展的關(guān)鍵變量。

在大模型快速發(fā)展的多樣化行業(yè)應(yīng)用中,基礎(chǔ)或基座大型語(yǔ)言模型發(fā)揮著核心支撐作用,但面向多樣化任務(wù)需求進(jìn)行的下游模型的微調(diào)顯得更為重要。這里的微調(diào)既包括模型中全部或部分參數(shù)的微小調(diào)整,也可以直接利用提示詞進(jìn)行更為簡(jiǎn)單自然的優(yōu)化。微調(diào)學(xué)習(xí)方法既可以使用監(jiān)督微調(diào)(SFT)方法,也可以采用強(qiáng)大的深度強(qiáng)化學(xué)習(xí)算法。針對(duì)AI輔助教育、AI輔助醫(yī)療、AI輔助金融以及智能問(wèn)答、智能咨詢、智能推薦、智能總結(jié)、智能寫(xiě)作、智能翻譯、智能決策、低代碼產(chǎn)業(yè)和人工智能生成內(nèi)容(AIGC)、人工智能搜索引擎等各種下游任務(wù),結(jié)合行業(yè)微調(diào)數(shù)據(jù),基于思維鏈(CoT)等提示工程改變提問(wèn)或遵從指令的技巧,同時(shí)通過(guò)將大模型與檢索增強(qiáng)生成(RAG)等技術(shù)進(jìn)行結(jié)合,利用外部搜索工具及行業(yè)的知識(shí)庫(kù)或知識(shí)圖譜,可以進(jìn)一步減少大模型的幻覺(jué)與偏見(jiàn),提升其準(zhǔn)確率與復(fù)雜的邏輯推理能力。不僅可以帶來(lái)更好的用戶體驗(yàn),而且可以強(qiáng)化對(duì)行業(yè)私有數(shù)據(jù)及專業(yè)知識(shí)庫(kù)的數(shù)據(jù)安全、數(shù)據(jù)隱私及知識(shí)產(chǎn)權(quán)保護(hù)。

在“大模型+RAG”中,通過(guò)對(duì)任務(wù)的理解,利用檢索引擎進(jìn)行搜索,之后基于PageRank等網(wǎng)頁(yè)排序算法獲得相關(guān)知識(shí)的排序,再將搜索且排序的檢索結(jié)果匯合形成新的提示詞進(jìn)行提問(wèn)或發(fā)出指令,最后再利用各種大、小語(yǔ)言模型,以期獲得更加精準(zhǔn)與合理的回答。大量實(shí)驗(yàn)結(jié)果表明,這種創(chuàng)新的技術(shù)解決方案不僅無(wú)須上載私有的行業(yè)文檔資料及專業(yè)知識(shí)庫(kù),克服對(duì)數(shù)據(jù)安全與知識(shí)產(chǎn)權(quán)保護(hù)的應(yīng)用焦慮,而且可以有效地緩解幻覺(jué),提高準(zhǔn)確率與用戶體驗(yàn),還能提升大模型的時(shí)效性、邏輯推理能力、長(zhǎng)期記憶及對(duì)各種外部或外掛工具的復(fù)用能力等。

除了上述大型語(yǔ)言模型(LLM),目前小型語(yǔ)言模型(SLM)或稱小模型以其高效、輕量、緊湊與低成本的特點(diǎn),持續(xù)得到全球頭部企業(yè)的高度關(guān)注,并不斷得到發(fā)展。如微軟的Phi-2、Phi-3序列,又如谷歌的Gemma和英國(guó)的Mistral等。這些小模型通常僅有幾十個(gè)億的參數(shù)規(guī)模,由于采用了高質(zhì)量數(shù)據(jù)進(jìn)行從頭開(kāi)始的預(yù)訓(xùn)練,同時(shí)充分蒸餾、量化了Transformer架構(gòu)的冗余參數(shù),因而可以在單卡甚至在手機(jī)移動(dòng)端側(cè)進(jìn)行推斷部署。結(jié)合知識(shí)儲(chǔ)備與邏輯推理能力等在內(nèi)的許多基準(zhǔn)測(cè)試結(jié)果表明,輕量化小模型的性能甚至可以超越規(guī)模大其數(shù)十倍以上的大模型,這讓多模態(tài)智能體的開(kāi)發(fā)與應(yīng)用更加高效、實(shí)時(shí)與靈活。因此,“小模型+RAG”在具身智能體與交互式人工智能的應(yīng)用落地實(shí)踐中,同樣需要得到重視。

綜上所述,一方面,應(yīng)繼續(xù)大力發(fā)展行業(yè)大模型與應(yīng)用場(chǎng)景大模型,保持其良好發(fā)展勢(shì)頭,深耕“人工智能+”與“+人工智能”的垂域應(yīng)用;另一方面,應(yīng)聚焦大模型產(chǎn)業(yè)應(yīng)用中的高質(zhì)量數(shù)據(jù)集構(gòu)建、大規(guī)模分布式AI算力網(wǎng)的一體化部署、混合專家模型(MoE)、高效微調(diào)、大/小模型+RAG、知識(shí)增強(qiáng)、邏輯增強(qiáng)、大模型的壓縮及量化技術(shù),提示工程以及大、小模型與強(qiáng)化學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)及長(zhǎng)期記憶的結(jié)合等,為我國(guó)大模型產(chǎn)業(yè)的應(yīng)用落地提供源源不斷的技術(shù)創(chuàng)新動(dòng)能與共性關(guān)鍵技術(shù)新突破。

我國(guó)大模型產(chǎn)業(yè)發(fā)展迎來(lái)重要窗口期

通用人工智能目前正經(jīng)歷如下迭代演化路徑,即從早期的GPT等文本語(yǔ)料大型語(yǔ)言模型(包括基礎(chǔ)/基座模型與下游微調(diào)模型),然后通過(guò)增加視、聽(tīng)、說(shuō)以及移動(dòng)與操作能力等,迭代升級(jí)到目前正蓬勃發(fā)展中的多模態(tài)大型語(yǔ)言模型和多模態(tài)具身智能體,并將進(jìn)一步發(fā)展到多模態(tài)交互式通用人工智能新階段。

在架構(gòu)方面,Transformer注意力神經(jīng)網(wǎng)絡(luò)主要涉及編碼器和解碼器兩個(gè)部分,前者用于對(duì)輸入token序列進(jìn)行掩碼預(yù)測(cè)與編碼表達(dá),后者則可以進(jìn)一步實(shí)現(xiàn)對(duì)大規(guī)模訓(xùn)練序列或?qū)ξ锢硎澜绲淖曰貧w逼近與生成。需要注意的是,GPT等生成式預(yù)訓(xùn)練大模型或生成式人工智能通常僅由多層解碼器組成。簡(jiǎn)單來(lái)說(shuō),生成式人工智能就是模仿學(xué)習(xí),這里的生成實(shí)際就是模仿。而通用人工智能的路徑演化則是“模仿學(xué)習(xí)+交互式學(xué)習(xí)”。

2023年下半年以來(lái),可直接賦能人形機(jī)器人和自動(dòng)駕駛的多模態(tài)大模型、多模態(tài)具身智能體得以迅猛發(fā)展,人工智能的應(yīng)用逐步從互聯(lián)網(wǎng)空間走向真實(shí)的物理世界,開(kāi)始更加重視與實(shí)體經(jīng)濟(jì)的融合發(fā)展,并賦能新制造、新能源與新零售等垂直領(lǐng)域或行業(yè)的產(chǎn)業(yè)部署與跨界應(yīng)用。人工智能的應(yīng)用在全球范圍呈現(xiàn)爆發(fā)性增長(zhǎng)態(tài)勢(shì),我國(guó)大模型產(chǎn)業(yè)發(fā)展迎來(lái)重要窗口期。

隨著GPT-4V等的正式發(fā)布,多模態(tài)大模型已具有“讀圖”“讀音”或直接看懂圖像、視頻與聽(tīng)懂語(yǔ)音的能力。例如,基于單段式端到端視覺(jué)語(yǔ)言動(dòng)作大模型的智能體,利用少量編程即可構(gòu)建出視覺(jué)神經(jīng)網(wǎng)絡(luò),然后通過(guò)直接觀看人類移動(dòng)或操作視頻就可進(jìn)行直覺(jué)或本能的“快思維”自主學(xué)習(xí),從而獲得在真實(shí)物理世界中的相應(yīng)技能。總體來(lái)看,相對(duì)于過(guò)去分段式的人工智能方法,單段式或單模型的端到端視覺(jué)語(yǔ)言動(dòng)作大模型及其解決方案是自動(dòng)駕駛與人形機(jī)器人研發(fā)范式的一個(gè)根本性改變,是真正的全自主學(xué)習(xí)人工智能解決方案。正是由于上述新范式、新導(dǎo)向的出現(xiàn),我們有理由相信自動(dòng)駕駛將有可能實(shí)現(xiàn)L4級(jí)別,甚至達(dá)到完全人類水平的L5級(jí)別。具身智能體人形機(jī)器人將滲透到實(shí)體經(jīng)濟(jì)的千行百業(yè),成為智能制造的主力,同時(shí)走入千家萬(wàn)戶,完成精神陪護(hù)、家政服務(wù)與養(yǎng)老服務(wù)等。人機(jī)共融社會(huì)的未來(lái)景象或?qū)⒉辉偈且环N科幻般的憧憬。這種顛覆性技術(shù)變革所帶來(lái)的生產(chǎn)力與生產(chǎn)效率躍升及人類文明進(jìn)步,有望創(chuàng)建數(shù)十萬(wàn)億美元的產(chǎn)業(yè)想象空間,必將具有“改變世界”的重大意義與巨大的產(chǎn)業(yè)帶動(dòng)作用。為此,我們必須未雨綢繆,在戰(zhàn)略性新興產(chǎn)業(yè)與未來(lái)產(chǎn)業(yè)的國(guó)家戰(zhàn)略安排與產(chǎn)業(yè)布局上給予足夠的重視。

總體上,包括單段式端到端純視覺(jué)方案在內(nèi),多模態(tài)大模型與具身智能體賦能通用人形機(jī)器人和自動(dòng)駕駛等的快速發(fā)展,不僅構(gòu)筑了國(guó)家重大戰(zhàn)略發(fā)展的價(jià)值新高地,而且是發(fā)展新質(zhì)生產(chǎn)力與顛覆性技術(shù)創(chuàng)新的典型代表;不僅是助推智能經(jīng)濟(jì)與智能社會(huì)發(fā)展的新機(jī)遇、新引擎和新動(dòng)能,也是國(guó)際競(jìng)爭(zhēng)與合作的新陣地、新賽道和新風(fēng)口。

我國(guó)大模型產(chǎn)業(yè)發(fā)展面臨挑戰(zhàn)

在某種意義上,人類似乎找到了一條可行的人工智能實(shí)現(xiàn)路徑,即以數(shù)據(jù)智能的形態(tài)模仿并交互式學(xué)習(xí)人類的外部智能行為,以完成過(guò)去僅有人類才能完成的一系列復(fù)雜任務(wù)。從整個(gè)迭代演化路徑來(lái)看,目前通用人工智能的發(fā)展才剛剛拉開(kāi)序幕。在邁向更高水平的通用人工智能,甚至走向強(qiáng)人工智能“奇點(diǎn)”時(shí)刻的征途上,前方的道路充滿了挑戰(zhàn)。

人工智能涉及數(shù)據(jù)、算力、模型與算法、應(yīng)用場(chǎng)景和垂直整合五個(gè)維度,其中數(shù)據(jù)是基礎(chǔ),芯片是高地,算法是核心,人才是關(guān)鍵,選定垂直細(xì)分領(lǐng)域最重要。我國(guó)大模型產(chǎn)業(yè)在基礎(chǔ)算法創(chuàng)新、基座大模型預(yù)訓(xùn)練數(shù)據(jù)、公共算力占比等方面需要進(jìn)一步提升。由于大模型產(chǎn)業(yè)的資源投入較大、產(chǎn)業(yè)鏈條較長(zhǎng)、應(yīng)用場(chǎng)景多樣復(fù)雜,企業(yè)普遍面臨著高端人才不足、資金與技術(shù)匱乏等難題。一方面需要降低從頭開(kāi)始的基礎(chǔ)模型的分布式預(yù)訓(xùn)練成本,特別是大幅減少垂直行業(yè)大模型的推斷應(yīng)用部署成本;另一方面還需要推動(dòng)傳統(tǒng)企業(yè)數(shù)字化轉(zhuǎn)型升級(jí),賦能企業(yè)提質(zhì)增效,進(jìn)一步改善用戶體驗(yàn)與提高市場(chǎng)滲透率。

為此,我們需要首先針對(duì)行業(yè)與實(shí)際應(yīng)用場(chǎng)景獲取高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)與微調(diào)數(shù)據(jù)。在大模型的應(yīng)用實(shí)踐中普遍存在著數(shù)據(jù)的碎片化、“孤島”、冗余、野值和非均衡等難題,不僅需要發(fā)展高質(zhì)量的數(shù)據(jù)采集與清洗技術(shù),如面向語(yǔ)言建模主任務(wù)的數(shù)十萬(wàn)億token的大規(guī)模語(yǔ)料庫(kù),以及行業(yè)預(yù)訓(xùn)練數(shù)據(jù)、結(jié)合特定任務(wù)從數(shù)十萬(wàn)至百萬(wàn)量級(jí)的短視頻訓(xùn)練數(shù)據(jù);還需要有效利用各種專業(yè)知識(shí)庫(kù)的搜索與知識(shí)增強(qiáng)、邏輯增強(qiáng),并著力解決數(shù)據(jù)安全、隱私保護(hù)、知識(shí)產(chǎn)權(quán)和數(shù)據(jù)合規(guī)等應(yīng)用落地問(wèn)題,推進(jìn)人工智能治理的國(guó)際合作。與此同時(shí),為了提高智能體的學(xué)習(xí)效率與質(zhì)量,應(yīng)進(jìn)一步引入Sora、空間智能等世界模擬器,用于提供合成視頻訓(xùn)練數(shù)據(jù),以彌補(bǔ)人類視頻訓(xùn)練數(shù)據(jù)的不足,并提高訓(xùn)練效能。

其次,在AI算力基礎(chǔ)設(shè)施的需求與產(chǎn)業(yè)化部署方面,隨著多模態(tài)大模型與具身智能體的發(fā)展,尤其是單段式端到端視覺(jué)語(yǔ)言動(dòng)作大模型的范式變革,由于涉及時(shí)空像素空間的物理學(xué)規(guī)律模擬,因此對(duì)分布式預(yù)訓(xùn)練的AI算力需求巨大。視覺(jué)作為高階模態(tài)(時(shí)空上下文長(zhǎng)序列),同時(shí)考慮到生成式人工智能的規(guī)模化定律(Scaling Law)與涌現(xiàn)能力,因此發(fā)展基礎(chǔ)大型語(yǔ)言模型、行業(yè)大模型、多模態(tài)視覺(jué)語(yǔ)言動(dòng)作大模型與通用世界模擬器作為合成視頻數(shù)據(jù)等,均需要極大的AI算力作為支撐。為此,我們需要有效構(gòu)建并充分利用10—100個(gè)E量級(jí)的全國(guó)一體化AI算力基礎(chǔ)設(shè)施,以泛在的智慧云方式,大幅減少重復(fù)建設(shè)與資源浪費(fèi),補(bǔ)齊短板,發(fā)揮優(yōu)勢(shì)。

在模型與算法創(chuàng)新方面,針對(duì)長(zhǎng)尾應(yīng)用與邊緣事件,前述單段式端到端視覺(jué)語(yǔ)言動(dòng)作大模型帶來(lái)了歷史性機(jī)遇,極有可能成為技術(shù)突破的有效方案。目前圍繞多模態(tài)大模型與具身智能體的理論與技術(shù)創(chuàng)新,如Transformer模型的平替與升級(jí)換代已成為全球科技界、產(chǎn)業(yè)界共同關(guān)注的創(chuàng)新焦點(diǎn)??紤]到Transformer模型通常具有二次方的計(jì)算復(fù)雜度,因此各種具有線性復(fù)雜度,乃至常數(shù)復(fù)雜度的新一代注意力模型與在線學(xué)習(xí)模型,成為當(dāng)前學(xué)術(shù)研究的重點(diǎn)。此外,基礎(chǔ)大模型的性能上限在哪里?規(guī)?;墒欠窬哂懈蟪潭鹊钠者m性?如何突破符號(hào)水平的復(fù)雜邏輯推理能力?有關(guān)數(shù)據(jù)智能新物種的自主意圖、自我意識(shí)與自我進(jìn)化等是否應(yīng)設(shè)定為人類發(fā)展通用人工智能的紅線?這些已成為有關(guān)模型與算法創(chuàng)新的熱點(diǎn)問(wèn)題。

最后,開(kāi)放域的人工智能應(yīng)用場(chǎng)景落地自2012年以來(lái)一直是一個(gè)重要問(wèn)題,原因是面對(duì)長(zhǎng)尾與邊緣挑戰(zhàn),人們不能通過(guò)感知—決策列舉的方式,全面探索和嘗試所有可能的路徑和方法。因而在相當(dāng)程度上降低了多模態(tài)智能體的環(huán)境適應(yīng)性與自主能力。在高AI算力的支撐下,大模型落地應(yīng)用場(chǎng)景以學(xué)習(xí)解決一切問(wèn)題,通過(guò)遠(yuǎn)比人類強(qiáng)大的高效的自監(jiān)督學(xué)習(xí),實(shí)現(xiàn)了對(duì)人類全部文本語(yǔ)料數(shù)據(jù)的模擬,基于多模態(tài)方式完成對(duì)人類各種感知與行為動(dòng)作能力的模仿學(xué)習(xí),并最終利用多模態(tài)智能體與真實(shí)物理世界的交互式強(qiáng)化學(xué)習(xí),獲得從“形似到神似”的性能躍升。在此過(guò)程中,大模型方法本質(zhì)上構(gòu)建并利用了某種意義上的人類語(yǔ)言智能與知識(shí)驅(qū)動(dòng)模型,獲得了時(shí)空?qǐng)鼍暗睦斫饽芰εc邏輯推理能力,也進(jìn)行了結(jié)合虛實(shí)平行世界的交互式自主探索與最優(yōu)策略遷移。這些不僅為大模型面向開(kāi)放域長(zhǎng)尾與邊緣挑戰(zhàn)的真實(shí)場(chǎng)景的落地應(yīng)用,提供了一種更加類似人類視覺(jué)技能學(xué)習(xí)的嶄新范式,而且為多模態(tài)智能體的迭代演化指明了前行的方向。

總之,我國(guó)大模型產(chǎn)業(yè)的發(fā)展在數(shù)據(jù)、算力、算法與應(yīng)用場(chǎng)景創(chuàng)新方面,正經(jīng)歷前所未有的歷史性機(jī)遇與挑戰(zhàn)。面對(duì)席卷而來(lái)的生成式人工智能發(fā)展浪潮,我國(guó)生成式人工智能與通用人工智能作為新質(zhì)生產(chǎn)力,一定能夠賦能經(jīng)濟(jì)社會(huì)發(fā)展。通過(guò)政策引領(lǐng)、體制機(jī)制創(chuàng)新、更高質(zhì)量數(shù)據(jù)集的構(gòu)建與開(kāi)放使用、全國(guó)一體化AI算力基礎(chǔ)設(shè)施建設(shè)以及場(chǎng)景創(chuàng)新等的合力支撐,充分發(fā)揮我國(guó)大模型產(chǎn)業(yè)的規(guī)模優(yōu)勢(shì),塑造我國(guó)生成式人工智能產(chǎn)業(yè)發(fā)展的全球競(jìng)爭(zhēng)優(yōu)勢(shì),讓中國(guó)的人工智能發(fā)展為增進(jìn)人類福祉作出更大的貢獻(xiàn)。

(作者為清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授,人工智能研究院視覺(jué)智能研究中心主任)

責(zé)編/銀冰瑤 美編/楊玲玲

聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個(gè)人轉(zhuǎn)載請(qǐng)回復(fù)本微信號(hào)獲得授權(quán),轉(zhuǎn)載時(shí)務(wù)必標(biāo)明來(lái)源及作者,否則追究法律責(zé)任。

[責(zé)任編輯:謝帥](méi)