大模型Scaling Law(規(guī)模定律)將失效?長期以來,大模型的發(fā)展遵循依靠模型參數(shù)增加、數(shù)據(jù)集規(guī)模擴充以優(yōu)化模型性能的規(guī)模定律。但隨著可用于預訓練的開源數(shù)據(jù)挖掘殆盡、模型訓練所需的算力資源緊缺,大模型發(fā)展遵循的Scaling Law即將失效。
在近日舉行的清華大學基礎(chǔ)模型2025學術(shù)年會上,清華大學計算機科學與技術(shù)系副教授劉知遠表示,“密度法則”將接替Scaling Law成為最新大模型迭代規(guī)律。根據(jù)這一法則,端側(cè)智能將迎來廣闊發(fā)展前景。
“密度法則”成為大模型發(fā)展新定律?
“芯片電路密度(即芯片計算單元數(shù)量與芯片面積的比值)每18個月翻1倍。”這是集成電路行業(yè)熟悉的摩爾定律。
劉知遠提出的“密度法則”與這一規(guī)律類似,指大模型知識密度將每100天翻1倍;谶@一定律,劉知遠認為,模型將朝著參數(shù)小型化、成本普惠的方向發(fā)展,并提出基于該定律的四條推論:
推論一:實現(xiàn)特定AI水平的模型參數(shù)呈指數(shù)下降,實現(xiàn)相同智能水平的模型參數(shù)量每3.3個月下降一半,同時模型推理速度提升一倍。例如,2024年2月發(fā)布的2.4B規(guī)模的MiniCPM-1,能力與2023年9月發(fā)布的7B規(guī)模Mistral相當,但參數(shù)量僅相當于后者的35%。
推論二:模型推理開銷隨時間呈指數(shù)級下降。例如,在過去20個月內(nèi),GPT-3.5級模型的API價格下降至原先的1/266.7,約2.5個月下降一半,而更低的價格將會帶來更多的應(yīng)用。
推論三:模型訓練開銷隨時間迅速下降。高質(zhì)量互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模約為15T,可訓練的模型最大參數(shù)約為750B,但1年后,僅需58B參數(shù)模型便可實現(xiàn)相同能力。推論四:大模型能力密度呈加速增強趨勢。ChatGPT發(fā)布之前,大模型能力密度約按每4.8個月增加1倍的速度增長;ChatGPT發(fā)布后,大模型密度倍增時間縮短至3.2個月。
模型小型化彰顯端側(cè)AI能力
在“密度法則”下,模型將沿著這樣的路徑發(fā)展:同等智能水平模型的訓練、推理開銷等成本降低,模型規(guī)?s小,能力密度持續(xù)增強。與此同時,在摩爾定律仍在發(fā)揮作用的情況下,端側(cè)芯片的承載能力仍在增強。
這意味著,隨著時間的推演,將出現(xiàn)能力水平非常高的大模型,同時其參數(shù)規(guī)模能夠縮小到一定的程度,使其能夠裝載到消費級計算設(shè)備上。屆時,端側(cè)AI能力將得以彰顯。但將運行在云端的PB級的知識規(guī)模濃縮到GB級的小模型參數(shù)中,是一項具備挑戰(zhàn)性的工作。如何進行海量互聯(lián)網(wǎng)數(shù)據(jù)的治理、如何利用數(shù)據(jù)背后的知識實現(xiàn)模型高效學習以實現(xiàn)大模型的科學化制備,將成為未來大模型構(gòu)建的關(guān)鍵課題。
智能算法創(chuàng)新遠未收斂
在過去5年中,一項項技術(shù)創(chuàng)新推動著大模型的發(fā)展:2018年出現(xiàn)的自監(jiān)督預訓練技術(shù),使大模型具備了掌握人類知識的能力。但這一階段,模型只是實現(xiàn)了學習,還不能實現(xiàn)模型應(yīng)用;2021年,有監(jiān)督的微調(diào)技術(shù),使模型具備了理解人類意圖的能力,可從用戶的負責指令中挖掘出人類的真實意圖,并調(diào)用自己掌握的知識,完成該指令。
2025年,模型借助強化學習技術(shù),具備了深度思考的能力,可以在完成任務(wù)之前,像人一樣深思熟慮,通過一步一步的思考給出準確的回答。面向未來,劉知遠認為,智能算法創(chuàng)新和演進遠遠沒有收斂,未來人工智能邁向AGI(通用人工智能)過程中還要不斷拓展能力樹,這也是人工智能邁向的核心任務(wù)之一。其需要拓展的能力包括自主學習、合作、創(chuàng)新創(chuàng)造等。如果停止算法創(chuàng)新,則將落后于其他發(fā)展AI能力的行業(yè)參與者。
就像人類個體具備一定智能水平之后,其彼此之間通過協(xié)同實現(xiàn)了群體智能涌現(xiàn)一樣,劉知遠認為,人工智能在結(jié)束個體的智能涌現(xiàn)之后,將通過多智能體群聚,迎來群體智能的第二次涌現(xiàn)。就像互聯(lián)網(wǎng)把全球信息和人連接在一起,群體智能就有機會通過智能體互聯(lián)網(wǎng)連接在一起,實現(xiàn)智能的二次涌現(xiàn)。制定智能體接入與溝通協(xié)議,有利于異質(zhì)智能體溝通協(xié)作,共同完成任務(wù)。且不同專業(yè)能力的智能體有機結(jié)合,將完成個體所不能勝任的更復雜的任務(wù)。
共0條 [查看全部] 網(wǎng)友評論