以“前沿發(fā)明,引領(lǐng)AI產(chǎn)業(yè)新變革”為主題的“2024百度十大科技前沿發(fā)明”發(fā)布會日前在京舉行。此次發(fā)布會不僅展示了百度在人工智能領(lǐng)域的最新科技成果,還匯聚了眾多業(yè)界精英和專家,共同探討AI產(chǎn)業(yè)的未來發(fā)展。百度2024十大科技前沿發(fā)明,具體如下:
1、基于生成式大模型的智能體技術(shù)
該發(fā)明技術(shù)創(chuàng)新性地引入了思考模型,使智能體具備了任務(wù)規(guī)劃、工具調(diào)用、知識增強(qiáng)和反思進(jìn)化等多重能力。通過系統(tǒng)化的設(shè)計與核心能力的定向優(yōu)化,能夠低成本地支持不同應(yīng)用場景下智能體的規(guī)?;ㄔO(shè)與部署;通過建設(shè)大規(guī)模仿真能力,加速智能體構(gòu)建與分發(fā)。該技術(shù)系統(tǒng)已成功應(yīng)用于文心智能體平臺、商家智能體、文心快碼等多個重點場景,顯著提升了智能體的研發(fā)效率,降低了研發(fā)門檻。其中,商家智能體通過規(guī)劃+專家的多模型協(xié)同技術(shù)和大規(guī)模仿真技術(shù),提升反思、進(jìn)化和使用工具的能力,構(gòu)建AI營銷能力;文心快碼依托代碼推薦和智能體系統(tǒng),與傳統(tǒng)DevOps工具鏈有機(jī)結(jié)合,推動人機(jī)協(xié)同結(jié)對編程的深度探索與落地。
2、基于大模型高效訓(xùn)練框架的多模型協(xié)同進(jìn)化技術(shù)
該發(fā)明技術(shù)從工程和算法兩個角度攻克系列難題。工程架構(gòu)上,從混合并行策略、通信效率、計算存儲優(yōu)化全方位創(chuàng)新突破,顯著提升大語言模型訓(xùn)練性能,支撐文心全系列模型全流程高效穩(wěn)定訓(xùn)練。算法策略上,研發(fā)了大小模型協(xié)同的預(yù)訓(xùn)練技術(shù),攻克了模型間知識難以繼承的技術(shù)難題,改變了傳統(tǒng)模型的訓(xùn)練范式,降低了新模型訓(xùn)練成本?;谠摪l(fā)明構(gòu)建了各規(guī)模模型的技術(shù)壁壘,使文心大模型訓(xùn)練吞吐速度在過去一年提升了4.1倍,支持文心一言高效滿足不同需求的廣泛業(yè)務(wù),賦能千行萬業(yè)。
3、基于大模型和知識檢索增強(qiáng)技術(shù)的多模態(tài)內(nèi)容創(chuàng)編一體的智能系統(tǒng)
本發(fā)明技術(shù)綜合運用知識增強(qiáng)、多源內(nèi)容解析、融合式編輯、檢索增強(qiáng)文生圖等技術(shù),解決了專業(yè)長文及多模態(tài)內(nèi)容生成質(zhì)量弱、創(chuàng)編無法共享容器、文生圖主體準(zhǔn)確性差等問題。檢索增強(qiáng)文生圖,旨在通過智能判斷用戶需求自適應(yīng)處理參考圖,進(jìn)而基于混合模態(tài)的生圖系統(tǒng)顯著提升了生圖主體的一致性,有效彌補(bǔ)長尾內(nèi)容刻畫不準(zhǔn)確的短板,整體效果遠(yuǎn)遠(yuǎn)超過文生圖原生系統(tǒng)。百度文庫已經(jīng)在基于用戶指令及上傳內(nèi)容實時生成行業(yè)研報、演示文稿、思維導(dǎo)圖、畫本漫畫并支持一站式編輯、跨模態(tài)轉(zhuǎn)換、通用/個性化生圖等復(fù)雜任務(wù)方面取得了顯著的效果提升。2024年8月,極光旗下月狐數(shù)據(jù)發(fā)布報告顯示,百度文庫智能PPT市場份額已達(dá)八成,近3月用戶規(guī)模復(fù)合增速達(dá)23%,增速遠(yuǎn)超行業(yè)水平。
4、支持規(guī)模化的自動駕駛定位和車道級地圖生成技術(shù)
該發(fā)明技術(shù)突破了傳統(tǒng)模式的效率和成本問題,降低了地圖制圖成本95%,車道級道路里程超過360萬公里,實現(xiàn)全國超過41000個城鄉(xiāng)鎮(zhèn)道路的全覆蓋。基于地圖數(shù)據(jù)進(jìn)一步構(gòu)建的多模態(tài)傳感器融合的自動駕駛高精定位技術(shù),精度達(dá)到厘米級,極大提高了可量產(chǎn)性,將車端定位依賴的地圖包體積降低97.5%,可靠性達(dá)到99.9999%,全面支撐目前蘿卜快跑全無人駕駛的規(guī)?;\營,在高架橋下、多層路、隧道等各種復(fù)雜困難場景實現(xiàn)全無人駕駛。
5、面向大模型智能化的個性化記憶機(jī)制
該發(fā)明技術(shù)創(chuàng)新性地提出了一套全面的記憶機(jī)制,涵蓋記憶加工、存儲、管理、觸發(fā)和利用五大模塊,賦予大模型個性化記憶能力。記憶加工借鑒人類海馬體機(jī)制,實現(xiàn)了對全場景用戶信息的深度理解和精準(zhǔn)加工;記憶管理支持用戶主動與系統(tǒng)自動的增刪改查,確保了記憶庫的實時更新與準(zhǔn)確;記憶觸發(fā)和利用,通過相關(guān)記憶的推測生成,輔助大模型產(chǎn)生更加擬人和個性化的回復(fù)。該發(fā)明技術(shù)已廣泛應(yīng)用于智能AI助手、數(shù)字人等場景。
6、基于大模型的超擬真數(shù)字人建模、驅(qū)動與生成系統(tǒng)
該發(fā)明技術(shù)提出了一整套的超擬真數(shù)字人建模、驅(qū)動和生成方案。針對真人數(shù)字人,研發(fā)了數(shù)據(jù)驅(qū)動的人像建模、跨模態(tài)驅(qū)動和人像視頻生成大模型,實現(xiàn)了自然、擬真的數(shù)字人內(nèi)容生產(chǎn),獨家支持大幅動作&遮擋場景的直播人像克隆,并實現(xiàn)了首個全身智能驅(qū)動直播間落地。針對超寫實3D數(shù)字人,基于文心大模型研發(fā)了模態(tài)遷移和多智能體協(xié)作技術(shù),實現(xiàn)了分鐘級制作媲美影視大片、3A游戲的超寫實數(shù)字人形象及運營內(nèi)容。本發(fā)明技術(shù)已廣泛地應(yīng)用于數(shù)字人直播、視頻生產(chǎn)、智能體等眾多真人和3D數(shù)字人的產(chǎn)品中。
7、基于大模型的生成式商業(yè)檢索系統(tǒng)
該發(fā)明技術(shù)變革了傳統(tǒng)的 “索引-召回-排序”流程,扁平化系統(tǒng)漏斗,減少信息損失,通過構(gòu)建索引學(xué)習(xí)任務(wù),將商業(yè)信息編碼進(jìn)模型參數(shù),實現(xiàn)“模型即索引”,利用大模型的理解和推理能力,實現(xiàn)“生成即檢索”,新范式顯著提升系統(tǒng)定向效率120%。該發(fā)明所涉及項目業(yè)界率先落地,實現(xiàn)大規(guī)模工業(yè)化應(yīng)用,生成式大模型結(jié)合商業(yè)搜索場景取得多項技術(shù)創(chuàng)新,創(chuàng)意豐富度提升37倍,創(chuàng)意質(zhì)量提升92%,獲得了顯著的業(yè)務(wù)收益和廣泛技術(shù)影響力。
8、大模型數(shù)據(jù)飛輪技術(shù)
該發(fā)明技術(shù)通過整合用戶反饋、執(zhí)行反饋和自監(jiān)督反饋等多來源和形式的信息,自動識別模型缺陷并高效合成高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)。同時結(jié)合多源反饋的強(qiáng)化學(xué)習(xí)方法,顯著提升了模型訓(xùn)練效果。該創(chuàng)新技術(shù)構(gòu)建了一個能夠持續(xù)自我改進(jìn)的數(shù)據(jù)飛輪,有效突破了大模型的數(shù)據(jù)瓶頸,降低了數(shù)據(jù)獲取成本,提高了大模型的適應(yīng)性和魯棒性,提升了模型在不同任務(wù)場景下的泛化能力,加速大模型持續(xù)進(jìn)化。
9、大模型高效推理技術(shù)
該發(fā)明技術(shù)提出的高效推理技術(shù),底層模型層基于飛槳框架,在推理架構(gòu)方向,結(jié)合主流的PrefixCaching、Lookahead、PagedAttention、PD分離等方向持續(xù)創(chuàng)新,并將各項技術(shù)高效結(jié)合,大幅提升模型吞吐和性能。在大模型壓縮方面,采用大模型無損量化技術(shù),通過激活自適應(yīng)分段平滑與權(quán)重聯(lián)動重排等方法,在業(yè)內(nèi)率先實現(xiàn)了對百億千億級大模型的高效無損壓縮。該發(fā)明支持多種大模型壓縮和推理加速手段,目前已應(yīng)用于百度智能云千帆大模型平臺等核心業(yè)務(wù),減少模型推理的資源消耗,節(jié)省大模型部署成本超50%,提升模型性能,模型吞吐提升3-5倍。
10、用戶數(shù)據(jù)反饋驅(qū)動的檢索生成系統(tǒng)
該發(fā)明技術(shù)提出的檢索生成系統(tǒng),能夠結(jié)合用戶行為反饋信號,實現(xiàn)快速自我強(qiáng)化。通過滿意度建模和強(qiáng)化學(xué)習(xí)直接對齊用戶偏好,并利用用戶反饋觸發(fā)系統(tǒng)快速反思,解決了傳統(tǒng)數(shù)據(jù)應(yīng)用時專家反饋效率低和用戶偏好建模難的問題?;谠摽蚣艿臋z索生成系統(tǒng)已覆蓋18%的搜索流量,廣泛應(yīng)用于文字、視頻、圖片等搜索場景。多元用戶反饋的規(guī)模大、可循環(huán)的特性,使系統(tǒng)能夠快速適應(yīng)數(shù)據(jù)、產(chǎn)品和環(huán)境的變化,幫助系統(tǒng)自動化尋優(yōu),加速系統(tǒng)向理想狀態(tài)演進(jìn),具備極高的實用價值和市場競爭力。
來源:環(huán)球網(wǎng)科技頻道