欧美506070老妇乱子伦_精品国产自在精品国产_亚洲 日韩 另类 制服 无码_91精品久久久久影视网_欧美大喷潮合集 在线观看

對話騰訊蔣杰:全鏈路自研通用大模型有何挑戰(zhàn)

時間:2023-09-09 13:25:15       來源:界面新聞



(資料圖片僅供參考)

9月7日,騰訊正式宣布旗下的通用大模型“混元大模型”對外開放,作為全鏈路自研的通用大語言模型,混元具備強大的中文創(chuàng)作能力,復雜語境下的邏輯推理能力,以及可靠的任務執(zhí)行能力。

在大會后的采訪中,騰訊集團副總裁蔣杰,介紹了它的研發(fā)過程、方向選擇思路以及自研模型的技術挑戰(zhàn)。

蔣杰表示,騰訊混元大模型擁有自主研發(fā)的路徑規(guī)劃,掌握了從算法到框架再到平臺的全鏈路自研技術。

在其它公司著急推出各種模型的時候,騰訊的通用大模型已經(jīng)在內(nèi)部大量業(yè)務場景中進行了長期測試,產(chǎn)品成熟之后才對外輸出。

這種先服務于騰訊本身的業(yè)務,再通過騰訊云對外開放、服務客戶和外部合作方的模式,也被騰訊視為自家通用大模型的重要優(yōu)勢。

騰訊方面表示,混元大模型有良好的上下文理解和長文記憶能力,能夠流暢完成各專業(yè)領域的對輪問答;支持文學創(chuàng)作、文本摘要、角色扮演;能夠準確理解用戶意圖,基于已有數(shù)據(jù)或信息進行推理、分析;同時有效解決事實性、時效性問題,提升內(nèi)容生成效果。

蔣杰認為,大語言模型最有商業(yè)價值的部分是提效,這也是大語言模型存在的使命。

未來混元大模型將重點做好提效的基礎能力,“希望它不要胡言亂語,更安全、更可靠、有更好的邏輯思維能力,可以回答更復雜的題目”。

對于大模型在訓練和存儲過程中涉及到的數(shù)據(jù)問題,蔣杰表示,無論有沒有大模型,騰訊都嚴格遵循法律要求,“我們可以向大家保證,我們做的小模型、大模型還是大語言模型,都絕不會使用個人隱私數(shù)據(jù)。”

混元為什么不著急

公開數(shù)據(jù)顯示,截止到今年7月底國內(nèi)已經(jīng)有130個大模型產(chǎn)品亮相或宣布,其中既有一些大模型,也有小模型,有通用模型,也有專業(yè)領域的模型。

但騰訊的通用大模型雖然已經(jīng)在內(nèi)部運營迭代多個版本,但直到9月份才正式對外開放,這也被很多人認為是一次姍姍來遲的亮相,多少顯得有些“不著急”。

其實,混元大模型的推出并非一蹴而就,從2021年開始,騰訊就已經(jīng)在研發(fā)相關的技術能力。也是從那年起,騰訊先后推出了千億和萬億參數(shù)的NLP稀疏大模型。

他向界面新聞介紹稱,混元大模型是從零開始訓練,整個體系包含了平臺架構(gòu)、模型和算法等能力,同時將騰訊自身的業(yè)務需求和大模型進行深度結(jié)合。

馬化騰在股東大會上曾明確表示,騰訊在埋頭研發(fā)自己的大模型,但是并不急于早早做完,把半成品拿出來展示。

在最近幾個月內(nèi),混元大模型始終處于邊研發(fā)邊應用的狀態(tài),騰訊內(nèi)部一直在用大量內(nèi)部業(yè)務場景對它進行磨煉,尤其是騰訊文檔、騰訊會議和騰訊廣告等非常復雜的應用場景。

在騰訊看來,對于基礎模型而言,技術和機會并不僅局限于聊天機器人這樣的問答式場景,大模型的長期價值將通過應用來體現(xiàn),所以更廣泛的應用場景是決勝的關鍵因素。

雖然測試大語言模型的途徑有很多,部分廠商也采用了Chat的方式進行測試,但蔣杰認為,騰訊在過去二十年間積累了大量的C端應用場景以及海量用戶,也包含了很多B端應用場景驗證體系,混元大模型在騰訊內(nèi)部各業(yè)務的場景中也能得到良好的測試。

此前在6月份,騰訊曾推出MaaS(Model-as-a-Service)服務,向外部客戶提供行業(yè)大模型服務。本次混元大模型對外開放之后,也將作為MaaS服務的底座,客戶可以基于混元大模型,也可以基于開源模型,來搭建自己專屬的行業(yè)大模型。

選擇自研,尋求技術突破

現(xiàn)在市場上有很多開源大模型,部分廠商選擇在它們基礎上疊加精調(diào),然后推出自己的大模型產(chǎn)品。

但蔣杰認為,如果不從頭做自研,就無法對這項技術完全掌握。騰訊選擇自研的首要原因就是要解決根本的技術能力突破,建立自己的技術棧體系,模型的后續(xù)研發(fā)迭代速度會更快,也更容易與未來騰訊其他產(chǎn)品業(yè)務相融合。

其次,騰訊旗下?lián)碛泻芏嗪A扛卟l(fā)的業(yè)務,而很多開源模型的架構(gòu)并不能支撐這種體量。所以騰訊需要走出一條基于自主體系研發(fā)的道路,才能應對海量高并發(fā)業(yè)務的沖擊。

與此同時,全鏈路自研也讓騰訊的大模型擁有了差異化的優(yōu)勢。

比如,“幻覺”是每個大語言模型都會面臨的重要問題,當前Transformer架構(gòu)的大模型無論做到什么階段,都會出現(xiàn)不同程度的幻覺,這是做大語言模型的技術人員終身的挑戰(zhàn)。

行業(yè)內(nèi)很多大模型用的是知識圖譜和搜索外掛的方式,去提升模型的檢索能力,騰訊也部分采用了這些方式,“但比例不會很高,我們要在整個大模型的預訓練階段就控制這個問題”,蔣杰表示。

在騰訊內(nèi)部看來,雖然搜索增強能豐富大模型的答案,但它并不是大模型的底層能力。在方向選擇上,騰訊更傾向于通過底層能力的提升來增強大模型的水平,這也是騰訊選擇自研“探真”技術來解決幻覺的原因。

蔣杰表示,雖然市面上并不缺乏大模型產(chǎn)品,很多公司的技術路線也都類似,但這是一個拼細節(jié)的過程。

也許未來對頭部廠商大模型進行評分,大家的差距僅在一兩分之間,但投入資源的不同、專注細節(jié)的區(qū)別,都會凸顯不同模型之間的差異性。

蔣杰認為,大模型還遠沒有觸碰到技術的天花板,不是靠幾個技術單點的突破就能讓大模型呈現(xiàn)出最終形態(tài),這是一個綜合實力的比拼過程。它包括了技術突破的能力、語料的完整度、數(shù)據(jù)標注的能力、糾錯能力和評測能力的突破等。

而騰訊“有使用場景的資源,有數(shù)據(jù)方面的優(yōu)勢,有云計算基礎設施方面的加持,有打造人工智能應用,為既有業(yè)務提供輔助方面的長期實踐?!庇抿v訊總裁劉熾平的話說,這也是騰訊持續(xù)投入大模型研發(fā)并參與市場競爭的底氣。

(文章來源:界面新聞)

關鍵詞:

精彩推送
首頁
頻道
底部
頂部