新京報貝殼財經(jīng)訊(記者白金蕾 韋英姿 羅亦丹)7月3日下午,在新京報貝殼財經(jīng)夏季年會“‘通’往未來 向新有AI”主題論壇上,新京報貝殼財經(jīng)聯(lián)合北京智源研究院、中國經(jīng)濟傳媒協(xié)會發(fā)布行業(yè)首份《中國AI大模型測評報告——公眾及傳媒行業(yè)大模型使用與滿足研究》(下稱:報告)。本次報告特色內(nèi)容為新京報人工智能研究院自行研發(fā)的針對大模型傳媒能力的測評體系。
測評選取了較為知名的9款大模型應(yīng)用程序(或其網(wǎng)頁版),分別考察了其文本生成能力、事實核查與價值觀判斷能力、媒體信息檢索能力、翻譯能力以及長文本總結(jié)能力,旨在評估不同大模型助手針對媒體行業(yè)實際工作場景的能力表現(xiàn),并形成最終排名。
在總體得分上,通義千問、騰訊元寶、訊飛星火奪得前三名,主要是這三個模型在此次評測的五大維度上均沒有明顯短板。其中,通義千問在事實核查與價值觀判斷能力、長文本能力上均排名榜首,訊飛星火則在翻譯能力上排名第一,且綜合能力最強。
橫向?qū)Ρ却竽P臀鍌€維度的平均得分水平,翻譯能力得分6.42,排名第一。事實核查與價值觀判斷能力以及媒體信息檢索能力得分6.3,并列第二。第四是文本生成能力,得分6.08,最后是長文本能力,得分4.65。
由此可見,媒體從業(yè)者對于使用大模型進行翻譯工作較為滿意,而通過大模型聯(lián)網(wǎng)總結(jié)熱點事件也較為準確,大模型的價值觀未見明顯問題。與新聞寫作相關(guān)的文本生成則處于“可用”狀態(tài)??傮w來看,上述四項維度的功能均處于“及格線”以上,根據(jù)測評人員的反饋,大模型生成的新聞稿雖然可用但相比人類仍稍遜一籌,相比之下,大模型的翻譯能力、檢索總結(jié)新聞能力以及其價值觀判斷能力已經(jīng)得到了部分測評人員的認可。
此外,對于大模型從長文本中“大海撈針”找關(guān)鍵點的能力,大部分大模型仍然無法勝任。特別是給出1-999個順序排列的數(shù)字,尋找其中兩個順序顛倒的數(shù)字這一測試,9款大模型除了通義千問給出了2個答案(一對一錯)外,其余8款大模型“全軍覆沒”,說明大模型仍有缺陷之處。
編輯 王進雨
校對 楊利