首頁 > 科技

AI大模型測評報告：“長文本”和“撈針”成大模型痛點

2024-07-03 20:12:22 記者：白金蕾韋英姿羅亦丹編輯：王進雨

新京報貝殼財經(jīng)訊（記者白金蕾韋英姿羅亦丹）7月3日下午，在新京報貝殼財經(jīng)夏季年會“‘通’往未來向新有AI”主題論壇上，新京報貝殼財經(jīng)聯(lián)合北京智源研究院、中國經(jīng)濟傳媒協(xié)會發(fā)布行業(yè)首份《中國AI大模型測評報告——公眾及傳媒行業(yè)大模型使用與滿足研究》（下稱：報告）。本次報告特色內(nèi)容為新京報人工智能研究院自行研發(fā)的針對大模型傳媒能力的測評體系。

測評選取了較為知名的9款大模型應(yīng)用程序（或其網(wǎng)頁版），分別考察了其文本生成能力、事實核查與價值觀判斷能力、媒體信息檢索能力、翻譯能力以及長文本總結(jié)能力，旨在評估不同大模型助手針對媒體行業(yè)實際工作場景的能力表現(xiàn)，并形成最終排名。

在總體得分上，通義千問、騰訊元寶、訊飛星火奪得前三名，主要是這三個模型在此次評測的五大維度上均沒有明顯短板。其中，通義千問在事實核查與價值觀判斷能力、長文本能力上均排名榜首，訊飛星火則在翻譯能力上排名第一，且綜合能力最強。

橫向?qū)Ρ却竽Ｐ臀鍌€維度的平均得分水平，翻譯能力得分6.42，排名第一。事實核查與價值觀判斷能力以及媒體信息檢索能力得分6.3，并列第二。第四是文本生成能力，得分6.08，最后是長文本能力，得分4.65。

由此可見，媒體從業(yè)者對于使用大模型進行翻譯工作較為滿意，而通過大模型聯(lián)網(wǎng)總結(jié)熱點事件也較為準確，大模型的價值觀未見明顯問題。與新聞寫作相關(guān)的文本生成則處于“可用”狀態(tài)?？傮w來看，上述四項維度的功能均處于“及格線”以上，根據(jù)測評人員的反饋，大模型生成的新聞稿雖然可用但相比人類仍稍遜一籌，相比之下，大模型的翻譯能力、檢索總結(jié)新聞能力以及其價值觀判斷能力已經(jīng)得到了部分測評人員的認可。

此外，對于大模型從長文本中“大海撈針”找關(guān)鍵點的能力，大部分大模型仍然無法勝任。特別是給出1-999個順序排列的數(shù)字，尋找其中兩個順序顛倒的數(shù)字這一測試，9款大模型除了通義千問給出了2個答案（一對一錯）外，其余8款大模型“全軍覆沒”，說明大模型仍有缺陷之處。

編輯王進雨

校對楊利

124 +1

微信