精品久久久久久久久久_欧美香蕉人人人人人人爱_91精品国产免费久久久久久青草_国产亚洲欧美日韩在线观看一区二区

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

記者會被AI取代嗎?每日經濟新聞大模型年度評測報告發布:沒有“全能選手”,幻覺問題難解

每日經濟新聞 2024-11-13 23:38:39

每經記者|肖勇  王嘉琦    每經實習記者|宋欣悅    每經編輯|蘭素英    

2024年11月14日,2024智媒體50人成都會議暨每經20周年財經媒體峰會在蓉舉行。會議上,《每日經濟新聞大模型年度評測報告》正式發布。

在此之前,2024年6月25日,《每日經濟新聞大模型評測報告》第1期發布,對15款市面主流大模型在“財經新聞標題創作”“微博新聞寫作”“文章差錯校對”“財務數據計算與分析”四個新聞采編應用場景的能力進行了評測。

2024年9月6日,《每日經濟新聞大模型評測報告》第2期發布,重點考察大模型在“金融數學計算”“商務文本翻譯”“財經新聞閱讀”三個新聞采編應用場景的能力。

與前兩期評測一樣,《每日經濟新聞大模型年度評測報告》繼續以大模型在新聞采編場景的應用能力為評測目標,但為了更精準對接采編人員的實際需求,本次評測以“采寫編審和短視頻創作的新聞生產全流程”為場景,包括大模型設計采訪提綱——撰寫新聞稿件——校對稿件差錯——提煉稿件標題——改寫短視頻文本五個細分場景。通過大模型在新聞生產全流程的介入,評測出“誰是新聞生產全流程的最優秀大模型”,用直觀的評測結果,對采編人員在工作中選用適合的大模型工具提供實戰參考。

本次評測設置的五個細分應用場景具體如下:

(1)設計采訪提綱:旨在考察大模型能否幫助記者擬定采訪提綱,輔助記者采訪工作。

(2)撰寫新聞稿件:旨在考察大模型圍繞既定的多份材料,能否創作一篇新聞稿件。

(3)校對稿件差錯:旨在考察大模型能否檢查出新聞稿件中的錯別字,語法、數字、標點符號等差錯。

(4)提煉稿件標題:旨在考察大模型能否根據稿件內容,提煉新聞標題,特別是制作適合在微信等新媒體平臺傳播的新媒體風格標題。

(5)改寫短視頻文本:旨在考察大模型能否根據一篇文字新聞稿件,改寫成適合短視頻發布的文案。

每經大模型評測小組為五個細分場景制定了對應的評價維度和評分指標。每日經濟新聞10余名首席、高級、資深記者編輯根據評價維度和評分指標,對各款大模型在五個細分場景中的表現進行評分,匯總各場景得分,最終得到參評大模型總分。

需要指出的是,本期評測是通過各款大模型的API端口,并在默認溫度下完成。與公眾用戶使用的大模型C端對話工具存在差異。但是評測結果對用戶在具體場景中選擇合適的大模型工具,依然具有重要參考價值。

本期評測均在“雨燕智宣AI創作+”測試臺上進行,一共有12款國內大模型參與。

評測時間為2024年10月18日,因此參評大模型均為截至10月18日的最新版本。

評測結果顯示,騰訊混元hunyuan-turbo以379.53的總分位居榜首,緊隨其后的是智譜GLM-4-Plus獲得368.6分,字節跳動doubao-pro-32k(240828版本)獲得363分。

在五個細分場景方面,各家模型展現出不同的優勢:

在設計采訪提綱場景中,騰訊混元hunyuan-turbo與昆侖萬維天工SkyChat-3.0兩款模型均取得了93.33分的佳績,并列第一。

在撰寫新聞稿件場景中,智譜GLM-4-Plus以98分的高分拔得頭籌。

在校對稿件差錯場景中,智譜GLM-4-Plus以60分的成績位居首位。

在提煉稿件標題方面,深度求索DeepSeek-V2.5模型以55.2分的成績領先其他模型。

在改寫短視頻文本場景中,騰訊混元hunyuan-turbo再次展現其強勁實力,以95分的成績位列第一。

閱讀完整報告請訪問:每日經濟新聞大模型年度評測報告

結論一:暫無一款大模型能高質量完成采編全流程工作 

截至目前,每日經濟新聞一共推出三期大模型評測報告,覆蓋12項新聞采編應用場景,但從結果來看,沒有一款大模型能在所有場景中均排名前列。 

正如人類一樣,各款大模型的長處與短板各不相同。比如,有的大模型擅長財務數據計算,但在新聞標題提煉中卻排名末尾;有的大模型擅長英譯漢,卻在漢譯英方面能力平平。 

在新聞生產的關鍵環節,如本期評測中的“撰寫新聞稿件”“校對稿件差錯”“提煉新聞標題”、第一期評測中的“財務數據計算與分析”和第二期評測中的“金融數學計算”等應用場景,多數大模型生成結果的差錯頻出,要保證新聞稿件的高質量、無差錯,還必須由人工審核、把關。 

目前市面上還沒有一款大模型能夠高質量、全流程完成新聞采編場景的所有工作,換句話說,世界上還沒有“AI記者”

結論二:大模型“幻覺”未解,錯誤更隱蔽

盡管各款大模型已經多次迭代升級,但依然解決不了“一本正經地胡說八道”的幻覺問題。 

最初的大模型“幻覺”問題比較明顯。隨著產品不斷迭代,大模型生成文本質量逐漸提升,但文本中的錯誤也越發隱蔽。比如,在“撰寫新聞稿件”場景中,大模型會在不起眼處改變人物的職位或虛構事件發生的時間。例如在本期評測中,部分大模型將9月24日“星巴克咖啡公司宣布調整其中國領導層結構”的時間,誤寫成9月30日。再比如在第二期評測“金融數學計算”場景中,即便是得分第一的大模型也會在個別題目中給出了正確的計算公式,卻依然得出錯誤的答案。

對于一篇高質量新聞稿件來說,上述問題都可能是“致命”的差錯。目前,AI生成內容已經大規模出現在互聯網中。這就要求新聞媒體要進一步完善新聞內容真實性審核機制,更需要加強內容把關 

結論三:“冷面”的大模型難判斷新聞價值 

閱讀一篇稿件,挖掘出最重要的新聞點,然后提煉和制作標題,在這方面,大模型與經驗豐富的編輯相比,差距不小。 

在本期評測的“提煉稿件標題”場景中,大模型得分普遍偏低。其生成的標題多顯得中規中矩。在本期評測的“提煉稿件標題”場景中,大模型得分普遍偏低。其生成的標題多顯得中規中矩。例如大模型提煉的《“星巴克中國新篇章:80后劉文娟接任CEO,引領咖啡巨頭迎挑戰”》《“星巴克中國換帥:80后劉文娟接棒CEO,直面市場挑戰與變革”》等標題。

另外,評測中發現,大模型提煉的新聞標題,往往充斥著一些“高大上”的抽象概念詞匯,無法挖掘文章中最重要的新聞點和有價值的信息,文字空洞,很難吸引讀者的眼球。

此外,在“撰寫新聞稿件”場景中,大模型生成的文本較為生硬,“機器痕跡”較明顯,缺乏情感和個性化的表達

從現階段來看,大模型在閱讀文章方面,難以具備對一篇稿件新聞點的準確和深層次把握,容易停留在淺層次的理解。因此,新聞點和新聞價值的判斷,包括采寫有溫度、有故事、有人情味的厚重稿件,仍然離不開記者、編輯的人工介入和悉心打磨

結論四:不同采編場景選擇最適合大模型

三期大模型評測的場景基本可以分為輔助性場景(如財經新聞閱讀、文本翻譯、設計采訪提綱等)和關鍵性場景(如撰寫新聞稿件、校對稿件差錯、提煉新聞標題等)。

三期評測的結果表明,絕大部分大模型在設計采訪提綱、改寫短視頻文案、英漢翻譯、文章閱讀以及微博新聞寫作等輔助性場景中普遍表現良好。例如,“改寫短視頻文案”場景中,所有參與評測的12款大模型均取得超過80分的成績;而“設計采訪提綱”場景中,有8款大模型的得分高于80分。在第二期評測的“商務本文翻譯”場景中,13款大模型得分都高于80分,在“財經新聞閱讀”場景中,13款大模型得分高于70分。

在撰寫新聞稿件、校對稿件差錯、提煉新聞標題等新聞生產關鍵性場景的能力則明顯不足。比如,在“校對稿件差錯”場景中,僅一款大模型得分達到60分。在“提煉新聞標題”場景中,沒有一款大模型得分達到60分。

因此,記者、編輯可以根據采編工作的不同環節,不同場景,選擇最適合的大模型,讓部分場景實現采編工作AI化,提升工作效率。

結論五:新聞媒體主導:打造垂直領域的“AI記者”

對比三期大模型評測結果不難發現,國內大模型通過持續迭代,能力穩步提升。同時,各家大模型之間的差距也在逐步縮小,每個模型都展現出獨特的優勢。但這些大模型都屬于通用大模型,并非為新聞媒體、采編工作量身定制。

造成大模型“幻覺”問題嚴重的一大原因,在于訓練文本和數據質量不高,其中包含不少信息錯誤。而新聞工作對準確性要求極高。這一短板直接限制了大模型在新聞領域的應用。然而,新聞媒體在長期的新聞報道中已經積累的大量高質量新聞稿件和數據,這恰恰為研發適合新聞采編工作的大模型工具提供了得天獨厚的優勢。

因此,自主訓練和主導研發大模型工具變得尤為重要,借此,新聞媒體不僅能夠最大限度地確保大模型訓練數據的質量和生成邏輯的準確性,還能保證大模型生成內容的可控性,使其更好地契合媒體自身的屬性和特色。

在研發方法上,可以將采編全流程拆分成數十個環節,如采訪、翻譯、稿件寫作、提煉摘要和校對差錯等。根據各環節的具體工作目標、方法和要求,對大模型進行專項訓練,以形成一系列單任務或垂類AI工具。最終,將這些單任務AI工具打包匯集,則可以打造出一整套新聞采編AI工具。

每日經濟新聞大模型評測小組

2024年11月

??????????

接下來,“每日經濟新聞大模型評測小組”將繼續深入探索大模型的無限可能,從實際應用場景出發,對各個大模型進行全方位的評測,并定期推出專業報告,帶來最前沿的洞察和發現。

在此,我們誠摯地邀請您,加入評測項目。

如果您是研發企業,想要展示自家大模型的實力,與其他大模型進行比拼,請將參評大模型的詳細信息發送至我們的郵箱:damoxing@nbd.com.cn

如果您是大模型的使用者,請告訴我們您希望在哪些場景中使用大模型,或者希望我們測試大模型的哪些能力。打開每日經濟新聞App,在“個人中心”——“意見反饋”欄中留下您的想法和需求。

期待您的參與,共同探索大模型的無限可能。


 

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

模型 大模型 經濟

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

精品久久久久久久久久_欧美香蕉人人人人人人爱_91精品国产免费久久久久久青草_国产亚洲欧美日韩在线观看一区二区

      亚洲成a人片在线观看中文| 欧美r级电影在线观看| 久久久激情视频| 丝袜美腿高跟呻吟高潮一区| 成人精品国产免费网站| 一区二区在线观看不卡| 日韩欧美第一区| 亚洲福利电影网| 97久久超碰精品国产| 亚洲一区二区三区小说| 26uuu精品一区二区三区四区在线 26uuu精品一区二区在线观看 | 99久久99久久精品免费看蜜桃| 亚洲精品免费在线| 日韩视频在线观看一区二区| 亚洲精品国产a久久久久久| 国产成人aaaa| 一区二区欧美视频| 久久久蜜桃精品| 日本不卡不码高清免费观看| 国产三级三级三级精品8ⅰ区| 日本丶国产丶欧美色综合| 中文字幕精品在线不卡| 久久97超碰色| 综合精品久久久| 精品国精品国产尤物美女| 日韩成人午夜电影| 亚洲国产精华液网站w| 欧美精品粉嫩高潮一区二区| 亚洲精品大片www| 91麻豆精品一区二区三区| 色94色欧美sute亚洲线路二| 国产精品天美传媒| 国产69精品一区二区亚洲孕妇| 一区二区三区成人在线视频| 久久九九久精品国产免费直播| 蜜桃视频一区二区三区| ㊣最新国产の精品bt伙计久久| 日韩午夜精品视频| 日韩avvvv在线播放| 中文字幕一区二区三区四区| 日韩欧美一区二区久久婷婷| 日韩和欧美的一区| 中文字幕一区二区在线播放| 欧美va亚洲va| 国产一区啦啦啦在线观看| 亚洲国产精品一区二区www在线| 欧美激情在线一区二区三区| 国产乱码精品1区2区3区| 亚洲香肠在线观看| 中文字幕一区二区在线观看| eeuss鲁片一区二区三区在线观看 eeuss鲁片一区二区三区在线看 | 亚洲欧美国产高清| 国产免费观看久久| 成人丝袜高跟foot| 欧美制服丝袜第一页| 亚洲一区二区精品久久av| 日本一区二区三区视频视频| 欧美不卡一二三| 国产乱妇无码大片在线观看| 色拍拍在线精品视频8848| 亚洲综合视频在线| 国产精品黄色在线观看| 久久精品视频一区二区| 丰满白嫩尤物一区二区| 欧美视频在线观看一区| 首页综合国产亚洲丝袜| 亚洲六月丁香色婷婷综合久久| 国产欧美精品国产国产专区| 99久久久免费精品国产一区二区| 欧美裸体一区二区三区| 美国三级日本三级久久99| 五月婷婷色综合| 亚洲电影一区二区| 亚洲黄色性网站| 一区二区三区欧美日韩| 亚洲国产精品激情在线观看| 国产日韩欧美高清| 久久亚洲私人国产精品va媚药| 精品欧美一区二区三区精品久久 | 国产精品高潮呻吟久久| 欧美国产日本韩| 久久精品一区二区三区四区| 久久免费午夜影院| 91在线视频18| 精品国产91九色蝌蚪| 成人精品一区二区三区四区| 日韩欧美一级在线播放| 粉嫩av亚洲一区二区图片| 91精品国产综合久久久久 | 欧美高清视频不卡网| 久久国产精品第一页| 在线国产电影不卡| 免费在线观看视频一区| 在线国产亚洲欧美| 韩国精品在线观看| 91麻豆精品国产91久久久更新时间 | 日本一区二区三区在线不卡| 91亚洲资源网| 久久精品夜色噜噜亚洲a∨| 26uuu精品一区二区| 国产日产欧美一区| 欧美国产97人人爽人人喊| 中文字幕亚洲综合久久菠萝蜜| 国产精品少妇自拍| 亚洲品质自拍视频网站| 亚洲麻豆国产自偷在线| 亚洲成人午夜影院| 色美美综合视频| 美女国产一区二区三区| 欧美美女激情18p| 国产成人三级在线观看| 日韩精品中午字幕| av激情亚洲男人天堂| 久久久久国产精品麻豆ai换脸| 久久在线免费观看| 国产精品素人视频| 亚洲视频一二区| 五月综合激情网| 在线观看欧美黄色| 国产成人亚洲综合a∨婷婷图片| 欧美xxxxxxxx| 久久一区二区三区四区| 国产精品乱码久久久久久| 亚洲欧美怡红院| 午夜欧美在线一二页| 91精品办公室少妇高潮对白| 国产精品资源在线观看| 337p粉嫩大胆噜噜噜噜噜91av | 国产精品乱码一区二区三区软件| 亚洲欧洲制服丝袜| 秋霞电影网一区二区| 日韩一级成人av| 亚洲国产高清aⅴ视频| 亚洲一二三区在线观看| 欧美最猛性xxxxx直播| 盗摄精品av一区二区三区| 国产三级欧美三级| 亚洲精品va在线观看| 久久99九九99精品| 精品久久久久久久人人人人传媒| 国产女主播视频一区二区| 亚洲摸摸操操av| 日本网站在线观看一区二区三区| 欧美乱妇一区二区三区不卡视频| a亚洲天堂av| 中文字幕一区不卡| 无码av免费一区二区三区试看| 国内精品久久久久影院色| 久久久亚洲精品一区二区三区| 亚洲欧洲日产国码二区| 天堂久久一区二区三区| 91.xcao| 国产亚洲精品bt天堂精选| 亚洲综合一区二区| 7777精品伊人久久久大香线蕉| 国产欧美综合在线| 日韩成人一级片| 久久嫩草精品久久久精品| 亚洲美女一区二区三区| 久久99精品国产麻豆婷婷洗澡| 337p日本欧洲亚洲大胆精品| 亚洲精品视频一区二区| 麻豆国产91在线播放| 久久久久久久久久久黄色| 亚洲在线视频网站| 成人免费观看av| 一区二区激情小说| 欧美妇女性影城| 国产精品国产三级国产aⅴ原创| 免费成人在线影院| 国产日韩综合av| 亚洲成av人片一区二区梦乃| 成人免费视频一区| 洋洋av久久久久久久一区| 51精品久久久久久久蜜臀| 日本一区二区综合亚洲| 精品一区二区三区视频在线观看| 国产精品系列在线| 在线视频你懂得一区| 久久看人人爽人人| 免费成人性网站| 国产精品久久久久影院亚瑟| 色婷婷综合久久久中文一区二区| 久久久亚洲午夜电影| 日本欧美一区二区三区| 国产欧美一区二区三区沐欲| 色综合视频在线观看| 91免费版在线看| 日韩精品每日更新| 国产亚洲精品7777| 欧美日韩一区视频| 国产精品色在线观看| 国产精品69毛片高清亚洲| 亚洲精品免费在线播放| 欧美大黄免费观看| 色呦呦国产精品| 国产精品精品国产色婷婷| 高清不卡一区二区在线| 午夜精品福利视频网站| 日本一区二区久久|