2月26日,北京大學第三醫(yī)院的心內(nèi)科診室里,兩種治療方案在診臺上對峙:左側(cè)是心內(nèi)科大夫汪京嘉開出的一份用于治療高血脂的醫(yī)囑,右側(cè)是人工智能軟件生成的處方。 這天,汪京嘉如常出診,呼叫鈴響三聲后,一位60歲老人姍姍來遲?!?45/90mmHg,低密度脂蛋白3.8mmol/L,無糖尿病?!睓z查報告顯示,老人屬于輕度血脂異常,依據(jù)醫(yī)療診斷,汪京嘉醫(yī)生將口服藥處方遞給老人。 “汪大夫,您給開的口服藥太溫和,AI建議注射瑞百安,說是降脂快。” 診室陷入短暫沉默,空氣凈化器的嗡鳴聲逐漸清晰。汪京嘉用手指點了點報告:“他汀類藥物對肝臟負擔更小,您的報告顯示轉(zhuǎn)氨酶偏高?!彼nD了兩秒,告訴患者注射劑可能加重肝臟代謝負擔。 爭論持續(xù)了十分鐘。老人從AI上得到的建議是,注射類藥物短期耐受性良好,而且僅需隔周注射一次,比每日服用藥物方便許多。但在汪京嘉看來,對于老年高血脂高血壓的病人,一切以維穩(wěn)為主,他汀類口服藥物已有超過30年的臨床應用歷史,副作用發(fā)生率低,符合循證醫(yī)學的“最小有效干預”原則,可避免過度醫(yī)療。 這場“爭論”最終以老人的沉默落下帷幕。他扶了扶眼鏡,應了聲“哦”,關掉手機,把紙質(zhì)處方插進口袋。走廊叫號屏顯示,下一位患者已等候8分鐘,這比平均問診時間多了三分之一。 不止在醫(yī)療界,類似的認知拉鋸正在全球上演。 2025年初,各類大模型開放,AI的興起改變了人們的日常生活。作家借助算法優(yōu)化詩句結(jié)構(gòu),養(yǎng)生愛好者用AI定制健康食譜,失眠者深夜與AI對話疏解焦慮。股民們甚至樂此不疲地解讀著AI生成的各類理財建議。 在公眾對生成式大模型日益依賴的進程中,偏差開始浮現(xiàn)??此茻o所不能的智能助手,時常會像模像樣地“編故事”。當用戶查詢歷史細節(jié)時,AI可能會將不同朝代的典章制度混雜交錯;求醫(yī)者收到的診療方案中,藏著多年前已被世衛(wèi)組織廢止的藥劑配比……在知識邊界外,算法用看似完美的邏輯鏈條編織著答案。 自此,人們開始重新校準與科技的聯(lián)結(jié)。 北醫(yī)三院心內(nèi)科診室,汪京嘉正在看診。受訪者供圖 AI依賴癥 北京望京,一棟寫字樓的16層,證券分析師小宋的工位上有三塊曲面顯示屏,上面終日流淌著數(shù)據(jù)瀑布。2023年6月開始,他使用AI軟件chatGPT作為工作助手。“瞬析上百份財報、一分鐘生成深度報告,人肯定是做不到?!毙∷斡X得,chatGPT能很快做出反應并處理問題,讓他的報告產(chǎn)出效率躍升。 當其他同事還在手動整理全國幾十家半導體企業(yè)財報時,AI已經(jīng)幫他抓取了關鍵參數(shù),“某半導體集團的資本開支數(shù)據(jù)、驅(qū)動芯片占全球市場的份額、全球半導體銷售額……”小宋的手指反復在鍵盤上跳躍,這些復雜的數(shù)據(jù)在短短30秒內(nèi)被制成了一張圖表。 公司內(nèi)部的一場電話會中,輪到小宋做會議紀要,chatGPT的實時語音轉(zhuǎn)錄功能不僅將領導含糊的浙江普通話精準轉(zhuǎn)換成了文字,會后小宋核對錄音,連專業(yè)財務詞匯和數(shù)據(jù)信息都分毫不差。 小宋沉浸在一種AI帶來的時間紅利中。曾經(jīng)需要通宵解析的市場波動,現(xiàn)在只需要一杯茶的工夫,就變成了電腦屏幕里跳動的概率曲線,這些由AI算法托起的輕舟,載著他穿越信息的洪流。 類似的感受,王賀也有。 他是北京一家網(wǎng)絡安全公司的產(chǎn)品研發(fā)工程師,像是數(shù)字世界的“安全鎖匠”,王賀每天的工作,是在電腦前設計各類殺毒軟件和防火墻,不斷模擬黑客攻擊來測試這些防護系統(tǒng)的漏洞,直到確認沒有任何非法闖入的途徑。 從前,王賀要像“撿豆子”一樣逐行審查代碼找漏洞,通宵篩查警報代碼早就變成了常態(tài),長時間的高負荷工作,讓他覺得身上像是綁上了時鐘,永遠停不下來。 這樣的狀態(tài)因為AI的接入,發(fā)生了微妙的遷移,密密麻麻的日程表上,突然多出了一些空白格。 去年,王賀所在的團隊正式將AI應用到工作中,在自動化滲透測試中,AI能模擬黑客攻擊行為,通過自動檢測工具和機器學習算法,快速發(fā)現(xiàn)系統(tǒng)中的漏洞和弱點,并提出有效的修復建議。 “就像打仗的時候,士兵不再拼刺刀,但需要更高維的戰(zhàn)術指揮能力?!蓖踬R覺得,他的時間不再消耗在顯微鏡式的漏洞追蹤上,轉(zhuǎn)而可以聚焦于設計防御算法上。 AI可以自動生成百萬級測試用例,3秒定位某金融APP支付接口的越權(quán)漏洞,而同樣的工作,人工測試則需4小時。他粗略地計算過,人工智能系統(tǒng)的接入,相比傳統(tǒng)運維效率提升了20%。 這種信息狩獵方式的革新,也正在重塑財經(jīng)記者崔其的工作。 3月3日晚上8點,崔其正在對DeepSeek話框中輸入第6次修改指令:“篩選近一年融資超1000萬的科技企業(yè),關聯(lián)創(chuàng)始人減持記錄和訴訟數(shù)據(jù)。”這是他使用人工智能程序?qū)ふ疫x題的第32天。 崔其逐漸摸索出一套與AI協(xié)作的工作法則,“AI可通過數(shù)據(jù)分析得出近期最受關注的話題是什么,再將熱點信息與所在行業(yè)結(jié)合,一些還不錯的選題就出來了?!眴覣I程序,變成他每天上班第一件要做的事,算法生成全網(wǎng)聲量最高的熱詞,這些熱點信息投射到行業(yè)知識圖譜上,變成若干選題。 AI賦予了崔其一種快速的數(shù)據(jù)洞察力,他總能利用AI給出的熱點詞,在紛雜的信息汪洋里錨定坐標,將大眾關切的話題與專業(yè)洞見梳理成一篇又一篇爆款文章。 chatGPT對話頁面。 圖源 ic photo AI幻覺“陷阱” 這個月,小宋第四次捕捉到AI的錯誤。 小宋記得,撰寫行業(yè)報告前,他想在AI上收集一些有效數(shù)據(jù),chatGPT為他生成了一份《存儲芯片行業(yè)Q1預測》:“三星電子將在西安擴產(chǎn)”“臺積電產(chǎn)能釋放帶動需求,某電子元件公司預計營收增長22.3%”…… 大量的信息正以每秒三行的速度出現(xiàn)在深藍色曲面屏上,檢索過一輪之后,小宋意識到,這些快速生成的數(shù)據(jù)和信息并不真實?!氨緛磉€覺得很有道理、很專業(yè),AI給出的資料里甚至還附上了開發(fā)區(qū)管委會的紅頭文件編號,但仔細一查,根本就沒有這個東西。” 所謂AI幻覺,通常是指大語言模型生成的內(nèi)容無意義、不符合事實、邏輯自相矛盾,甚至完全不準確的輸出。去年8月,一家叫Arthur AI的人工智能公司發(fā)布了一份報告,比較了OpenAI、Meta、Anthropic以及Cohere公司開發(fā)的大語言模型出現(xiàn)幻覺的概率。結(jié)果顯示,這些大模型都會產(chǎn)生幻覺。 中國信通院人工智能研究所副所長巫彤寧在接受新京報采訪時,用生活化類比解釋了AI幻覺的成因,“就像一個人雖然能流利地說話,但并不一定每句話都符合事實?!彼榻B,AI本質(zhì)上是根據(jù)前文預測最可能出現(xiàn)的詞語,它更像是一個沉浸在語料庫海洋中學習說話的學習者,它不是在查找答案,而是在預測下一個要說的最合理的詞應該是什么。 巫彤寧解釋,大模型是指具有大規(guī)模參數(shù)和計算能力的機器學習模型。而大語言模型(LLMs)是指基于深度學習,擁有數(shù)十億甚至千億級別的參數(shù)構(gòu)成,能夠在多樣化的自然語言處理任務中展現(xiàn)強大生成與推理能力的人工智能模型。 然而,大模型訓練時吸收的海量網(wǎng)絡數(shù)據(jù)如同未經(jīng)篩選的圖書館,既藏有真知灼見,也充斥著謠言與廣告。由于AI無法像人類那樣理解事實的邏輯,因此,當遇到需要深度推理的問題時,這種基于概率的創(chuàng)作機制就容易催生看似合理實則錯漏百出的“專業(yè)謊言”。 AI承認提供了虛假文獻。受訪者供圖 這種幻覺帶來的信息污染開始侵蝕小宋的工作。 最危險的失誤發(fā)生在今年1月。一次實地調(diào)研中,某半導體公司的銷售總監(jiān)聊到“刻蝕機交貨期從半年延長到七個半月”時,小宋突然意識到,自己上周發(fā)布的行業(yè)報告里,關于芯片設備供應周期的預測數(shù)據(jù),還在使用AI系統(tǒng)中存儲的舊參數(shù)。這意味著,所有基于該數(shù)據(jù)的投資建議都存在偏差。 在小宋所在的證券行業(yè),這種錯誤是“致命”的。他的失誤被做成案例,在團隊晨會上反復批評。 “AI幻覺”導致的偏差,也正成為自動駕駛研發(fā)的棘手難題。 上海臨港的自動駕駛測試場內(nèi),某車企自動駕駛研發(fā)部的劉璐摘下AR眼鏡,盯著監(jiān)控屏上的異常軌跡皺起眉頭,這是本周第三起誤觸發(fā)事件。L4級測試汽車在通過無標線道路時,突然對右側(cè)綠化區(qū)實施緊急制動?;胤艤y試錄像發(fā)現(xiàn),雷達將隨風擺動的塑料棚膜識別成橫穿馬路的行人,而攝像頭因逆光未能及時修正。 劉璐所在的研究團隊每周要分析超過2000公里的路測數(shù)據(jù)。在標注著“光影干擾”的文件夾里,存有清晨逆光、隧道明暗交替、雪地反光等多種特殊場景。某個冬日郊外測試中,激光雷達曾將雪地里跳躍的太陽光影群誤判為滾石,引發(fā)急剎。 “誤觸發(fā)案例很多是因為大模型感知問題?!眲㈣凑{(diào)出三個月的測試事故統(tǒng)計,53%的AI系統(tǒng)誤判集中在四種場景:低空飛鳥群、暴雨天劇烈擺動的雨刮器、特殊角度護欄甚至百米外飄舞的塑料袋。這些人類司機可以輕松識別的道路信息,卻是AI系統(tǒng)無法準確理解的“視覺陷阱”。 真正的挑戰(zhàn)來自多傳感器協(xié)同。實驗場的屏幕上,攝像頭堅持顯示著“斑馬線上的行人”,而激光雷達的點云圖卻顯示該區(qū)域空無一物?!熬拖袢送瑫r聽到好幾個不知真假的警報,要瞬間判斷哪個是真實的威脅?!眲㈣凑f,對于自動駕駛的研發(fā)人員來說,讓AI系統(tǒng)對此類矛盾判斷的響應時間接近人類駕駛員的反應速度,是他們面臨的最大挑戰(zhàn)。 在真實的馬路上,這樣的“誤會”可能帶來嚴重的危險。每當算法把樹影錯認成行人,或是將雨幕解析成車流,劉璐都又一次意識到,這些都是自動駕駛研發(fā)路上必經(jīng)的“錯覺時刻”,而教AI準確理解現(xiàn)實世界,遠比教它處理清晰規(guī)則更困難。 在社交媒體上,越來越多的網(wǎng)友開始分享自己被AI“欺騙”的經(jīng)歷。 論文截稿的前幾天,材料專業(yè)的大四學生靜文開始發(fā)愁。生成式人工智能軟件普及后,她熟練運用著各類AI輔助工具,用Kimi梳理文獻綜述,通過豆包生成實驗框架,DeepSeek上線后更成為她整理數(shù)據(jù)的得力助手。 然而,這份“依賴”在開學初顯露出隱患。2月18日,靜文通過AI整理“量子點材料”研究進展,系統(tǒng)洋洋灑灑列出27篇參考文獻??僧斔饤l核實時,發(fā)現(xiàn)27篇的參考文獻,只有3篇真實存在,而這3篇里壓根沒有關于“量子點材料突破”的學術信息。 人機博弈 “AI給出的虛假文獻就像皇帝的新衣?!?br> 靜文覺得,AI可能并非刻意造假,而是將真實存在的期刊名稱、學者研究方向、實驗數(shù)據(jù)進行概率性組合,最終編織出邏輯自洽卻脫離現(xiàn)實的回答。 從那之后,她不再盲目地相信AI給出的任何回答,現(xiàn)在,她每看到一篇被引用的文獻,都會手動驗證兩個信息:期刊官網(wǎng)的當期目錄和通訊作者實驗室官網(wǎng)的成果列表。 3月4日,醫(yī)生值班室里,汪京嘉對著閃爍的屏幕發(fā)了好一會兒呆。 汪京嘉把人工智能比作“雙面鏡”。他說,越來越多的年輕醫(yī)生們開始依賴AI撰寫病歷小結(jié)、寫課題論文,那些看似專業(yè)的醫(yī)學名詞堆砌下,偶爾也會冒出“左心室瓣膜鈣化導致糖尿病”之類的荒唐邏輯。 他突然想起前段時間,有位同事的論文被國際期刊退回,審稿人用紅字標注著:“參考文獻第7、12條查無此文”。這是一篇用AI輔助完成的課題論文,虛構(gòu)的文獻如同混入珍珠項鏈的塑料珠子,逼真得連DOI編碼(Digital Object Identifier,通過DOI號,可以追溯論文發(fā)表的時間、期刊信息、作者信息等數(shù)據(jù))都自成體系。 去年春天,一款醫(yī)療AI系統(tǒng)通過了藥監(jiān)局審批,但可使用權(quán)限被嚴格框定在影像識別領域。汪京嘉告訴新京報記者,AI影像輔助檢測AI軟件可用于結(jié)節(jié)識別、結(jié)節(jié)良惡性鑒別診斷以及智能報告生成。 AI的加入讓醫(yī)學檢查更加敏銳,也讓業(yè)界擔心會造成新的“過度診療”。事實上,AI接入CT以后,一路走高的肺結(jié)節(jié)的檢出率已經(jīng)讓越來越多人陷入焦慮了。 但最棘手的仍是數(shù)據(jù)真相。在使用過程中,醫(yī)生們必須仔細甄別AI系統(tǒng)背后的邏輯漏洞,“病理切片的光學分辨率、檢查報告的措辭偏差,甚至一句模糊的主訴描述,都可能導致AI誤判?!蓖艟┘斡X得,任何AI工具都不是無所不能的智者,而是需要被交叉驗證的協(xié)作者。 人機博弈有時也發(fā)生在王賀身上。 有天下午,他盯著屏幕上的警報記錄哭笑不得,公司新上線的AI安全系統(tǒng)剛剛把行政部同事批量發(fā)送的會議通知,誤判成了“可疑郵件轟炸”。整齊排列的會議日程,在AI眼里成了攻擊代碼的偽裝。 作為專業(yè)的程序員,王賀給AI系統(tǒng)設置了一個準則,只允許它“學習”國家網(wǎng)絡安全機構(gòu)認證的病毒樣本庫,而來路不明的網(wǎng)絡攻擊案例,必須先經(jīng)過人工審核,才能放入清單。他回憶,上周有同事上傳的“新型詐騙案例”,后來發(fā)現(xiàn),其實是某部科幻小說的情節(jié),幸好被提前攔截。 他覺得,AI的使用者不能被大模型所主導,而應該主導大模型。在與大模型交流時,優(yōu)化提問方式,在一定程度上能減少幻覺出現(xiàn),比如要求在指定范圍回答,并提供信息來源鏈接。 那次重大失誤后,小宋在辦公室支起了雙重驗證系統(tǒng):左側(cè)曲面屏繼續(xù)運行AI分析程序,右側(cè)液晶屏則時刻準備驗證真?zhèn)?。“現(xiàn)在我要像法醫(yī)一樣解剖數(shù)據(jù)?!毙∷谓o自己新增了兩條“鐵律”,所有涉及政府文件的信源,必須手動查驗國務院客戶端,有關財務數(shù)字的信息要多次反復復核。 他演示著最新的工作流程:AI生成的每段內(nèi)容,都要用兩個獨立信源交叉驗證,所有財務模型必須手工重算關鍵參數(shù),就連企業(yè)官網(wǎng)信息,也要對照紙質(zhì)年報逐行校閱。 這樣的操作,讓他的發(fā)稿速度退回到兩年前,過去半小時完成的行業(yè)簡報,現(xiàn)在需要拆解成多個節(jié)點驗證節(jié)點。 最近,劉璐和團隊像教新手司機認路一樣,給自動駕駛系統(tǒng)添加了“辨別課”。他們讓AI反復學習數(shù)萬種光影類別,有時是進出隧道時忽明忽暗的強光,有時是雨天車窗上跳躍的水珠反光,還有高樓玻璃幕墻在陽光下制造的“假紅綠燈”。 “就像駕校教練會帶學員到復雜路段實地訓練。”劉璐解釋,他們用計算機生成各種逼真的光影干擾場景,讓系統(tǒng)學會做判斷,當攝像頭看到疑似紅燈的反光時,會檢查雷達是否探測到實體障礙物,同時參考導航地圖確認該位置是否真有交通信號燈,可以有效減少測試車輛被反光迷惑而突然剎車,就像老司機能一眼分清霓虹燈和真正的交通信號。 上海臨港自動駕駛測試廠,正在進行自動駕駛車輛路測。受訪者供圖 尋找最優(yōu)解 夾雜著虛構(gòu)與偏差的信息,悄然走進人們的生活,普通用戶難以分辨屏幕另一端是引經(jīng)據(jù)典的專業(yè)數(shù)據(jù)還是AI幻覺,這種信任危機正在醫(yī)療咨詢、法律解讀等專業(yè)領域形成裂痕。 2023年6月,美國紐約南區(qū)聯(lián)邦地區(qū)法院審理的Mata v. Avianca案件被認為是全球首例因“AI幻覺”而受到司法處罰的案例。 2023年3月1日,Mata的代理律師提交了一份反對動議的聲明,該聲明引用并摘錄了據(jù)稱發(fā)表在《聯(lián)邦判例匯編》《聯(lián)邦補充判例匯編》中的司法判決;然而,這些聲明中引用的判例并非真實存在,而是由ChatGPT生成的。 在被告律師指出案例無法找到后,原告律師未能核實判例的真實性,并在法院要求提供完整案例文本后,仍然提交了由ChatGPT 生成的“判例”,法官認為原告律師的行為違反了執(zhí)業(yè)道德準則,浪費了司法資源,并被處以5000美元的罰款。 “AI在生成答案時所犯的錯誤,是否可以追溯到開發(fā)者設計時的缺陷?”“是否應賦予人工智能以法律上的人格?”最近,類似這樣的問題不斷引發(fā)討論。 有法律專家認為,AI的決策如果不具備情感或意識,就不應該被視為“過失”。也有學者提出,人工智能具有獨立自主的行為能力,有資格享有法律權(quán)利并承擔責任義務,應當具有法律人格,但其具有的僅是有限的法律人格,在必要時可“刺破人工智能面紗”,對其適用特殊的侵權(quán)責任規(guī)范。 北京師范大學中國社會管理研究院院長、互聯(lián)網(wǎng)發(fā)展研究院院長李韜告訴新京報記者,傳統(tǒng)的技術錯誤或失誤的責任一般由開發(fā)者或技術公司承擔。這種責任分配原則已經(jīng)在許多行業(yè)的產(chǎn)品責任法和醫(yī)療責任法等法規(guī)中有明確規(guī)定。然而,AI系統(tǒng)的自主性和決策能力,使得這種傳統(tǒng)的責任界定方式愈發(fā)變得難以適用。 李韜指出,構(gòu)建行之有效的AI治理體系尤為重要,而生成式人工智能責任認定的基本倫理,需要在技術進步和權(quán)利保護之間求得平衡狀態(tài),其倫理規(guī)制的關鍵在于確立一個既能促進創(chuàng)新和進步,又能保護個人和社會權(quán)益的倫理框架。 新京報記者發(fā)現(xiàn),近期,DeepSeek和OpenAI等平臺也在用戶協(xié)議和平臺規(guī)則中提示了輸出出現(xiàn)錯誤甚至幻覺的風險,并突出提示了在法律、醫(yī)療以及金融等垂直領域的直接應用風險。 這些平臺在用戶協(xié)議中通常包含以下免責聲明:生成內(nèi)容可能不準確、不完整或具有誤導性,用戶應自行核實;專業(yè)課的應用需謹慎,建議專業(yè)人士進行復核;平臺不對生成內(nèi)容的準確性、合法性或適用性承擔責任。 面對來勢洶洶的AI幻覺,一些企業(yè)也在探索“應對之策”。 美國硅谷一家名為Exa的人工智能公司發(fā)現(xiàn)其搜索引擎用戶出現(xiàn)新的需求:大量企業(yè)客戶苦于無法驗證AI生成內(nèi)容的真實性。他們開發(fā)了AI幻覺檢測器,是一款基于實時網(wǎng)絡數(shù)據(jù)驗證的核查工具。 根據(jù)其官網(wǎng)發(fā)布的信息,Exa的AI幻覺檢測器通過實時抓取權(quán)威數(shù)據(jù)庫、交叉比對多源信息,結(jié)合動態(tài)更新的產(chǎn)業(yè)知識圖譜,逐層驗證AI生成內(nèi)容中的人物、數(shù)據(jù)、事件是否與可溯源的現(xiàn)實證據(jù)匹配,并為每個結(jié)論標注可信度評級與證據(jù)鏈來源。 關于“AI幻覺能不能徹底被消除?”的問題,在行業(yè)專家巫彤寧那里被具象化。 巫彤寧把大模型的創(chuàng)造力比作一把需要精密調(diào)控的雙刃劍。在他看來,平衡創(chuàng)造性與真實性的關鍵在于構(gòu)建雙重防護體系:首先要提高大模型學習知識的質(zhì)量,通過更嚴格的知識篩選,提高喂給大模型數(shù)據(jù)的質(zhì)量,從而從根本上降低產(chǎn)生幻覺的可能性;其次,應建立用戶糾錯機制:讓用戶在使用中實時反饋模型輸出中的錯誤或不準確之處,這些反饋能像錯題本一樣幫AI記住教訓,越用越準。 除此之外,巫彤寧經(jīng)常呼吁,讓大模型分場景工作,針對法律、醫(yī)療等低容錯率領域,強制激活“嚴謹模式”,要求模型檢索最新權(quán)威資料并標注來源,而面對創(chuàng)意需求時則開放聯(lián)想空間,允許“開腦洞”,為用戶帶來更多靈感。 “我們要做的,是找到人工智能和人類中間的平衡?!蔽淄畬幹溃瑥氐紫糜X并不現(xiàn)實,而在AI信息爆炸時代,始終保持獨立思考的能力、辨別信息真?zhèn)蔚哪芰Ρ全@取信息的能力更寶貴。 新京報記者 咸運禎 編輯 陳曉舒 校對 楊利 |