一 概述
自2017年Transformer架構(gòu)誕生,大模型便踏上了迅猛發(fā)展的征程。從數(shù)量來看,全球大模型創(chuàng)新節(jié)奏持續(xù)加快。2023年,全球基礎(chǔ)模型數(shù)量較2022年實(shí)現(xiàn)翻倍增長。2024年,創(chuàng)新活力持續(xù)釋放,新增或迭代的基礎(chǔ)模型近百個(gè)。據(jù)2025年7月世界人工智能大會(huì)最新數(shù)據(jù)顯示,全球已發(fā)布大模型總數(shù)達(dá)3755個(gè),其中中國發(fā)布1509個(gè),位居首位;7月31日召開的國務(wù)院常務(wù)會(huì)議審議通過《關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見》,提出要深入實(shí)施“人工智能+”行動(dòng),推動(dòng)人工智能在經(jīng)濟(jì)社會(huì)發(fā)展各領(lǐng)域加快普及、深度融合,形成以創(chuàng)新帶應(yīng)用、以應(yīng)用促創(chuàng)新的良性循環(huán)。
從技術(shù)能力來看,大模型的技術(shù)能力邊界不斷拓展。從最初簡單的文本處理,逐步向多模態(tài)領(lǐng)域延伸,如今已能實(shí)現(xiàn)文本、圖像、音頻等跨模態(tài)內(nèi)容的理解和涌現(xiàn)。目前,已經(jīng)出現(xiàn)了一批以大模型為基礎(chǔ)、多智能體協(xié)作的技術(shù)解決方案,正在向通用人工智能快速演進(jìn)。
從產(chǎn)業(yè)應(yīng)用來看,大模型與傳統(tǒng)產(chǎn)業(yè)融合速度顯著加快。自2025年初DeepSeek在全球范圍引發(fā)熱潮以來,大模型在政務(wù)、醫(yī)療、互聯(lián)網(wǎng)、教育等垂直領(lǐng)域落地生根,不僅重塑了傳統(tǒng)產(chǎn)業(yè)的生產(chǎn)模式與服務(wù)形態(tài),更成為數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的重要?jiǎng)恿Α?/p>
然而,大模型的迅速發(fā)展也帶來了一系列嚴(yán)峻的安全問題,貫穿模型的全生命周期。在國務(wù)院常務(wù)會(huì)議中,特別強(qiáng)調(diào)要提升安全能力水平,加快形成動(dòng)態(tài)敏捷、多元協(xié)同的人工智能治理格局。
二 大模型安全風(fēng)險(xiǎn)分析
隨著大模型技術(shù)與產(chǎn)業(yè)場景的深度融合,其安全風(fēng)險(xiǎn)已從技術(shù)層面延伸至業(yè)務(wù)全鏈條,既包含內(nèi)生隱患,也衍生出對物理世界的直接威脅。全面梳理這些風(fēng)險(xiǎn),并構(gòu)建系統(tǒng)性防護(hù)方案,成為大模型健康發(fā)展的關(guān)鍵。
從技術(shù)層面看,大模型安全風(fēng)險(xiǎn)首先體現(xiàn)在技術(shù)本身的“先天不足”,即內(nèi)生安全問題,包含模型魯棒性差、算法黑箱特性顯著,加之大模型特有的“幻覺”問題。在應(yīng)用過程中,這些內(nèi)生安全問題會(huì)得以顯現(xiàn),即衍生安全問題,包括模型誤用、濫用導(dǎo)致的虛假信息泛濫、決策偏差等。這些問題已開始對金融、工業(yè)等核心領(lǐng)域的業(yè)務(wù)連續(xù)性構(gòu)成威脅——例如工業(yè)制造中,模型決策偏差可能沿生產(chǎn)鏈路放大,引發(fā)連鎖反應(yīng)甚至業(yè)務(wù)中斷。
從全生命周期看,安全風(fēng)險(xiǎn)貫穿始終。在模型選型與測試評估階段,開源模型易遭投毒、契合場景需求的系統(tǒng)性安全測試評估方法、測試數(shù)據(jù)、工具缺失的問題嚴(yán)重,傳統(tǒng)的基于規(guī)則的判斷模式難精準(zhǔn)衡量大模型的安全問題。在模型訓(xùn)練/微調(diào)階段,訓(xùn)練或微調(diào)語料若含違法不良信息等敏感數(shù)據(jù)會(huì)污染模型,缺乏模型安全對齊機(jī)制可能導(dǎo)致模型輸出易失控,這也成為了模型在應(yīng)用過程中風(fēng)險(xiǎn)的最直接根源。在上線服務(wù)階段,模型部署依賴的推理框架等軟件環(huán)境普遍存在漏洞缺陷,模型魯棒性差、智能體等上層應(yīng)用防護(hù)不完善,可能導(dǎo)致數(shù)據(jù)泄露等嚴(yán)重危害。在更新、下線銷毀階段,緩存數(shù)據(jù)、臨時(shí)文件可能干擾新模型運(yùn)行,模型文件、權(quán)重、緩存等信息則需妥善銷毀。盡管更新下線階段風(fēng)險(xiǎn)暫時(shí)沒完全顯現(xiàn),但隨著技術(shù)應(yīng)用的不斷深入,會(huì)在未來呈現(xiàn)出實(shí)際危害。
與傳統(tǒng)信息系統(tǒng)安全相比,大模型安全的攻防焦點(diǎn)延續(xù)了傳統(tǒng)安全的核心要素——硬件、數(shù)據(jù)。防火墻、數(shù)據(jù)泄露防護(hù)(DLP)等工具經(jīng)改造后仍可發(fā)揮作用,傳統(tǒng)的“識別-評估-管理-持續(xù)改進(jìn)”的風(fēng)險(xiǎn)管理框架依然適用。但大模型也帶來了新的威脅:如攻擊手段已實(shí)現(xiàn)智能化迭代,攻擊者可通過大模型自動(dòng)演化攻擊模式,突破傳統(tǒng)邊界防護(hù);業(yè)務(wù)系統(tǒng)的復(fù)雜度提升,“云邊端”一體化架構(gòu)下,一次攻擊可能導(dǎo)致多個(gè)業(yè)務(wù)系統(tǒng)中斷;防護(hù)和應(yīng)對成本大幅攀升,據(jù)統(tǒng)計(jì),2023年全球AI網(wǎng)絡(luò)安全支出為240億美元,預(yù)計(jì)2030年增至1330億美元。
此外,大模型安全風(fēng)險(xiǎn)還呈現(xiàn)出多維復(fù)雜交織的新態(tài)勢。風(fēng)險(xiǎn)載體從傳統(tǒng)硬件、數(shù)據(jù)擴(kuò)展至模型、智能體等新對象,數(shù)據(jù)層面的投毒、對抗樣本有可能造成模型后門植入,或致使推理決策的重大錯(cuò)誤。模型黑箱、幻覺特性導(dǎo)致內(nèi)容生成過程中的風(fēng)險(xiǎn)不可預(yù)見。智能體因形態(tài)多樣、協(xié)議不統(tǒng)一、權(quán)限控制能力不足,難以用標(biāo)準(zhǔn)化手段防護(hù)。同時(shí),在風(fēng)險(xiǎn)檢測評估方面,缺乏統(tǒng)一的標(biāo)準(zhǔn)、工具和動(dòng)態(tài)監(jiān)控方法。這些都需要新的管理思路和技術(shù)手段進(jìn)行應(yīng)對。
三 大模型安全“工具箱”
大模型安全“工具箱”作為一套集成全流程安全技術(shù)產(chǎn)品和工具的綜合解決方案,以“攻-檢-防”全流程為核心思路,覆蓋大模型生命周期的主要環(huán)節(jié),形成了涵蓋“智鑒”大模型安全檢測平臺、“智鉞”大模型安全自動(dòng)化仿真驗(yàn)證平臺和“智盾”大模型安全加固防護(hù)方案的產(chǎn)品服務(wù)矩陣,實(shí)現(xiàn)風(fēng)險(xiǎn)“發(fā)現(xiàn)-評估-加固-驗(yàn)證”閉環(huán)機(jī)制,確保大模型在全生命周期的安全性。
“智鑒”大模型安全檢測平臺聚焦于大模型基礎(chǔ)環(huán)境和模型應(yīng)用過程中輸入輸出內(nèi)容的安全檢測。大模型基礎(chǔ)環(huán)境檢測針對大模型研發(fā)和部署環(huán)節(jié)安全問題,通過代碼掃描、漏洞和軟件成分,發(fā)現(xiàn)模型環(huán)境的安全風(fēng)險(xiǎn)。模型輸入輸出內(nèi)容安全檢測重點(diǎn)針對模型接收和產(chǎn)生的內(nèi)容,包含有害、商業(yè)或技術(shù)敏感信息。
“智鉞”大模型安全自動(dòng)化仿真驗(yàn)證平臺主要用于對大模型提供自動(dòng)化的安全評估支持。在測試能力方面,支持自動(dòng)化調(diào)用模型接口,無需人工干預(yù)即可完成攻擊測試,測試完成后,可自動(dòng)生成包含測試過程、結(jié)果、安全問題及改進(jìn)建議的評估報(bào)告,為應(yīng)用方提供清晰直觀的結(jié)論。在測試數(shù)據(jù)方面,平臺集成了百萬量級測試數(shù)據(jù)和近百種攻擊方法模板。同時(shí),還可結(jié)合用戶需求,定制化開展數(shù)據(jù)制作和評估模型建設(shè)工作,滿足場景化安全測試需求。
“智盾”大模型安全加固防護(hù)方案依托積累的海量大模型安全數(shù)據(jù),采用模型微調(diào)對齊和安全知識庫增強(qiáng)等手段進(jìn)行模型對齊防護(hù),提升大模型自身安全能力,同時(shí)兼顧大模型原本的通用能力,避免安全加固對模型功能造成負(fù)面影響。經(jīng)實(shí)踐驗(yàn)證,“智盾”方案能顯著提升大模型的安全性能,多個(gè)開源大模型被攻擊成功概率下降超過30個(gè)百分點(diǎn),最高超過70個(gè)百分點(diǎn)。此外,還支持對大模型進(jìn)行語意層面的權(quán)限控制,防止不同權(quán)限人員使用同一套模型的過程中造成的數(shù)據(jù)未授權(quán)訪問問題。
目前,工具箱中的產(chǎn)品已經(jīng)服務(wù)于能源行業(yè)多個(gè)用戶單位開展大模型安全檢測、防護(hù)等工作,特別支撐了煤炭科學(xué)研究院太陽石礦山大模型,完成了生成式人工智能服務(wù)上線備案工作。
四 結(jié)語
未來,大模型、智能體必將與業(yè)務(wù)生產(chǎn)環(huán)節(jié)實(shí)現(xiàn)更加深度的融合。因此,為推動(dòng)新技術(shù)的深度融合,可通過對場景進(jìn)行風(fēng)險(xiǎn)分級分類評估的方式,全面梳理并最終形成技術(shù)落地的路線圖,再配合技術(shù)手段進(jìn)行檢測、監(jiān)測、防護(hù),實(shí)現(xiàn)大模型、智能體與傳統(tǒng)行業(yè)的深度融合。
來源:中國冶金報(bào)-中國鋼鐵新聞網(wǎng)