烏鎮(zhèn)咖薈:AI智能涌現(xiàn)背后的“深黑盒化”問題,我們?cè)撊绾螒?yīng)對(duì)?
摘要: 2023年世界互聯(lián)網(wǎng)大會(huì)烏鎮(zhèn)峰會(huì)圓滿落下帷幕,本屆大會(huì)大咖云集,前沿技術(shù)和精彩實(shí)踐的展示吸引了世界各地的參會(huì)嘉賓,為行業(yè)深度交流提供了舞臺(tái)。

2023年世界互聯(lián)網(wǎng)大會(huì)烏鎮(zhèn)峰會(huì)圓滿落下帷幕,本屆大會(huì)大咖云集,前沿技術(shù)和精彩實(shí)踐的展示吸引了世界各地的參會(huì)嘉賓,為行業(yè)深度交流提供了舞臺(tái)。
近些年來,AI成為互聯(lián)網(wǎng)領(lǐng)域最熱門的賽道之一,隨著 ChatGPT等AI大模型的廣泛應(yīng)用,其中的安全問題也愈發(fā)受到關(guān)注。
恰逢世界互聯(lián)網(wǎng)大會(huì)契機(jī),浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院、螞蟻集團(tuán)、第五空間信息科技研究院、正奇書苑、小貝說安全主辦,烏鎮(zhèn)數(shù)字文明研究院承辦“深黑盒化的AI安全風(fēng)險(xiǎn)與應(yīng)對(duì)”主題咖薈,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)理事、副秘書長(zhǎng)譚曉生,螞蟻集團(tuán)副總裁、首席技術(shù)安全官韋韜,浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院研究員薛峰,自媒體“小貝說安全”主編吳小貝,更有信通院、安恒集團(tuán)、啟明星辰、盤古實(shí)驗(yàn)室、中國(guó)移動(dòng)安全、迪普科技、閃捷信息、美創(chuàng)科技等齊聚烏鎮(zhèn),邀請(qǐng)多位網(wǎng)絡(luò)安全知名專家學(xué)者到場(chǎng),共同探討AI的安全發(fā)展。
很多人看到“深黑盒化”一詞,自然聯(lián)想到“黑箱理論”或“黑盒效應(yīng)”。通俗來說,就是對(duì)某個(gè)系統(tǒng)難以徹底看清內(nèi)部結(jié)構(gòu)和運(yùn)轉(zhuǎn)規(guī)律,只能通過其輸出的內(nèi)容來了解其內(nèi)部,繼而得到一種規(guī)律認(rèn)知。其實(shí),人工智能的黑盒效應(yīng)由來已久。因?yàn)楫?dāng)前宇宙時(shí)空對(duì)人類而言,就是一個(gè)巨大的黑箱。而智能和意識(shí),更是被視為所謂的“上帝領(lǐng)域”。
談及近年以ChatGPT為代表的AI大模型所產(chǎn)生的智能涌現(xiàn),中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)理事、副秘書長(zhǎng)譚曉生表示,作為機(jī)器學(xué)習(xí)到深度學(xué)習(xí)的產(chǎn)業(yè)實(shí)踐者,他仍然對(duì)大模型所表現(xiàn)出的智能水平感到非常驚喜。“AI已經(jīng)到了一個(gè)引爆點(diǎn)(Tipping Point)”,譚曉生說道,“或許是硅基文明和碳基文明的一個(gè)轉(zhuǎn)折點(diǎn)。”
螞蟻集團(tuán)副總裁、首席技術(shù)安全官韋韜認(rèn)為,ChatGPT改變了人對(duì)人工智能的認(rèn)知。在此之前,很多行業(yè)專家都認(rèn)為大模型不是智能,而是本能或者是技能,因?yàn)樗粫?huì)推斷因果,不會(huì)舉一反三。
韋韜介紹,科技從業(yè)者在2021年訓(xùn)練模型時(shí)發(fā)現(xiàn),經(jīng)過更長(zhǎng)時(shí)間的訓(xùn)練后,模型突然從僅僅“記住”之前的訓(xùn)練數(shù)據(jù),轉(zhuǎn)變?yōu)樵谖匆娺^的輸入上表現(xiàn)出正確的“泛化”能力,特別是ChatGPT出現(xiàn)以后,帶來了一個(gè)本質(zhì)的變化:第一次讓人看到人類以外系統(tǒng)化的舉一反三的能力。
“AI越來越像人,具備了翻譯、回郵件、聊天、寫詩(shī)、作畫、寫代碼等等接近于人類的能力。但是‘算法熵’原理之下,GPT工作是有‘上界’的,對(duì)它的優(yōu)化求解是無止境的。我們對(duì)大模型做了一個(gè)測(cè)試,發(fā)現(xiàn)很多時(shí)候它們?cè)诮o出錯(cuò)誤回答的時(shí)候,根本不知道自己是錯(cuò)的,而且在人類指令反復(fù)的追問下,它會(huì)根據(jù)人類的引導(dǎo)給出想要的答案,就好像大模型也具有‘表演型人格’、‘回避型人格’等精神分裂的病癥。”
在韋韜看來,大模型這一系列“精神分裂”的病癥表現(xiàn),都指向了AI的同一個(gè)問題:深黑盒化,也就是AI大模型分析決策的不可知性。
傳統(tǒng)的“機(jī)器人三定律”(機(jī)器人不能傷害人類;它們必須服從于人類;它們必須保護(hù)自己)已經(jīng)不適用于大模型時(shí)代的AI,大模型通過量變產(chǎn)生了質(zhì)變,使得今天的AI成為了深黑盒AI。
黑盒意味著某種不可知,如譚曉生所說,因?yàn)槲粗?,人們才恐懼。?duì)深黑盒化AI輸出的不確定性,會(huì)影響對(duì)深黑盒化AI的使用。
作為螞蟻集團(tuán)首席技術(shù)安全官,韋韜密切關(guān)注AI大模型安全問題,他表示深黑盒化AI大模型帶來了三大新挑戰(zhàn):
第一層,認(rèn)知一致性對(duì)齊。這是AI自身的素質(zhì)能力的要求,包括內(nèi)在一致性對(duì)齊和外在一致性對(duì)齊兩個(gè)方面。
內(nèi)在一致性對(duì)齊包含邏輯體系自洽,數(shù)學(xué)能力自洽,知識(shí)體系自洽。外在一致性對(duì)齊包含事實(shí)對(duì)齊、世界觀對(duì)齊、價(jià)值觀對(duì)齊。就像現(xiàn)在大模型會(huì)胡說八道,但它不知道自己不知道,所以第一層是自己對(duì)自己的認(rèn)知;
第二層,決策白盒化。對(duì)事物的判斷要是白盒化的,不能憑空做出決策。而是要清晰區(qū)分確認(rèn)的、猜測(cè)的、虛構(gòu)的和不清楚的對(duì)象。
白盒化AI可以通過推理自解構(gòu)來實(shí)現(xiàn),就是決策結(jié)論可以分析解釋,包括通過思維鏈技術(shù),讓解構(gòu)后的推理過程符合演繹推理邏輯。同時(shí),解構(gòu)后的內(nèi)容可以被第三方獨(dú)立驗(yàn)證,自動(dòng)化驗(yàn)證體系將是深黑盒專業(yè)AI的重要組成,其中包括與知識(shí)圖譜、驗(yàn)證過的“小模型”系統(tǒng)等的聯(lián)動(dòng)。所以第二層是自己對(duì)事的認(rèn)知。
第三層,交流協(xié)同演進(jìn)。跨域交流合作是人類科技文明演進(jìn)的重要加速因素,智能體之間的交流也極為重要且不可避免。無論是人和人還是人和智能體,或者智能體和智能體都需要協(xié)同,這是個(gè)通用規(guī)則。
AI Agents一種不錯(cuò)的智能體和智能體的協(xié)作模式。單個(gè)智能體內(nèi)部不同組件的協(xié)作能提供更強(qiáng)的能力,如LLM(大語(yǔ)言模型)、記憶、任務(wù)規(guī)劃以及工具使用能力之間的協(xié)作;多個(gè)智能體協(xié)作,可以避免認(rèn)知分裂,發(fā)揮出更佳效力,比如數(shù)學(xué)家協(xié)同GPT-4成功證明P≠NP。所以第三層是自己在群體間定位和協(xié)同的認(rèn)知。
薛峰也表達(dá)了對(duì)深黑盒化AI的擔(dān)憂,他把目前的安全問題分為三類:
第一類,算法可解釋性問題。大模型是數(shù)據(jù)驅(qū)動(dòng)深度學(xué)習(xí)的產(chǎn)物,其內(nèi)部推理的過程非常難以理解,尤其是極深的模型層級(jí)和海量的模型參數(shù),導(dǎo)致我們無法理解其工作原理,繼而無法信任和控制,破壞了可用性;
第二類,算法內(nèi)生安全問題。目前攻擊大模型方法相當(dāng)多,包括數(shù)據(jù)投毒、后門攻擊、對(duì)抗樣本攻擊、成員推斷攻擊、提示詞注入攻擊等,這破壞了保密性、可用性、完整性,可能導(dǎo)致模型拒絕服務(wù)、用戶隱私泄露、模型參數(shù)泄露等問題;
第三類,使用過程中安全性問題。大模型也可用來作惡,如生成釣魚郵件、挖掘系統(tǒng)漏洞、生成虛假內(nèi)容等,這破壞了抗抵賴性、真實(shí)性、可核查性。
自媒體“小貝說安全”主編吳小貝則介紹了深黑盒化AI引發(fā)的輸入型與輸出型數(shù)據(jù)安全問題。輸入型數(shù)據(jù)安全問題主要體現(xiàn)在,多模態(tài)、大批量輸入信息,會(huì)被AI收集存儲(chǔ)。據(jù)統(tǒng)計(jì),用戶在使用LLM(大語(yǔ)言模型)時(shí),出現(xiàn)了輸入企業(yè)商業(yè)秘密和內(nèi)部數(shù)據(jù)、個(gè)人信息、軟件代碼和敏感圖片等情況,導(dǎo)致敏感數(shù)據(jù)和個(gè)人隱私泄露。
輸出型數(shù)據(jù)安全問題重點(diǎn)體現(xiàn)在,AIGC及其平臺(tái)服務(wù)有意或無意都會(huì)產(chǎn)生輸出型的數(shù)據(jù)安全問題,比如輸出反人類反社會(huì)的有害信息、侵權(quán)信息、虛假信息、數(shù)據(jù)泄露以及犯罪知識(shí)和工具內(nèi)容等。AIGC平臺(tái)不但正常狀態(tài)下由于訓(xùn)練集或模型原因,可能會(huì)產(chǎn)生此類問題,還可能會(huì)根據(jù)用戶類型和來源等信息,有針對(duì)性地產(chǎn)生輸出型數(shù)據(jù)安全問題內(nèi)容。
提出問題正是為了解決問題。人類對(duì)于AI,早就有了很多狂熱的幻想,并以此誕生了許多文學(xué)影視作品。而相關(guān)作品中,機(jī)器智能往往走向失序,帶來災(zāi)難,這也在一定程度上反映了現(xiàn)實(shí),反映了人們對(duì)AI、AI大模型帶來的倫理、數(shù)據(jù)安全和隱私泄露等問題的憂慮。
譚曉生表示,我們應(yīng)該有開放的心態(tài)來面對(duì)這些挑戰(zhàn),積極尋找解決問題的方法,而不是出于恐懼而否定。比如在公平性層面,人類社會(huì)歷經(jīng)這么多年仍然在為營(yíng)造一個(gè)相對(duì)公平的社會(huì)而努力,為何要對(duì)AI做公平性的苛求?需要的是設(shè)置相關(guān)機(jī)制,能不斷對(duì)齊AI的倫理標(biāo)準(zhǔn)與人類的倫理標(biāo)準(zhǔn),不讓它產(chǎn)生太大的偏差。同樣,數(shù)據(jù)安全問題與隱私泄露,在大模型出現(xiàn)之前已經(jīng)出現(xiàn),是當(dāng)今社會(huì)數(shù)字化轉(zhuǎn)型中遭遇的問題,它的解決也相當(dāng)復(fù)雜,相關(guān)的立法已經(jīng)陸續(xù)出臺(tái),具體的保護(hù)技術(shù)、產(chǎn)品、體系還在完善過程中。
如何將人工智能盡可能地圈于安全地帶,且又不制約其為人類造福的技術(shù)演進(jìn),是行業(yè)需要思考的問題。
而負(fù)責(zé)任的人工智能,一直以來是螞蟻集團(tuán)發(fā)展人工智能的核心,螞蟻集團(tuán)已經(jīng)展開了多項(xiàng)實(shí)踐探索更可靠的AI,并且取得了鼓舞人心的成果,韋韜為現(xiàn)場(chǎng)嘉賓分享了螞蟻集團(tuán)在AI大模型安全領(lǐng)域的探索與實(shí)踐:
構(gòu)建了AIGC模型的對(duì)齊評(píng)價(jià)體系,涵蓋AIGC評(píng)測(cè)范圍、評(píng)測(cè)平臺(tái)、評(píng)測(cè)數(shù)據(jù)集、評(píng)測(cè)數(shù)據(jù)生成等多個(gè)維度多能力工作,評(píng)測(cè)范圍包括安全合規(guī)對(duì)齊評(píng)測(cè)、通用能力對(duì)齊評(píng)測(cè)、質(zhì)量/穩(wěn)定性,推出了螞蟻AI安全檢測(cè)平臺(tái)、螞蟻算法評(píng)估質(zhì)量平臺(tái)、大模型評(píng)估大模型等評(píng)測(cè)工具,評(píng)測(cè)數(shù)據(jù)集包含安全合規(guī)評(píng)測(cè)集,通用能力、質(zhì)量、穩(wěn)定性評(píng)測(cè)集……
在跨領(lǐng)域知識(shí)協(xié)作層面,螞蟻集團(tuán)開源了語(yǔ)義增強(qiáng)可編程知識(shí)圖譜OpenSPG,對(duì)行業(yè)開放知識(shí)圖譜技術(shù)能力,助力推動(dòng)開展大模型和行業(yè)知識(shí)圖譜的迭代演進(jìn)工作。
在AI倫理治理層面,螞蟻集團(tuán)成立了由首席技術(shù)官和首席法務(wù)官擔(dān)任聯(lián)席主席的科技倫理委員會(huì),將科技倫理融入到公司業(yè)務(wù)和產(chǎn)品生命周期中。還成立了螞蟻集團(tuán)科技倫理顧問委員會(huì),由7名外部專家構(gòu)成,為螞蟻集團(tuán)科技倫理建設(shè)給予方向性、戰(zhàn)略性、針對(duì)性的指導(dǎo)建議。
在標(biāo)準(zhǔn)建設(shè)層面,螞蟻集團(tuán)積極參與TC260生成式AI安全基本要求、人工標(biāo)注、訓(xùn)練數(shù)據(jù)安全、標(biāo)識(shí)方法等網(wǎng)絡(luò)安全國(guó)家標(biāo)準(zhǔn)和技術(shù)文件制定和討論,貢獻(xiàn)螞蟻生成式AI安全實(shí)踐,積極參與《生成式人工智能服務(wù)管理暫行辦法》實(shí)施。國(guó)際標(biāo)準(zhǔn)方面,結(jié)合螞蟻集團(tuán)業(yè)務(wù)場(chǎng)景,牽頭在IEEE立項(xiàng)了P3820反欺詐AI系統(tǒng)可解釋能力評(píng)估標(biāo)準(zhǔn),探索智能風(fēng)控AI系統(tǒng)透明可解釋能力評(píng)估實(shí)現(xiàn)路徑。
薛峰也分享了浙江大學(xué)相關(guān)團(tuán)隊(duì)對(duì)深黑盒化AI問題的探索與實(shí)踐,主要體現(xiàn)在安全標(biāo)準(zhǔn)制定、AI驗(yàn)評(píng)平臺(tái)、密態(tài)大模型推理技術(shù)等方面:
參與全國(guó)信安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)主導(dǎo)的《TC 260人工智能安全標(biāo)準(zhǔn)化白皮書》、《生成式人工智能服務(wù)內(nèi)容標(biāo)識(shí)方法》、《生成式人工智能服務(wù)安全基本要求》等制定,截至目前,制定、修訂與研究標(biāo)準(zhǔn)共700余條;建設(shè)了人工智能的防御與驗(yàn)證評(píng)測(cè)平臺(tái)、人工智能系統(tǒng)公平性評(píng)估平臺(tái),用于對(duì)模型進(jìn)行安全性測(cè)試;建設(shè)密態(tài)大模型推理技術(shù),即融合安全多方計(jì)算等密碼學(xué)技術(shù),對(duì)模型的輸入進(jìn)行保護(hù),讓模型的推理和結(jié)果都處于密態(tài)環(huán)境進(jìn)行,進(jìn)而保障輸入的數(shù)據(jù)。
五年前第四屆世界互聯(lián)網(wǎng)大會(huì)開幕式上,蘋果公司CEO庫(kù)克在談及人與機(jī)器的關(guān)系時(shí),說道:“我并不擔(dān)心機(jī)器人會(huì)像人一樣思考,我擔(dān)心人像機(jī)器一樣思考!”
有感情的機(jī)器和沒有感情的人,哪個(gè)更可怕?當(dāng)智能不再是人類專屬,機(jī)器智能同樣擁有創(chuàng)造力,那人還能決定一切嗎?當(dāng)然,這是未來的話題,至少眼下,一切都還是由人來決定。AI安全的關(guān)注者和研究者,也正在成為機(jī)器與人類之間安全屏障的締造者與守護(hù)者。
正如參會(huì)的各位專家分享,因?yàn)锳I是這個(gè)時(shí)代的重要生產(chǎn)力,是邁向新世界的小火花,進(jìn)一步探索AI大模型的本質(zhì),探究智能涌現(xiàn)背后的原理和本質(zhì),用安全來為發(fā)展護(hù)航。