Labs 導(dǎo)讀
為了更好地解決行業(yè)合作、交互可信和數(shù)據(jù)共享問題,實現(xiàn)跨行業(yè)的模型共享訓(xùn)練以及生態(tài)構(gòu)建,天津公司人工智能實驗室打造了“珍瓏”,一款基于“區(qū)塊鏈+聯(lián)邦學習”的多方數(shù)據(jù)共享模型訓(xùn)練引擎,用于智慧零售、風險評估和滿意度預(yù)測等場景,實現(xiàn)多方隱私數(shù)據(jù)共享,構(gòu)建數(shù)據(jù)生態(tài),打破數(shù)據(jù)孤島,挖掘數(shù)據(jù)聯(lián)合價值,從而實現(xiàn)多方安全計算。
“珍瓏”取名字珍瓏棋局,來自于天龍八部小說情節(jié),逍遙派掌門人無崖子擺出一個“珍瓏”棋局,邀請?zhí)煜掠⑿蹃砥平。可?0年均無人解得,最后,棋局竟然被虛竹閉著眼睛胡亂撞開。珍瓏,就是要匯聚各行業(yè)數(shù)據(jù)來產(chǎn)生價值,又能安全可信,最終一招點睛,全盤皆活。
這就是珍瓏的價值,通過引入先進的聯(lián)邦學習技術(shù),充分發(fā)揮聯(lián)邦學習的跨行業(yè)模型共享能力,并將AI模型上鏈,結(jié)合聯(lián)盟鏈去中心化、開放、防篡改、匿名、可追溯的關(guān)鍵特性,打造構(gòu)思奇巧又智慧共贏的共享智能引擎系統(tǒng),在運營商、本地生活、視頻內(nèi)容、交通出行等多行業(yè)數(shù)據(jù)的支撐下,實現(xiàn)精確的營銷識別,并推薦最佳產(chǎn)品權(quán)益,讓區(qū)塊鏈+聯(lián)邦學習成為智慧零售的引擎、智腦。
1 珍瓏的創(chuàng)新點
(1)打造聯(lián)邦學習的模型共享訓(xùn)練引擎,實現(xiàn)更精準的推薦。
基于聯(lián)邦學習模型實現(xiàn)中國移動和互聯(lián)網(wǎng)合作伙伴間的共享、共贏 ,在保護各企業(yè)的數(shù)據(jù)安全的基礎(chǔ)上,協(xié)調(diào)多方資源,實現(xiàn)企業(yè)間的聯(lián)合建模,提升數(shù)據(jù)挖掘和推薦的準確率。聯(lián)邦學習模型具有合理的激勵機制,參與方提供的數(shù)據(jù)越多,其模型的學習效果越好。珍瓏采用縱向聯(lián)邦學習機制,取出合作方針對相同用戶而特征不同的那部分數(shù)據(jù)進行共享訓(xùn)練。
(2)打破數(shù)據(jù)壁壘,實現(xiàn)多方安全計算的新機制
“珍瓏”打破堅固的數(shù)據(jù)壁壘,其聯(lián)邦學習模型可以很好的解決數(shù)據(jù)不可出數(shù)據(jù)庫的壁壘問題,企業(yè)數(shù)據(jù)不需要出倉,不存在原始數(shù)據(jù)被復(fù)制,以及傳輸過程中的安全隱患,即可完成多方聯(lián)合建模,取得比單獨企業(yè)數(shù)據(jù)更好的預(yù)測效果,聯(lián)邦學習框架,也支持獲取更全面的客戶特征,打造共享又可信的合作生態(tài)機制。
(3)結(jié)合區(qū)塊鏈優(yōu)勢解決聯(lián)邦學習的安全問題,筑牢多方合作的信任基礎(chǔ)。
聯(lián)邦學習模型涉及到多方數(shù)據(jù)的共享訓(xùn)練,由聯(lián)邦中心負責秘鑰管理和模型梯度管理,需要定期對聯(lián)邦中心進行審計,存在信任的問題。“珍瓏”采用區(qū)塊鏈這種“可信媒介”技術(shù)解決共識和可信問題,所記錄的交易不可篡改,模型的訓(xùn)練、推理、角色對齊均上鏈,通過智能合約、共識計算等實現(xiàn)多方合作的可信網(wǎng)絡(luò),且能在多方聯(lián)邦情況下以區(qū)塊代替中心節(jié)點的作用,降本增效。
2 珍瓏的技術(shù)先進性
珍瓏具有優(yōu)異的技術(shù)價值,創(chuàng)新性的將聯(lián)邦學習和區(qū)塊鏈結(jié)合起來,解決運營商實際問題,其架構(gòu)如圖所示。
企業(yè)數(shù)據(jù)層,中國移動及合作伙伴的用戶隱私數(shù)據(jù)依然只存儲于各自內(nèi)網(wǎng)系統(tǒng)中,訓(xùn)練及推理請求均由內(nèi)網(wǎng)應(yīng)用發(fā)起。
聯(lián)邦參與方服務(wù)層,中國移動及合作伙伴分別構(gòu)建一套本地AI模型,將模型特征及參數(shù),以及數(shù)據(jù)標識,提供給區(qū)塊服務(wù)層進行數(shù)據(jù)上鏈,并接收其他參與方的模型等數(shù)據(jù)進行數(shù)據(jù)共享的模型迭代更新。
區(qū)塊服務(wù)層,作為AI模型與區(qū)塊鏈CMBaas平臺的中間服務(wù)節(jié)點,提供定制化數(shù)據(jù)上鏈及數(shù)據(jù)消費的服務(wù)。
共享數(shù)據(jù)區(qū)塊平臺層,即CMBaas,通過智能合約及共識機制為整個系統(tǒng)提供去中心化、不可逆、互信的模型共享訓(xùn)練平臺。
珍瓏的“聯(lián)邦學習+區(qū)塊鏈”應(yīng)用,主要有數(shù)據(jù)對齊、模型訓(xùn)練、模型推理三個數(shù)據(jù)流:
(1)數(shù)據(jù)對齊,在模型開始訓(xùn)練之前,各參與方需要共享加密后的用戶id數(shù)據(jù),同步給其他參與方進行id對齊。
(2)模型訓(xùn)練,聯(lián)邦參與方進行數(shù)據(jù)特征提取和本地模型訓(xùn)練,模型參數(shù)通過區(qū)塊鏈上鏈服務(wù)進行數(shù)據(jù)上鏈,經(jīng)過CMBaas的智能合約判斷,并通過區(qū)塊鏈共識算法后,生成新的區(qū)塊。其他參與方的區(qū)塊消費服務(wù)檢測發(fā)現(xiàn)新區(qū)塊的生成,獲取到區(qū)塊數(shù)據(jù)后進行自己模型的參數(shù)迭代優(yōu)化,更新參數(shù),直到所有聯(lián)邦參與方均達到模型預(yù)設(shè)收斂條件。
(3)模型推理,中國移動及合作伙伴發(fā)起模型推理請求,區(qū)塊服務(wù)進行數(shù)據(jù)上鏈,智能合約及共識算法進行數(shù)據(jù)驗證并生成區(qū)塊,其他參與方監(jiān)測新區(qū)塊生成,判斷推理請求是否與自身相關(guān),進行共同推理解密,請求方獲得最終模型推理結(jié)果,返回業(yè)務(wù)系統(tǒng)。
3 珍瓏的商業(yè)推廣價值
(1)“運營商+互聯(lián)網(wǎng)公司”多方共享的智慧零售
智慧零售的目的,就是要用AI和大數(shù)據(jù)技術(shù)為客戶帶來個性化的營銷服務(wù)。成功的營銷方案必須合理搭配產(chǎn)品特征、客戶購買能力和購買偏好等三大要素;ヂ(lián)網(wǎng)內(nèi)容商擁有大量的產(chǎn)品信息、銀行或保險公司有客戶購買能力的數(shù)據(jù),中國移動有用戶的購買偏好信息。出于隱私保護是無法實現(xiàn)數(shù)據(jù)共享的,“珍瓏”就可以打破這種堅固的數(shù)據(jù)壁壘,基于聯(lián)邦學習模型,各個參與企業(yè)的數(shù)據(jù)停留在本地數(shù)據(jù)庫,即可完成多方安全計算和聯(lián)合建模,取得比單獨企業(yè)數(shù)據(jù)進更好的分析效果,獲取更全面的客戶特征,推薦更精準,挖掘更多的商機。
(2)“運營商+銀行”聯(lián)合信用評估
珍瓏利用聯(lián)邦學習技術(shù)搭建中國移動和銀行之間的聯(lián)邦和信用評分模型,雙方在不共享數(shù)據(jù)的基礎(chǔ)上實現(xiàn)了聯(lián)合建模,從技術(shù)上打破數(shù)據(jù)孤島,實現(xiàn)更準確高效的信用評估,同時,區(qū)塊鏈也確保了去中心化架構(gòu),多家運營商和銀行可以打造信用評分共享機制,結(jié)果可追溯且不可篡改,形成模型共享訓(xùn)練生態(tài)。
4 珍瓏與區(qū)塊鏈的聯(lián)系
產(chǎn)品和區(qū)塊鏈技術(shù)結(jié)合緊密,真正用區(qū)塊鏈解決了AI建模的難題,實現(xiàn)“聯(lián)邦學習+區(qū)塊鏈”的新模式、新應(yīng)用。
在多方共同參與模型訓(xùn)練后,如何對多方數(shù)據(jù)進行統(tǒng)一管理,就成為一個重要課題,珍瓏通過引入?yún)^(qū)塊鏈智能合約技術(shù)解決這個難題。
(1)多方貢獻度判定
多參與方在進行數(shù)據(jù)上鏈時,均會在區(qū)塊鏈平臺生成一個永久不可逆的數(shù)據(jù)區(qū)塊,以此計算當前參與方本次上鏈對整體模型的貢獻度,在模型收斂后,可以對全部參與方對最終模型的貢獻度進行量化判斷,為聯(lián)邦參與方的合作提供談判依據(jù)。
(2)異常參與方識別
在平臺運營過程中,通過智能合約及共識算法對各參與方的訓(xùn)練及推理請求進行統(tǒng)一規(guī)則的判定,如發(fā)現(xiàn)非法上鏈請求,將會拒絕在區(qū)塊鏈中生成區(qū)塊,從而規(guī)避風險,控制流量,保障優(yōu)質(zhì)合作方的請求。
5 產(chǎn)品成效及下一步發(fā)展
當前,“珍瓏”整體架構(gòu)已經(jīng)在CMBAAS區(qū)塊鏈平臺大賽中進行了demo的開發(fā)、部署、驗證工作,將B域大數(shù)據(jù)用戶標簽與O域家寬數(shù)據(jù)模擬兩方進行聯(lián)合共享訓(xùn)練,實現(xiàn)用戶資費滿意度的預(yù)測模型。已實現(xiàn)的滿意度預(yù)測聯(lián)合訓(xùn)練部署架構(gòu)如下:
下一步將在三個方面持續(xù)提升:
(1)整體平臺部署及網(wǎng)絡(luò)聯(lián)調(diào)
在整體平臺架構(gòu)中涉及內(nèi)網(wǎng)應(yīng)用主動訪問互聯(lián)網(wǎng)應(yīng)用的需求,一方面,CMBaas區(qū)塊平臺及服務(wù)需要部署公網(wǎng),以吸引更多域外企業(yè)加入生態(tài),另一方面,聯(lián)邦學習需要獲取企業(yè)內(nèi)網(wǎng)用戶數(shù)據(jù)實現(xiàn)多方數(shù)據(jù)聯(lián)合訓(xùn)練,因此,需要打通內(nèi)外網(wǎng)網(wǎng)絡(luò),通過防火墻管控內(nèi)外網(wǎng)聯(lián)通端口。
(2)構(gòu)建統(tǒng)一管理平臺
構(gòu)建一套參與方管理平臺,通過頁面可視化方式,一方面實現(xiàn)參與方的自助注冊、數(shù)據(jù)上傳、模型申請、推理服務(wù)等業(yè)務(wù)能力,另一方面為平臺提供參與方入駐審核、狀態(tài)管理、貢獻度查詢、異常參與方判斷等管理能力。
(3)擴展聯(lián)邦學習模型算法類型
目前已完成基于決策樹模型的資費滿意度預(yù)測模型構(gòu)建,后續(xù)可以預(yù)置其他高級智能模型,如CNN/RNN,預(yù)訓(xùn)練模型等,實現(xiàn)各參與方入駐后直接選擇相關(guān)模型進行業(yè)務(wù)場景構(gòu)建。
后續(xù),“珍瓏”將積極推進平臺推廣及生態(tài)運營,吸引運營商領(lǐng)域以外的企業(yè)入駐,通過多方數(shù)據(jù)的可控共享,實現(xiàn)多方的業(yè)務(wù)共贏。
團隊介紹:
趙東明,項目負責人,博士,浙江大學博士后,中國移動AI中臺專家/“高層次”專家/IT高級專家,天津移動AI實驗室負責人,累計獲得116項科技獎勵及榮譽,16項發(fā)明專利,20余篇高水平論文,負責產(chǎn)品的人工智能、區(qū)塊鏈技術(shù)研發(fā)、算法研究和產(chǎn)業(yè)賦能工作。
田雷,技術(shù)負責人,北大數(shù)學系碩士,天津中心大數(shù)據(jù)架構(gòu)專家,積累了大量數(shù)據(jù)倉庫和大數(shù)據(jù)平臺的系統(tǒng)架構(gòu)、數(shù)據(jù)模型、需求開發(fā)的先進經(jīng)驗,負責產(chǎn)品的聯(lián)邦學習算法及大數(shù)據(jù)支撐工作。
劉靜,系統(tǒng)架構(gòu)師,華中師范大學碩士,中國移動集團大數(shù)據(jù)專家,長期鉆研客戶需求深度挖掘,基于AI算法促進存量客戶價值循環(huán)升檔研究,負責產(chǎn)品的區(qū)塊鏈算法及工程實現(xiàn)。
石理,算法工程師,南開大學碩士,集團AI中臺專家,在人工智能、計算機視覺、機器學習方面具有較豐富的研發(fā)經(jīng)驗,負責視覺產(chǎn)品的聯(lián)邦學習算法研發(fā)。
吳娜,交互設(shè)計師,北京郵電大學碩士,UI專家,負責產(chǎn)品交互界面的設(shè)計、開發(fā),以及AI模型的標準、運營和優(yōu)化。
特別鳴謝:亞信科技PRD研發(fā)中心技術(shù)專家楊愛東、孔令魯、林大興、劉志勇、韋強申,以及CMC客服產(chǎn)品部的徐晨興、王新,給予充分的技術(shù)支持和幫助。