
ACM SIGKDD2020(知識發現和數據挖掘會議)是一年一度全球最頂級、最高水平、最具影響力的數據科學盛會,本次SDBD國際研討會作為KDD大會中聚焦智能數據和區塊鍊等新興技術的專場Workshop,由新加坡管理大學及算力智庫共同舉辦。
二級標題
二級標題
數據治理是數字經濟前提
人工智能、區塊鍊等科技讓數據成為了智慧數據,但所謂數據經濟則不止於智慧數據。新加坡管理大學教授朱飛達認為,在談論科技如何讓數據變得“可計算”之前,還必須認識到一個前提——數據是資產,數據需要治理。
然而即便是這樣一個大前提,人類也花費了很長時間才認識到。朱飛達教授表示,數據經濟歷經了三個階段。第一階段數據只是商業活動的副產品,人們更多用數據來理解過去。第二階段是大數據與數據經濟的興起,在這一階段數據被少部分企業壟斷而得利。第三階段則是數據驅動經濟,數據成為了驅動所有機構組織的共享資產。
翼方健數(BaseBit.ai) CEO羅震認為,從信息時代到智能時代,數據正在更多被機器和計算程序使用,也讓機器更加智能化。作為信息時代的遺留物,數據具有獨特的經濟學特徵,如虛擬可再利用、固定成本高、可變成本低,同時也在隱私、合規、機密、安全性等非經濟學維度顯示出鮮明特徵。
事實上,人們在認識這些數據特性的過程中已經付出了代價,缺乏治理的數據洩露案例造成巨大損失。
新加坡國立大學副教授何丙勝表示,數據洩露已非孤立事件,各行業都有相關事件。在教育、醫藥、能源、健康等領域,每一起數據洩露事件造成的平均損失都至少在500萬美元以上。
這些負面案例不僅承載了巨大的經濟損失,更消耗了整個社會對數據共享的意願和信心,讓本就基礎薄弱的數據共享愈加困難。
羅震指出,數據本質上不能被安全共享,但應該在不共享數據本身的前提下實現數據價值共享。
當然這就更難,最著名的阻礙就是數據孤島。何丙勝教授以醫院數據為例表示,不同的醫院有不同的病人,但其實病例有許多相似性。醫院、銀行、電商,他們各自的數據實際上是分別掌握了相同人群的不同方面。
朱飛達教授的研究發現,數據生態系統中存在兩大瓶頸。第一大瓶頸存在於個人、企業、政府等不同角色間。第二大瓶頸存在於數據、模型和應用間。
在個人與企業間,用戶作為數據的貢獻者不僅被排除在價值分配之外,對自身數據的認知與控制也十分有限,更要承受隱私洩露風險。個人與政府間則存在隱私與數據洩露的擔憂。政府部門間因制度原因存在“數據高牆”,企業之間數據孤島現象普遍,在企業與政府間數據共享缺乏激勵。
二級標題
二級標題
數據共享:技術與製度兩條腿走路
各界專家達成的普遍共識是,數據安全流動與共享需要在技術與製度兩大層面上齊頭並進。
在科技層面可以看到,各類前沿科技正百花齊放,以隱私安全計算為整體解決方案賦能數據安全共享。
羅震把當下熱門的隱私安全計算技術分為三大路徑:多方安全計算MPC/同態加密、聯邦學習、安全沙箱計算/TEE。他進一步總結了這三大路徑的區別——依次隨信任假設的增加,計算複雜性就降低。另外,隱私安全計算技術還涉及到差分隱私、雲計算、區塊鏈、對抗神經網絡等技術。
微眾銀行首席人工智能官、香港科技大學計算機與工程系講座教授楊強則以羊群吃草為例解釋了聯邦學習。傳統方式是將草從各地集中到一起餵羊,但這並不合規,隱私和數據安全保護的要求使得獲取數據成為障礙。而聯邦學習則提供了新思路:讓羊群在各地移動,而草不出本地,主人無法知道牠吃了哪些草。
同盾科技合夥人兼人工智能研究院院長李曉林介紹了同盾科技的知識聯邦,其利用一套層次化框架體系統一支持各種安全多方應用,通過數據安全交換協議,有效利用多個參與方的數據,進行知識共創、共享和推理,實現數據可用不可見。
與會專家還重點探討了區塊鏈技術在數據安全共享中的價值。
趣鏈科技副總裁張帥表示,作為數據確權和價值傳遞的保障技術,區塊鏈最大的價值在於數據登記和交換過程的記錄,保證數據的安全共享。在區塊鏈上可以登記訪問權限、訪問邏輯,以及需要支付的代價等,而智能合約則實現了全自動過程。
對於與其他技術的融合,張帥認為,區塊鏈本身雖然不解決數據共享,但可以成為多種技術的粘結劑。物聯網等其他垂直技術與數據都相關,區塊鏈就可以橫向把他們粘合。
上海萬向區塊鏈股份公司副總經理、萬向區塊鏈實驗室負責人杜宇也表達了類似觀點。他認為,現實中企業和金融機構不會把交易記錄和商業機密暴露出來,但每家企業都有很多數據,也就有了數據孤島。面對很多協同的要求,區塊鏈可以協助橫向實現數據共享,把孤島串聯起來。
樹圖區塊鏈Conflux聯合創始人伍鳴認為,區塊鏈本身作為分佈式賬本是可靠的數據載體,可以承載最大價值數據,如金融信用數據,因此區塊鍊和數據密不可分,區塊鏈承載的數據還能實現通證化。
Phala Network CEO佟林則指出,目前鏈上的數據種類和數量遠小於鏈下數據。鏈上數據的特點是可見即可用,不可見(加密數據)則不可用,但利用隱私安全計算可以實現鏈上數據的可用不可見。
目前看來,各類技術已經實現了初步落地。
以微眾銀行為例,其攜手騰訊天衍實驗室成立騰訊醫療健康-微眾聯合實驗室,基於聯邦學習開發的“腦卒中發病風險預測模型”準確率達到80%以上,小型醫院模型預測指標提升了10-20%。
翼方健數則為中國健康醫療大數據首批試點城市——廈門構建了基於隱私安全計算技術的大數據應用與開放平台,打造了醫療大數據治理及分級診療落地的典範。
在製度層面,各界專家一致強調了法律法規及標準的重要性。
锘崴科技創始人王爽表示,數據共享在技術之外還需要法律和標準的推動,如美國有相關法律,歐盟則以GDPR為代表,中國數據安全法草案也已公佈,再加上國家標準的製定,共同推動數據生產要素的流通。
科大訊飛大數據研究院執行院長譚昶坦言,現實中企業間大規模的數據共享其實很少見,部分原因也是因為法律法規尚需改進,數據生產要素定價等問題尚未解決,缺乏數據市場化交易機制,也就是相關基礎設施亟待完善。
在“釋放數據價值,區塊鏈有何妙用”的圓桌主題討論中,KILT Protocol創始人Ingo Rübe則從法理上思考了區塊鏈的數據安全性——到底怎樣才算安全? GDPR在2012年制定時並未考慮到區塊鏈,但區塊鏈上的數據加密歸根結底是數學問題,終究可以解決,因此仍應先聚焦立法問題。