<acronym id="e4x1u"><strong id="e4x1u"></strong></acronym>

鵬城AI靶場助力大規模高質量中文語料數據集安全開放
時間:2022-09-01 點擊:0

近日,鵬城實驗室在AI靶場率先開放大規模高質量中文語料數據集(鵬程·盤古語料數據集-1.1TB高質量中文語料數據、一帶一路多語言語料數據集-1TB高質量多語言語料數據)。新型網絡研究部平臺所AI靶場團隊與網絡智能研究部高效能云計算所團隊聯合研發了基于AISynergy的協同計算功能,加強了AI靶場協同計算能力,可完成跨多個計算集群的協同計算作業,能夠實現基于中國算力網(China Computing NET,C2NET)的全新計算范式和數據隱私安全分布式業務場景,如跨域大模型協同訓練與微調、多中心模型聚合、多中心聯邦學習等。研究人員可在鵬城AI靶場上安全使用數據,但無法帶走數據。若用戶不愿上傳自身數據到鵬城AI靶場,也可通過鵬城眾智協同計算平臺使用本地語料數據與鵬城AI靶場數據進行聯合訓練或微調。


鵬城AI靶場是基于實驗室領域戰略科學家方濱興院士提出的數據不動程序動、數據可用不可見、分享價值不分享數據、保留所有權釋放使用權隱私保護新理念,由實驗室新型網絡研究部平臺所研發的數據要素流通交易新型基礎設施平臺。AI靶場提出了一個模型加工場的方法,其基本思想是要構造一個可信的執行環境,把一些人為的因素、社會工程因素放在里面,以構建一個安全可控的區域。在鵬城AI靶場架構中,數據擁有方需要把數據放到模型加工場里,數據所有者可以決定數據是否能夠被平臺所使用。

 

AI靶場通過調試環境與運行環境分離體系架構以及仿真數據生成、隱私保護前提下的調試等創新技術,確保數據所有權和使用權分離,可以讓更多的數據提供方敢于將其數據安全托管,讓更多的數據使用方能夠充分挖掘真實場景真實數據。目前,AI靶場依托以鵬城云腦為樞紐節點的中國算力網提供的強大算力資源,通過構建可信數據空間,以張榜打靶方式將數據安全開放,進而篩選具有核心競爭力的AI團隊, 實現數據應用集智創新。目前已有力支撐了“2022年猛犸杯國際組學數據創新大賽”、“昂楷杯第一屆數據安全競賽”、廣東省網絡安全協會數據挖掘大賽、深圳企業高質量發展評價指標體系、騰景AI經濟預測等多個重要領域的數據安全開放任務。


以下是AI靶場典型應用場景介紹:

典型場景1AI靶場上開放語料數據,用戶可直接使用或上傳數據到AI靶場完成聯合訓練場景

研究團隊從Common Crawl、電子書、百科全書、新聞等廣泛的資源中收集了大量的原始數據。在此基礎上,對數據進行多重過濾和清洗,確保處理后的數據具有高質量和多樣性。經過復雜的預處理,得到大規模高質量中文語料數據集,這些語料數據集具有重要數據價值。但由于很難保證其中沒有涉及敏感或安全隱私的數據內容,直接開放具有較大風險。通過AI靶場,研究人員可安全使用這些語料數據,但無法帶走數據,從而實現數據不流出,充分發揮語料數據價值,助推自然語言處理等基礎研究的協作快速發展。請參考示例:【如何上傳您自己的語料到靶場,與盤古部分語料進行聯合訓練?】 【多語言mPanGu,單機、多卡+單方、多方數據協同訓練場景】

典型場景2AI靶場上語料數據與第三方本地自有數據開展協同計算場景

若研究人員不愿將自有數據上傳至AI靶場,可以通過協同計算的方式在AI靶場和本地分別進行模型訓練。并通過協同計算平臺AISynergy,完成跨多個智算中心的協同計算作業,實現多中心數據價值利用最大化及協同計算應用賦能新范式。請參考示例:【如何不上傳您自己的語料數據,使用您本地的計算環境與鵬城AI靶場進行遠程聯網協同訓練?】

鵬城AI靶場:https://datai.pcl.ac.cn/

大規模高質量中文語料數據集安全開放開源社區:https://git.openi.org.cn/PCL-Platform.Intelligence/AISynergy/src/branch/V2.0.0 

国产成人精品久久久久,亚洲综合国产精品久久久久,久久综合亚洲色HEZYO国产,亚洲国产精品久久久久秋霞1,国产精品综合一区二区vr在线观看_观看