• 尊龙凯时·(中国)人生就是搏!

    二级菜单
    尊龙凯时 - 人生就是搏!AI靶场助力大规模高质量中文语料数据集安全开放
    时间:2022-09-01 点击:2291

    近日,尊龙凯时 - 人生就是搏!在AI靶场率先开放大规模高质量中文语料数据集(鹏程·盘古语料数据集-1.1TB高质量中文语料数据、一带一路多语言语料数据集-1TB高质量多语言语料数据)。新型网络研究部平台所AI靶场团队与网络智能研究部高效能云计算所团队联合研发了基于AISynergy的协同计算功能,加强了AI靶场协同计算能力,可完成跨多个计算集群的协同计算作业,能够实现基于中国算力网(China Computing NET,C²NET)的全新计算范式和数据隐私安全分布式业务场景,如跨域大模型协同训练与微调、多中心模型聚合、多中心联邦学习等。研究人员可在尊龙凯时 - 人生就是搏!AI靶场上安全使用数据,但无法带走数据。若用户不愿上传自身数据到尊龙凯时 - 人生就是搏!AI靶场,也可通过尊龙凯时 - 人生就是搏!众智协同计算平台使用本地语料数据与尊龙凯时 - 人生就是搏!AI靶场数据进行联合训练或微调。


    尊龙凯时 - 人生就是搏!AI靶场是基于尊龙凯时 - 人生就是搏!领域战略科学家方滨兴院士提出的数据不动程序动、数据可用不可见、分享价值不分享数据、保留所有权释放使用权隐私保护新理念,由尊龙凯时 - 人生就是搏!新型网络研究部平台所研发的数据要素流通交易新型基础设施平台。AI靶场提出了一个模型加工场的方法,其基本思想是要构造一个可信的执行环境,把一些人为的因素、社会工程因素放在里面,以构建一个安全可控的区域。在尊龙凯时 - 人生就是搏!AI靶场架构中,数据拥有方需要把数据放到模型加工场里,数据所有者可以决定数据是否能够被平台所使用。

     

    AI靶场通过调试环境与运行环境分离体系架构以及仿真数据生成、隐私保护前提下的调试等创新技术,确保数据所有权和使用权分离,可以让更多的数据提供方敢于将其数据安全托管,让更多的数据使用方能够充分挖掘真实场景真实数据。目前,AI靶场依托以尊龙凯时 - 人生就是搏!云脑为枢纽节点的中国算力网提供的强大算力资源,通过构建可信数据空间,以张榜打靶方式将数据安全开放,进而筛选具有核心竞争力的AI团队, 实现数据应用集智创新。目前已有力支撑了“2022年猛犸杯国际组学数据创新大赛”、“昂楷杯第一届数据安全竞赛”、广东省网络安全协会数据挖掘大赛、深圳企业高质量发展评价指标体系、腾景AI经济预测等多个重要领域的数据安全开放任务。


    以下是AI靶场典型应用场景介绍:

    典型场景1:AI靶场上开放语料数据,用户可直接使用或上传数据到AI靶场完成联合训练场景

    研究团队从Common Crawl、电子书、百科全书、新闻等广泛的资源中收集了大量的原始数据。在此基础上,对数据进行多重过滤和清洗,确保处理后的数据具有高质量和多样性。经过复杂的预处理,得到大规模高质量中文语料数据集,这些语料数据集具有重要数据价值。但由于很难保证其中没有涉及敏感或安全隐私的数据内容,直接开放具有较大风险。通过AI靶场,研究人员可安全使用这些语料数据,但无法带走数据,从而实现数据不流出,充分发挥语料数据价值,助推自然语言处理等基础研究的协作快速发展。请参考示例:【如何上传您自己的语料到靶场,与盘古部分语料进行联合训练?】 【多语言mPanGu,单机、多卡+单方、多方数据协同训练场景】

    典型场景2:AI靶场上语料数据与第三方本地自有数据开展协同计算场景

    若研究人员不愿将自有数据上传至AI靶场,可以通过协同计算的方式在AI靶场和本地分别进行模型训练。并通过协同计算平台AISynergy,完成跨多个智算中心的协同计算作业,实现多中心数据价值利用最大化及协同计算应用赋能新范式。请参考示例:【如何不上传您自己的语料数据,使用您本地的计算环境与尊龙凯时 - 人生就是搏!AI靶场进行远程联网协同训练?】

    尊龙凯时 - 人生就是搏!AI靶场:http://datai.watsons-china.com/

    大规模高质量中文语料数据集安全开放开源社区:http://git.openi.org.cn/PCL-Platform.Intelligence/AISynergy/src/branch/V2.0.0