以平台化治理促进高质量数据集流通利用

  在人工智能快速发展背景下,高质量数据集已成为模型训练、算法优化、场景应用和产业创新的基础性条件。如何促进数据集依法有序流通,并在交易中兼顾效率、安全与公平?国家数据集管理服务平台的试运行,在探索以平台化治理促进高质量数据集流通利用的同时,为高质量数据集建设提供重要契机。


  4月29日,国家数据集管理服务平台在数字中国建设峰会上正式发布并启动试运行。该平台由国家数据局指导、国家数据发展研究院建设和运营,其以数据集目录汇聚为基础,构建“物理分散、逻辑集中”的数据集管理体系,面向数据管理部门、供给方和需求方提供覆盖数据集全生命周期的公共服务。这是我国高质量数据集建设迈入集约化管理新阶段的重要标志。在人工智能快速发展背景下,高质量数据集已成为模型训练、算法优化、场景应用和产业创新的基础性条件。如何促进数据集依法有序流通,并在交易中兼顾效率、安全与公平,成为数据治理必须回应的重要问题。


  平台建设有助于提升数据治理效能

  数据治理的难点在于面临数据资源分散、质量不一、权属复杂及供需匹配不畅等问题。过去,地方、行业和企业都在推进数据集建设,但由于目录、标准、质量评价和流通机制尚不统一,数据资源易形成“各自建设、各自管理、各自使用”的局面。数据供给方掌握大量数据,却未必知道如何合规发布,实现价值转化;数据需求方存在大量需求,却难以及时找到优质的数据集。

  构建国家数据集管理服务平台有助于通过目录汇聚提升数据资源可发现性。国家数据集管理服务平台并不是要求所有数据在物理空间上集中存储,而是通过“物理分散、逻辑集中”的方式,将分散数据集纳入统一检索和管理视野。这种模式既尊重数据资源形成和保存的实际状态,又有助于形成全国性数据集目录体系。对管理部门而言,可以更好掌握建设情况;对供给方而言,可以发布数据集、申领凭证、接受测评;对需求方而言,可以更准确地寻找可用资源。

  国家数据集管理服务平台建设有助于推动数据治理从事后监管转向全生命周期管理。数据集并非简单的数据集合,而是经过采集、清洗、标注、加工、评测、发布、流通、使用等环节形成的资源形态。其任何环节存在问题,都可能影响数据价值释放,甚至引发安全风险和权益争议。国家数据集管理服务平台提供数据集发布、凭证申领、质量测评、建设情况监测等功能,实质上是将治理要求嵌入数据集形成、流通和利用全过程,使合规要求、质量要求和流通要求转化为可记录、可评价、可追溯的管理流程。

  国家数据集管理服务平台建设有助于促进数据要素市场规范发展。数据作为新型生产要素,只有在安全合规的前提下流通利用,才能转化为现实生产力。当前,人工智能、智能制造、智慧医疗、城市治理等领域都对高质量数据集提出迫切需求。国家数据集管理服务平台通过供需发布、全域检索、主体认证和凭证管理,可以降低供需双方的搜寻成本和信任成本,有利于推动形成统一的数据集管理规则和服务标准,避免低水平重复建设。


  数据交易需守住合规底线

  国家数据集管理服务平台建设为数据流通提供了重要条件,但这并不意味着数据交易风险会自然消除。相反,随着数据供需对接更加便捷,数据流通规模可能进一步扩大,相关风险也会更加集中地显现。因此,在推动高质量数据流通利用的同时,仍需高度重视数据交易中的风险问题。

  应关注数据来源是否合法。数据交易的前提是数据来源合法、处理过程合规。对于公共数据,应明确开放共享、授权运营和有偿使用的边界,防止将不宜市场化利用的数据简单推向市场。对于企业数据,应尊重企业在数据采集、加工、治理中的投入,防止以交易之名侵害商业秘密和竞争利益。对于涉及个人信息的数据集,则必须遵守个人信息保护要求,区分匿名化信息、去标识化信息和可识别个人信息,不能以“数据集”名义弱化个人信息处理者的法定义务。

  应关注数据质量是否可靠。数据交易不同于一般商品交易,数据质量直接影响后续模型训练、算法决策和行业应用效果。如果数据存在不完整、不准确、标注错误、样本偏差等问题,轻则降低应用效率,重则造成算法歧视、决策偏差,甚至引发公共风险。因此,高质量数据集建设不能只追求数量扩张,而要建立质量评价机制。供给方应对数据来源、处理方式、适用场景、质量限制等作出必要说明,防止需求方因信息不对称作出错误判断。

  应关注数据用途是否受到约束。数据具有可复制、可组合、可再利用的特点。一旦数据进入流通环节,如果缺乏用途限制和后续管理,就可能被用于超出原始目的的场景,甚至在多源融合后产生再识别风险。因此,数据交易不能止步于“一卖了之”,而应建立用途约束、访问控制、日志留存和责任追溯机制。数据需求方应按照约定场景使用数据,不得擅自转卖、扩散或者用于违法违规目的。

  应关注数据权益分配是否公平。数据价值的形成,往往离不开数据采集者、加工者、标注者、平台服务者和应用开发者等多方参与。如果收益分配机制不合理,既可能挫伤数据供给和治理的积极性,也可能引发新的利益冲突。数据交易制度应当尊重各类主体的价值贡献,推动形成公平、合理、可持续的收益分配机制。尤其是在公共数据开发利用和个人信息相关数据利用中,更应防止少数主体过度占有数据收益。


  以法治方式完善数据流通秩序

  国家数据集管理服务平台的试运行,为高质量数据集建设提供了重要契机。下一步,应以平台建设为抓手,进一步完善数据流通的法治保障机制,使数据集建设既能促进人工智能创新发展,也能守住安全和合规底线。

  应完善数据集分类分级管理规则。不同类型数据集的敏感程度、应用场景和风险水平并不相同。应根据数据来源、数据内容、敏感程度、使用目的和风险后果,对数据集进行分类分级管理。对低风险数据集,可以强化标准化服务和便捷流通;对涉及个人信息和商业秘密的数据集,应提高合规审查和用途管理要求;对涉及国家安全、公共利益和重要数据的数据集,应建立更严格的准入、评估和监管机制。

  应完善数据集凭证和质量评价机制。国家数据集管理服务平台已经开放凭证申领功能,未来可进一步推动凭证申领与主体认证、质量测评、用途约束和流通记录相衔接,增强数据集流通利用的可识别性、可信任性和可追溯性。数据集凭证不宜只是形式化标识,而应承载数据来源、主体身份、质量评价、授权范围、使用限制等关键信息。与此同时,应完善质量测评标准,将合法性、安全性、准确性、完整性和适用性等纳入评价指标,推动数据集供给从“数量竞争”转向“质量竞争”。

  应强化数据交易全过程合规管理。数据交易涉及供给、发布、撮合、评估、使用和退出等多个环节,任何环节出现漏洞都可能导致风险外溢。数据供给方发布数据集前,应进行合法性审查和必要的安全评估;平台应对主体资质、数据目录、凭证信息和质量评价进行必要管理;数据需求方获取数据后,应遵守用途限制和安全管理义务;发生违法使用、数据泄露或者超范围利用时,应能够及时追溯责任。

  应推动国家平台与地方、行业数据平台协同联动。国家数据集管理服务平台不应替代地方和行业平台,而应通过目录联通、标准衔接和规则协同,形成全国统一、分级负责、协同运行的数据集管理体系。地方和行业平台可以结合自身场景推进特色数据集建设,国家平台则可以发挥统一目录、标准、服务和监测作用。

  应以安全可信技术支撑数据流通利用。数据交易中的风险不能仅靠合同约定和事后监管解决,还需要依托技术手段提升治理能力。可以综合运用隐私计算、可信执行环境、区块链存证、数字水印、访问控制、日志审计等技术,实现数据可用不可见、流向可追踪、行为可审计、责任可追溯。尤其是在人工智能训练数据集流通中,应将个人信息保护、数据安全保护和商业秘密保护要求嵌入平台功能和交易流程之中。

  本文为2025年度江苏省教育科学规划课题“人工智能嵌入教育应用的风险识别与治理策略研究”(项目编号:RGZN/2025/15)的阶段性研究成果。

  (作者单位:江南大学法学院、东南大学江苏省地方立法研究基地)