健全公共数据授权运营制度 推动人工智能产业发展

  数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。2024年9月印发的《关于加快公共数据资源开发利用的意见》强调,“在市场需求大、数据资源多的行业和领域,拓展应用场景,鼓励经营主体利用公共数据资源开发产品、提供服务。”

  促进公共数据高效合规流通使用,优化公共数据资源配置,对做优做大数字经济具有重要作用。人工智能产业是数据密集型新兴产业,高度依赖数据集的规模和质量。今年1月,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》将公共数据授权运营作为提升数据供给水平的强化保障支撑机制,强调以科学数据支持大模型开发,建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练。


  人工智能大模型对训练数据的需求快速增长

  人工智能模型对数据的需求根据模型的升级而不断增长。比如,ChatGPT-4拥有高达1.8万亿参数,13万亿训练数据。但随着人工智能产业的发展,用于大模型训练的数据可能出现枯竭危机。今年8月,《光明日报》刊文指出,根据2023年数据消耗速度,高质量语言数据将在2026年前被耗尽,低质量语言数据将在2030年至2050年被耗尽;视觉数据将在2030年至2060年被耗尽。此外,人工智能训练数据还面临获取成本高、来源合法性等问题。为此,世界各国纷纷制定相应法律法规规范数据开发利用。

  我国2024年10月12日向社会公开征求意见的《公共数据资源授权运营实施规范(试行)(公开征求意见稿)》规定,公共数据授权运营,是指将县级以上地方各级人民政府、国家行业主管部门持有的公共数据资源,按照法律法规和相关要求,授权符合条件的运营机构进行治理、开发,并面向市场公平提供数据产品和技术服务的活动。作为促进公共数据开发利用的重要机制,公共数据授权运营可以将公共数据生产要素转换为支撑人工智能训练的数据资源,允许企业利用高价值、高数量的公共数据实施人工智能开发与训练活动,可以赋能人工智能产业发展。因此,构建公共数据授权运营制度应有效衔接人工智能产业发展需求,使其发挥制度优势。


  深度开发数据产品,满足人工智能发展需求

  2024年10月10日,国家数据局有关负责人在国新办举行的新闻发布会上介绍,截至今年7月,我国已有243个省级和城市的地方政府上线数据开放平台,开放的有效数据集超过37万个,最近8年来增长了44倍。同时强调,“公共数据资源开发利用不足,主要矛盾在供给侧”“特别是对于人工智能发展,数据资源更是至关重要”。

  当前,大模型对海量高质量数据提出迫切需求,垂直领域的数据应用需求快速增长,人工智能技术成为数据开发利用的重要推动力。但就公共数据赋能人工智能产业而言,仍缺少围绕大模型训练、开发等多维数据需求进行针对性、差异性的数据产品供给。

  首先,公共数据开发利用程度与人工智能训练开发场景需求要进一步衔接。目前,公共数据授权运营尚未完全形成以需求为导向的数据利用模式,各地政府主要以发布通告方式开展重点领域数据授权,符合条件的运营机构依规提出申请获得授权,数据开发利用应用场景无法与人工智能产业发展数据需求深度契合。同时,授权运营场景多集中在医疗、金融、交通等领域,但人工智能模型日益增强的通用性趋势对大规模交叉应用场景数据需求提出了更高要求,要保证训练数据集的交叉性、规模性,以进行垂直领域的专门训练。

  其次,公共数据质量无法充分满足人工智能开发需求。大模型输出的准确性高度依赖于训练数据的质量、数量和多样性。公共数据规模体量巨大,是组成社会数据资源的主要部分,但其质量有待提高。一方面,授权运营的公共数据内容应保证时效性,实现动态更新,以适应人工智能训练和开发需求。另一方面,授权运营的公共数据应保证多样性,以生成式人工智能为例,训练过程不仅需要通用领域、垂直领域的数据,还需要多样化的训练数据,才能进行更准确预测,减少大模型“幻觉”。

  最后,公共数据安全保障制度亟须完善。人工智能模型训练、开发,以技术手段对公共数据进行深度挖掘利用,易引发安全风险。公共数据不仅包含政府自身履职产生的数据,还涉及公民个人信息。虽然公共数据运营经过了脱敏等信息处理,但大规模公共数据汇集时还存在定位或识别个体信息的可能,从而产生数据泄露风险。同时,人工智能企业在公共数据储存、传输、训练过程中,可能会由于技术固有的缺陷、不当处理、恶意攻击等导致其泄露。


  建立以需求为导向的公共数据运营开发制度

  建立公共数据授权运营制度可以使公共数据生产要素功能充分发挥作用,也为新技术提供有效数据供给。应结合人工智能产业发展的迫切需求,拓展应用场景,挖掘公共数据生产要素的价值。

  首先,公共数据产品供给要回应人工智能市场需求。如北京市通过公共数据开放平台发布人工智能大模型高质量数据集等。为了满足人工智能模型训练、开发场景需求,应加快数据应用场景细分,挖掘潜在的数据应用场景,有效衔接公共数据供给与应用需求,以场景化数据产品赋能人工智能产业发展。鼓励人工智能企业参与建立高质量公共数据语料库,为开展政务服务大模型数据标注、模型训练等提供支撑。政府应以场景需求为导向制定公共数据开放目录、授权运营案例目录,主动围绕人工智能应用场景,发布高质量的人工智能模型训练数据集,增加公共数据可获取性。

  其次,健全公共数据质量标准,增强高质量数据有效供给。结合场景需求,形成动态更新数据集,保证公共数据开放利用的时效性。建立公共数据授权运营质量监督机制,及时了解人工智能产业的公共数据开发利用需求,并针对其需求提供有效数据供给,保证训练数据集的代表性与可持续性。以需求匹配度、开发利用成效等标准对公共数据授权运营支撑人工智能产业发展进行针对性评估。人工智能企业应主动在授权运营申请中提出数据处理方式、质量、标注等需求。

  最后,完善公共数据授权运营安全保障措施。从公共数据授权运营全流程出发,落实数据收集处理、授权、运营等阶段的监管责任。保证人工智能企业开发、运营行为合法合规,结合技术特性设置企业开发、运营公共数据的技术规范、标准,实现“原始数据不出域,数据可用不可见”。健全公共数据授权运营准入标准,授权运营单位应符合基本安全、技术安全、应用场景安全、重点领域具体安全等准入要求。构建严格的事前审核标准,通过事中行为监管规范,落实第一责任主体,严格落实个人信息保护法、数据安全法的有关规定。

  (作者单位:西北工业大学公共政策与管理学院)