生成式人工智能滥用数据优势的反垄断因应

  以大模型构建与数据训练为运作核心的生成式人工智能在发展过程中面临多重数据风险,特别是其滥用数据优势的垄断隐忧不容忽视,这影响到市场公平竞争与消费者权益的实现。“十五五”规划建议提出,“加强人工智能治理,完善相关法律法规、政策制度、应用规范、伦理规则。”生成式人工智能滥用数据优势行为的反垄断审查面临理论与实践的双重挑战,本文厘定生成式人工智能滥用数据的违法性认定方法,并运用法律和经济规制工具构建起全周期、系统化的反垄断监管体系。
  
  规制生成式人工智能
  滥用数据优势的现实挑战
  
  生成式人工智能滥用数据优势主要包括三种行为类型:一是滥用数据优势实施算法共谋;二是滥用数据优势实施自我优待;三是滥用数据优势侵害消费者隐私。反垄断法规制生成式人工智能滥用数据优势行为需要满足市场力量要件与竞争损害要件。然而,人工智能市场竞争具有动态性、复杂性等特征,生成式人工智能的市场力量难以评估,且行为竞争效果评估面临挑战,难以判定滥用数据优势行为是否违反反垄断法。
  市场力量在动态竞争中难评估。反垄断法第24条规定了认定市场支配地位的市场份额推定方法,其反映了一定时期内相对静态的市场力量。而动态竞争和创新力竞争是人工智能产业的典型特征,这对传统的市场力量测定方法带来了挑战。高新技术公司可以借助基础模型市场的数据优势和渠道优势等,通过杠杆效应和规模效应等将其竞争优势辐射至下游服务应用市场,同时生成式人工智能的“数据-模型-应用”反馈闭环会加速市场力量集中,例如开放人工智能与苹果公司的深度集成被指控构成非法垄断。苹果公司在美国智能手机市场约占65%市场份额,其与在生成式人工智能聊天机器人市场占据显著优势的开放人工智能深度绑定,通过默认整合开放人工智能旗下产品,利用终端数据优势为开放人工智能的算法迭代与优化提供支撑,进而在双重市场中强化各自竞争优势。二者联合行为被控构成对两个关键领域的市场支配与控制。在这种市场力量反馈闭环作用下,生成式人工智能的市场力量可以实现短时间内的跃升,如何以发展的思维预测短期内的市场份额变化面临着挑战。 
  行为的正当性与违法性难辨别。第一,生成式人工智能利用数据优势进行自动化推荐、价格自主调整等行为是否构成反垄断法规制的算法共谋较难认定。生成式人工智能具有深度学习与自主模仿的特征,原始训练数据的内容以及训练算法的设置直接影响生成式人工智能自主学习的结果,不同的生成式人工智能产品生成趋同结果存在可能性。机器自主学习达成合谋可能会超出开发者的可预测或控制范围,这难免会沦为生成式人工智能滥用数据优势的抗辩事由。第二,认定自我优待行为的违法性需要对竞争正向增益和负面影响进行抵消评估。当生成式人工智能大模型嵌入数字平台时,未形成复杂生态体系的数字平台实施自我优待的范围相对广阔,对市场竞争的影响较难评估。第三,生成式人工智能滥用数据优势是否侵犯个人隐私面临证明难题。违法性分析不仅需要看数据来源是否合法,还要分析数据处理行为与隐私受侵害的因果关系以及数据输出的结果,是否构成隐私实质损害。
  
  生成式人工智能滥用数据优势的违法性认定
  
  生成式人工智能垄断地位的判定。其一,市场力量的识别应综合考量多边市场的经营状况。近年来,美团“二选一”垄断案、知网滥用市场支配地位案等,都对多边市场的跨边网络效应进行了分析。同理,生成式人工智能也需要评估多边市场的交易情况和市场优势传导作用。若生成式人工智能采用的是开源大模型,那么不仅需要评估其直接与消费端进行交易的情况,还需要考量与其他经营者进行交易的情况。此外,多边市场间的传导作用强弱也是影响市场力量的重要因素。生成式人工智能能否将其在一边市场的市场优势传导到另一边市场,会影响到市场力量评估。其二,生成式人工智能经营者是否具备强数据控制与处理能力,数据规模与算法能力被视为认定市场支配地位的重要因素。在全国首例人工智能生成声音人格权侵权案中,‌北京互联网法院认定人工智能生成声音若具备可识别性,即可以通过音色、语调和发音风格关联到特定自然人,则受民法典人格权编保护。此案确立了人工智能数据处理行为与人格权侵害的因果关系认定标准,为评估数据控制能力提供了司法指引。在当前的生成式人工智能产业结构中,部分经营者基于其运营业务等天然占据了数据资源优势。不仅如此,部分生成式人工智能经营者还以云计算平台运营商身份参与市场竞争,其既是直接参与市场竞争的经营者,亦是资源分配者与平台管理者。如果某一经营者通过控制大量数据资源,并通过排他性协议、并购或技术手段限制其他竞争者获取同类数据,而这类数据是训练高质量模型的必要条件,从而对市场竞争产生较强的影响力和控制力,那么这极有可能构成垄断行为。其三,下游经营者对生成式人工智能提供者的大模型、数据库等是否高度依赖。北京互联网法院在司法裁判中明确《数据知识产权登记证》对数据持有的证明效力,可作为数据财产权益和来源合法性的初步证据,确立了数据产品转化为数据资产的司法标准,为分析下游经营者对生成式人工智能提供者的技术依赖性提供了重要参考。在森浦信息技术有限公司滥用市场支配地位案中,执法机关对高度依赖性的分析具有一定借鉴意义,上海市市场监督管理局认定债券声讯经纪实时交易全数据产品的金融信息服务商对当事人独家销售的单一货币经纪公司债券声讯经纪实时交易数据具有高度依赖性,并从两方面展开分析:一方面,当事人提供的实时交易数据是金融信息服务商生产加工债券声讯经纪实时交易全数据产品、提供相关服务不可缺少的生产要素和原材料;另一方面,当事人独家协议有效期间,该单一货币经纪公司债券声讯经纪实时交易数据不存在被另行生产或获得的可能性。同理,在生成式人工智能领域,是否存在高度依赖性,需要分析生成式人工智能经营者提供的大模型、数据库是不是其他经营者提供相关服务所必需的技术或产品,同时是其他经营者难以从别处获取的技术或产品。
  严重损害市场竞争的认定。在人工智能生成奥特曼侵权图片案中,杭州互联网法院认为,涉案行为被竞争法规制需要满足不合理损害其他主体竞争权益和消费者权益的要件。这一标准被后续多个案件引用,成为评估人工智能市场竞争影响的重要基准。在人工智能写作工具不正当竞争案‌中,人工智能写作工具可一键生成符合某社交平台风格的“种草”文案,下载量达3000余万次。杭州市中级人民法院认定这种行为损害了平台基于真实用户内容形成的核心竞争资源,划定了生成式人工智能服务提供者的合理注意义务边界。在我国首例保护人工智能模型结构和参数案中,北京知识产权法院认定通过数据训练和参数调校形成的人工智能模型是获取市场竞争优势的核心资源,并认为影响竞争的市场运行机制包括准入机制、供求机制、价格机制、信息机制、信用机制和创新机制。进言之,若生成式人工智能滥用数据严重影响以上六种机制发挥作用,则可认定损害了市场竞争秩序,具体分析可借鉴国内外反垄断案件的相关经验。
  在森浦信息技术有限公司滥用市场支配地位案中,涉案当事人的拒绝交易行为阻碍了实时交易数据的流动和公开可获得性,损害了下游市场的持续创新发展,同时使债券交易机构和投资者丧失产品选择权以及获得更好价格与服务的可能,被上海市市场监督管理局认定为排除、限制了相关市场的有效竞争。在谷歌滥用市场支配地位案中,谷歌在搜索结果中优先展示其比较购物服务,同时降低竞争对手的排名,导致其比较购物服务的流量显著增加,而竞争对手的流量则持续大幅下降。欧盟提供证据表明,实施滥用市场支配地位行为以来,谷歌的比较购物服务在英国的流量增加了45倍,在德国增加了35倍;竞争对手网站的流量在英国下降了85%,在德国下降了92%,且网站流量突然大幅下降也无法用其他原因来解释。前述滥用市场支配地位行为对市场竞争的影响分析同样适用于生成式人工智能滥用数据优势的竞争影响评估。   
  综上所述,如果生成式人工智能经营者利用其市场优势地位在高质量数据等关键资源的访问、获取等方面,不合理地筑高市场进入壁垒或市场扩张壁垒,导致其他竞争者难以进入市场或开展有效竞争,则可以认为对市场竞争产生了实质性的限制或排除。导致其他竞争者难以有效竞争,需要评估滥用行为是否造成其他同业竞争者的用户流量等在短期内快速下降,同时实施该行为的经营者市场份额显著上升。
  
  生成式人工智能滥用数据优势的反垄断监管体系优化
  
  构建反垄断全周期监管体系。在数据收集阶段,利用技术方式降低损害个人信息权的风险。根据《生成式人工智能服务管理暂行办法》第7条,生成式人工智能需要使用有合法来源的数据并采取措施提高训练数据质量。一方面,要保证训练数据来源的合法性与正当性,利用数据噪声、数据脱敏方法来降低生成式人工智能通过数据关联与分析定位到个人的概率,从源头降低侵害消费者隐私的风险;另一方面,数据收集阶段要满足数据来源多样化要求,即数据来自不同的社会群体、多样化的收集场景等,以此来提高数据输出的质量。
  在数据加工阶段,注重算法透明和规则合理性。第一,为尽可能减少算法黑箱,既需要提高算法的可解释性,又需要完善经营者的算法告知义务。在国内首例平台借助算法判定用户发布内容系人工智能生成案中,北京互联网法院认为平台没有对算法决策依据和结果进行适度解释和说明,故应对其没有事实依据下对涉案账户的处理承担违约责任。该案表明平台算法审查可能会导致误判,明确了平台算法说明义务的具体内容。第二,基于场景差异匹配相区别的算法透明度。算法透明度并不需要“一刀切”式的设置,而是应依据具体应用场景的风险水平及利益相关方需求,确定算法不同程度的可解释性与可审查性标准。第三,算法规则的合理性依赖于清晰的目标函数,确定这些目标函数的核心在于明确价值完整性和价值精确度。
  在数据输出阶段,允许竞争者必要的数据访问,且应以数据标准化促进数据的有效共享。一方面,要以必要数据访问制度破除垄断,确保市场参与者都能够在合理和非歧视性的基础上访问必要的数据;另一方面,要促进数据的标准化,实现共享数据的有效获取与利用,落实《国务院关于深入实施“人工智能+”行动的意见》提出的“推进跨行业、跨领域、国际化标准联动”。 
  以助推理论促进数据处理合规。尽管欧盟、美国和中国都赋予个人访问、更正和删除其个人数据的权利,但在生成式人工智能的数据生命周期中,消费者行使这些权利往往存在困难:一是在举证责任方面,举证证明生成式人工智能违法处理其个人数据的难度较大;二是在技术难度方面,从生成式人工智能模型中提取特定数据并将其删除的技术难度较高。因而需要运用经济法调制工具来助推生成式人工智能经营者实施自我规制行为。行为助推的方法是多元的,包括教育型助推和非教育型助推等,比如,为了从源头提高生成式人工智能经营者的竞争规范意识,可以通过规范培训、行业协会联合承诺等教育型助推的方式;再如,通过算法披露、信息披露等信息规制工具的应用,来减少生成式人工智能经营者与同业竞争者、行业监管者之间的信息差,助推市场经营主体作出理性的经营行为决策。此外,对生成内容进行标识并进行风险提示是非教育型助推方式的场景应用,例如通过隐式标识和显式标识的区分路径对生成式人工智能进行管理,人工智能生成内容标识的合理利用可以对消费者尽到提醒或告知义务。
  以激励工具治理生态型垄断。开源人工智能模型具有准公共物品属性,其在上游市场的优势地位可以传导到下游应用市场,极易形成生态型垄断。生态型垄断的治理“牵一发而动全身”,将高昂的外部治理成本内部化是较优选择,为此,需要通过激励工具,来促进生成式人工智能生态型垄断的治理。既可以通过奖励这一正向激励工具推动经营者模范地自我监督、优化数据处理机制,又可以通过惩罚这一负向激励工具对生成式人工智能经营者形成违法威慑,扼杀违法违规的行为动机。在奖励机制的创设方面,数据风险评估可以作为生成式人工智能经营者奖励的一项标准。为了提高评估的透明度与公平性,同时分散市场监管部门的监管压力,在评估生成式人工智能规范程度时可引入第三方评估机制。声誉制裁是惩罚的具体表现形式之一,有降低规制成本的优势,对注重声誉的大型平台企业作用显著。落实中共中央办公厅、国务院办公厅《关于推进社会信用体系建设高质量发展促进形成新发展格局的意见》提出的“建立标准统一、权威准确的信用档案”,对于违反数据处理义务的生成式人工智能经营者,可以公示其违法行为或记入企业信用档案。
  〔作者系华东政法大学经济法学院特聘副研究员。本文系中国博士后科学基金第77批面上资助项目(编号2025M770642)的阶段性研究成果。〕 
  ● 责任编辑:高瀚伟