人工智能数据污染的特点、危害及解决之道

  8月5日,国家安全部发文提示,人工智能(AI)的训练数据存在良莠不齐的问题,其中不乏虚假信息、虚构内容和偏见性观点,造成数据源污染,给AI安全带来新的挑战。

  据介绍,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,削弱模型性能、降低其准确性,甚至诱发有害输出。研究显示,当训练数据集中仅有0.01%的虚假文本时,模型输出的有害内容会增加11.2%;即使是0.001%的虚假文本,其有害输出也会相应上升7.2%。

  互联网技术打破时间与空间的限制,让数据成为数字社会的基础性土壤。高质量的数据能够显著提升模型的准确性和可靠性,而数据一旦受到污染,则可能导致模型决策失误甚至AI系统失效,存在一定的安全隐患。近年来,在AI技术加持下,数据污染自动迭代升级不断蔓延,给AI安全带来了诸多挑战。

  数据污染是指数据中出现与实际数据不符的异常值,与元数据信息结构及内容对应产生扭曲与偏差的现象。数据记录错误、人为篡改、数据集成不当以及来自外部的数据投毒,都是造成数据污染的主要成因。在数据污染影响下,蓬勃发展的AI呈现双重面孔:它既是数据污染的受害者,也是数据污染的生产者。一方面,当数据用于AI训练和辅助决策时,数据污染破坏训练数据的完整性与真实性,进而影响模型性能的发挥,促使AI出现幻觉甚至导致崩溃。另一方面,AI导入污染数据生成的不实内容凭借细节精准的表象,通过算法传播获得信息主体信任达至“谬以千里”,甚至被反复引用为训练数据形成“递归污染”。此时,AI从数据污染的受害者转化成为数字环境中活跃的污染生产者,它既深受其害,更推波助澜。

  

  AI数据污染的特点与危害

  相比网络空间传统的信息污染,AI数据污染更隐蔽,危害更加精准化且通过衍生与叠加效应造成持续性扩大的破坏性后果。

  AI数据污染易被“视而不见”。当前,在各种生成式人工智能辅助下,图片和视频快速低成本批量产出,其中不乏数据已被污染的虚假信息。当人们面对AI生成的各种图像和视频时,基于“眼见为实”的感官本能信任,容易消解甚至完全忽视存在的数据污染的风险。例如,2025年曾一度被网民大量转发的“云南××地遭遇严重洪灾”的网络视频被网信部门证实为AI合成制假信息,这不仅误导公众,加剧社会恐慌,还严重干扰当地正常防灾救灾秩序。

  AI推送精准化加剧数据污染风险。在智能算法推荐系统模式下,AI信息传播能迅速识别并锁定目标人群。当系统使用污染后的数据时,会加速形成信息茧房,将用户封闭在错误或者有毒的数据环境中。在医疗等专业领域,权威知识一旦被数据污染,形成的错误诊疗建议不仅会危害患者生命,还可能有指向性地引起大规模的公共卫生危机。在城市治理新范式下,人工智能全面赋能城市高效精准治理,如果AI系统遭到污染数据侵蚀,污染风险将沿着自动化的数字脉络蔓延,极有可能对城市关键信息及基础设施正常运行造成破坏性影响。

  AI数据污染扩散快、消除难。AI在图片、音频、视频的多媒体形态生成中占据优势,这意味着如果任何一个端口存在数据污染,污染就会以源头为中心呈叠加倍速扩散之势。同时,与此对应的数据验证、核实和过滤难度将大幅度提升,数据清洗消耗专业资源骤然增大,污染影响消除困难重重。例如,人为导入对事件偏见性认识数据后,通过AI多媒体形态传播形成大面积数据污染,就会持续不断地产生偏见性的认识,持续危害国家安全和社会稳定。

  当AI遇上数据污染,多维度危害就可能立体化呈现在人们眼前。它不仅侵犯数据主体权益,使其隐私泄露经济受损,破坏人际信任加剧社会对立,导致资源错配社会秩序混乱,还可能衍生出一系列国家安全风险。


  坚持“四要”,推进AI数据污染治理

  如何做好AI数据污染的治理,关键在于坚持发展思维,依法建章立制,重视技术标准建设,强化协同共治,真正将清洁可信的数据优势转化为人工智能健康发展的动能。

  坚持发展思维,强化AI数据污染治理。人类历史上每一次重大技术突破都伴随治理挑战。当下,工业革命带来的环境污染在建立科学环境治理体系、完善立法监管和技术创新迭代中逐步改善,最终形成绿色可持续发展理念,人居生态环境日益改善。面对AI技术发展中的伴生物,既要认清AI数据污染的危害性,夯实安全底线重视风险防控,更要坚持发展思维,保持对AI技术赋能数据价值的信心。具体而言,治理AI数据污染并非阻碍AI技术应用,而是要以发展为导向,通过技术迭代与制度创新,积极推进可信AI技术应用,反向推动清洁高质量数据群的构建,逐步形塑面向数据治理的责任共同体意识,最终实现技术赋能与社会信任的共同提升。

  治理AI数据污染要依法建章立制。《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律法规,为数据污染治理提供了法律框架,强调数据分类分级保护、安全风险评估与监测,以及数据处理的通用安全义务等,这为AI数据污染治理提供了根本遵循标准。AI数据污染治理,应在现有法律指引下,进一步建章立制,尤其是由改变行为结果产生匹配法律责任的传统做法,转向强调预防数据污染风险为主的规则设定。可根据AI数据污染风险作出因时而变的制度安排,强化其敏捷性治理。

  治理AI数据污染,要重视技术标准建设。在AI数据污染敏捷性治理中,要加强技术标准建设,以防范数据污染风险。实践中,国家市场监督管理总局、国家标准化管理委员会已发布了《网络安全技术 生成式人工智能数据标注安全规范》(GB/T 45674-2025)、《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》(GB/T 45652-2025)、《网络安全技术 生成式人工智能服务安全基本要求》(GB/T 45654—2025)三项国家技术标准,将在2025年11月1日正式实施。这些技术标准对数据标注、训练数据安全以及数据通用安全等作了明确规定,强调通过增强AI数据来源的评估、核验及数据来源多样性等方式阻断数据污染传播,保障人工智能数据安全。

  AI数据污染治理,要强化协同共治。AI数据污染涉及个人数据权益保障、人工智能产品效能以及国家人工智能安全发展等多维价值,构建不同主体权责明晰的协同式治理机制势在必行。在个体层面,数据权属主体应有权通过知情同意方式查核与个体有关的数据污染并加以更正,在数据污染的潜伏期发挥个体矫正的作用。人工智能的数据处理者,不仅应当履行数据安全保障义务,在数据污染发生时要智能精准地干预,还应为数据权属主体提供数据查核与更正的正确途径,并与数据监管者共享数据污染处置信息。负有质量保障义务的数据监管者应当在事前、事中和事后均有效参与数据污染治理进程,与数据权属主体和数据处理者进行多方联动,强化数据安全。确立动态交互、协同响应的治理模式,有助于实现AI数据污染风险的未然防控,构建更具韧性的数字安全生态系统。

  将“发展思维、建章立制、技术标准、协同共治”四维环环相扣,构建立体化的AI数据污染治理框架,有助于化解AI数据污染隐蔽性高、风险扩散快、后果消除难等问题,实现AI数据污染系统治理,最终塑造安全、可信、负责的人工智能发展生态。

  (作者单位:重庆邮电大学网络法治研究中心)