生成式人工智能训练语料的法律风险及治理

网络安全和信息化

2026-03-19

当前，生成式人工智能在训练过程中不可避免地抓取到他人享有版权的作品，存在侵权被诉风险。如果单纯适用于传统法律规则或者原则，不仅法律面临着适用性和合理性的挑战，而且国内人工智能产业和相关的版权产业也将遭受重大损失。

当前，生成式人工智能在训练过程中不可避免地抓取到他人享有版权的作品，存在侵权被诉风险。如果单纯适用于传统法律规则或者原则，不仅法律面临着适用性和合理性的挑战，而且国内人工智能产业和相关的版权产业也将遭受重大损失。基于此，产业界迫切需要出台相关法律与政策，明确提供正确合理使用数据语料的规范性指引。此外，相关著作权人和公民的权利也应纳入此考量中，保护创作者权益和公民个人信息，平衡多方考量，维护社会公共利益。

生成式人工智能

训练语料的法律争议

1.生成式人工智能训练语料的输入端风险

数据是大模型训练的基础和命脉，从基础模型训练、算法优化到多模态应用拓展，数据始终贯穿其中。语料的质量和规模基本上决定了生成式人工智能模型的性能上限。互联网技术使数据流通变得更加便捷，在大规模语料数据获取过程中难免会产生“未经授权、许可而侵犯他人享有的著作权”“未经个人同意获取、处理个人信息”等情形，造成创作者著作权和个人信息被侵权的情况屡见不鲜，人工智能生成物的合法性因此也备受质疑。

互联网数据多而繁杂，人工智能企业逐一获取信息主体的同意或授权的难度大、程序烦琐，期待企业以传统授权路径获得数据已不太现实。语料数据体积庞大、形式多样、涉及权利主体分散，如果数据获得全部主体的授权，那么必将带来交易成本过高、效率低的问题。在面对大规模数据采集需求的情况下，数据爬虫技术虽能够节省大量时间与资源，但该方式已然超出了明显的正当性与合理性，构成对数据的非法获取。如不加以规范，人工智能产业的发展与著作权、个人信息安全等公众权益的冲突将愈演愈烈。

2.生成式人工智能训练语料的存储端风险

人工智能技术依赖于训练语料的规模和质量，对数据具有很强的依赖性。人工智能技术庞大的数据规模同时也面临着泄露的风险。首先是服务器网络安全引发的数据风险。在数据传输过程中，数据语料中的原始语料，尤其是敏感信息，极易成为被窃取的对象，造成大面积的数据泄露。除数据泄露外，人工智能在使用语料时可能会产生算法偏见。生成式人工智能训练数据偏见风险是一个多维度问题，涉及数据采集、数据标注、算法设计等多个层面。生成式人工智能目前仍需通过大量的人工标注，帮助人工智能校对和修正机器学习时出现的错误与偏离。

人工标注校正有两个主要方向：一是通过标注校正将人类的习惯性用语灌输给算法程序；二是通过生成表达的质量反馈评价，通过正负反馈生成偏向人类喜好的结果。利用这些方法极大地提高了人工智能模型的学习速度和质量，但在“机器学习+人工标注”的双重作用下，原本在设计初就带入人类偏见的算法，在人工标注的干预下，造成算法偏见的负面效应不断扩大。这种偏见可能会造成生成信息偏离现有事实，易滋生虚假信息、传播谣言等影响公众舆论、危害社会秩序的负面作用。

3.生成式人工智能训练语料的生成端风险

生成式人工智能因其功能的多样性，应用场景的不断拓宽，加之应用程序操作简便、上手门槛低，吸引了越来越多的用户使用。生成式人工智能能够在短时间内根据提示词生成使用者预想的文本、图像、音频甚至视频等内容，其强大能力给许多领域造成巨大冲击。

一方面是对知识产权领域的影响。许多人工智能生成物都是基于原语料数据进行编纂、加工润色、跨模态创造及转化。生成物是否侵犯原有作品、享有知识产权保护及权利归属，给当前知识产权法带来了挑战。支持者认为人工智能生成物只要具有独创性和创新性便可受到知识产权保护，反对者则认为人工智能生成物不过是算法与语料数据的结合，并根据提示词生成预先训练的内容，无法称之为智力劳动。

另一方面，生成式人工智能也存在着被恶意使用的危险。生成式人工智能强大的学习能力，能够快速模仿并创造出新的内容，深度伪造、误导性信息传播等利用人工智能技术的过限行为进行诈骗与侵犯个人隐私，对社会公共秩序与信赖利益造成隐患。

生成式人工智能语料

合规使用的治理路径

1.公共领域保留

公共领域保留是指在承认创作者享有权利的基础之上，将部分知识与信息保留在公共领域当中，不进行私人赋权，让其他创作者将来共同使用。公共领域保留的存在是对私权的一种合理限制，作为知识产权保护的反面体现了对社会公众利益的考量。生成式人工智能技术离不开现有作品的喂养，基于语料数据对人工智能模型的重要程度，有必要适度拓宽公共领域保留，给予后来创作者一定的创作空间，限制著作权的不合理扩张。

知识产权保护的诞生本意就是在私权利与公权利之间寻求一种平衡，不仅要尊重创作者的脑力劳动，也要维护社会利益的长久发展。对知识产权的成果给予保护能够有效鼓励再创作，但是技术的革新需要从公共领域中获取，任何作品都不是纯粹的私人创作，是需要通过前人的积累而产生的。值得注意的是，当前生成式人工智能模型语料的获取几乎以盈利为目的，同时语料数据也已经超过了“使用”范围本身，可能还涉及复制、改编等行为，如不加以平衡，则与立法目的相悖。人工智能技术发展是不可阻挡的时代潮流，要把握技术发展与知识产权人之间的平衡，注重语料数据获取与经济利益分配之间的关系，实现可持续发展。

2.完善数据交易规则

当今社会是数字的社会，人工智能技术的发展也离不开语料数据的喂养，数据的重要性不言而喻。传统的知识产权法和交易模式已无法应对人工智能技术发展的需求，生成式人工智能语料获取的风险不断提高。作品授权与合理使用是语料获取的核心难题，确保获取的每一项非公领域的语料数据都能够获得授权和同意，避免后续的法律风险，对于企业来说流程烦琐且难度较大，完善的数据交易规则不可或缺。

推进语料数据平台的建设，率先建立起公共领域的语料数据库，让公共语料数据可免授权直接获取使用，明确开源与付费的界限，降低企业的侵权风险。语料库平台方涉及授权、购买、加工、汇集等环节，需对语料数据进行统一集中管理。知识产权人可以将自己的作品上架数据库平台，或者授权数据库运营方代理出售给企业，既可明确授权也可概括性授权。平台方作为中间人，在知识产权人与人工智能企业之间建立起隔离机制，规避两者之间的直接冲突，规范企业的获取行为，体现对知识产权人权益的尊重。平台在加工环节应当对涉及隐私等私密信息进行数据清洗、修正，确保语料数据真实合规，能够达到描述的质量。

在责任承担方面，语料库平台应当按照与知识产权人约定的范围对外授权，如果平台构成了表见代理，则应由平台单独对知识产权人进行赔偿。企业则应当依规合理使用语料数据，在合规使用的情况下，如有权利人主张侵权事由，企业为善意相对人不承担侵权责任，由平台单独承担。

3.构建多元治理体系

生成式人工智能收集的数据包罗万象，几乎遍及社会的各个角落，随之而来的便是侵权的风险增加，整个人工智能产业链的各个主体都有可能成为相关责任的承担者。因此，应推动社会多方主体共同协作参与，形成全方位、全链条的多元治理体系。

在法律法规尚不到位的情况下，可以采取敏捷治理模式，将技术与现有法律相互配合，建立起预防与快速反应的配合体系。明确主管负责部门，便于统一规范，防止部门之间职能冲突，互相推诿。建立人工智能行政许可制，对提供人工智能语料库和向用户直接提供人工智能技术的企业进行技术审查，降低语料数据与敏感信息直接泄露的风险。

从人工智能产业发展方面，人工智能企业应当对生成内容负有审查义务，由于存在“算法黑箱”问题，无法完全预测生成的结果是否符合规范，因此需要利用技术手段对生成内容进行初步预审核，确保生成内容符合法律规范和道德规范，避免侵犯知识产权与他人个人信息。

从用户角度，在使用人工智能软件时应当注意个人信息保护，不要上传个人信息，防止信息被非法搜集。加强对深度伪造内容辨别的学习，提升网络安全意识，更好识别诈骗链接与钓鱼软件，保护个人数据信息不被泄露。政府、企业和个人应共同努力，构建安全和谐的信息社会。

责编：左右

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：gaochanggong@szw.org.cn

今日头条号

搜狐号

订阅号

服务号

生成式人工智能训练语料的法律风险及治理