OECD人工智能研究报告中文版.pdf

内容摘要
人工智能(AI),尤其是生成式AI的迅猛发展,为知识产权(IP)领域带来了复杂的挑战。AI模型的开发、测试和验证高度依赖大规模数据集,导致对训练数据的需求激增。一种广泛采用的方法是“数据抓取”,本报告特指从第三方网站、数据库或社交媒体平台自动提取信息的行为。当数据抓取未经权利人同意或未支付报酬时,会直接影响知识产权保护作品的创作者和所有者。此类活动可能涉及多种知识产权及相关权利,包括版权、数据库权利、商标权、商业秘密、肖像权及人格权。
围绕数据抓取的知识产权法律环境复杂且快速演变。现行知识产权法律多制定于现代AI实践兴起之前,且不同司法管辖区存在差异,使得其适用性变得复杂。数据抓取常涉及受知识产权保护的内容,引发关于侵权、例外条款(如合理使用或文本与数据挖掘/TDM规定)的适用性,以及遵守合同条款等问题。抓取受版权保护的材料会引发关于其收集或使用是否构成侵权的疑问。此类诉讼在全球范围内日益增多,美国、欧盟及其他地区已出现多起具有影响力的案例。此外,对AI生成内容(尤其是未经授权模仿个人风格、声音或外貌的输出)的担忧,正促使各方采取多样化的法律应对措施,以保护权利并防止滥用。
数据抓取已成为普遍实践,但其涵盖多种方法且缺乏普遍认可的定义。该术语常与“数据挖掘”(指通过计算过程识别模式、趋势和关联的流程)及“网络爬虫”等技术混淆。本报告指出定义不一致的问题,并提出了一个广泛的工作定义。数据抓取的流程通常包括数据收集、预处理和使用。报告分析了不同的抓取技术,并强调需要采用通用/标准术语以及对这些方法进行明确区分。
数据抓取生态系统中不同参与者的行为引发了多样的法律问题。部分参与者利用数据抓取支持研究及其他活动,这表明需要针对不同使用场景制定相应的政策工具。该生态系统主要包括研究机构和学术界、AI数据聚合商、以及科技公司和平台运营商。研究机构和学术界常通过数据抓取收集数据用于学术和科学目的。AI数据聚合商被指控将抓取的数据提供给第三方,往往缺乏明确的许可条款或数据来源披露,引发知识产权及其他法律问题。科技公司和平台运营商则既是数据抓取的主要目标(数据来源),本身也常是数据抓取的实践者。
为引导数据抓取在国际协调框架下走上负责任的发展路径,制定“数据抓取行为准则”、推广标准合同条款、开发标准技术工具以及提升认识倡议。若能吸纳包括权利持有人、研究人员、AI开发者、民间社会及政策制定者在内的广泛多元利益相关方意见,此类规范将尤为有效。
·自愿性“数据抓取行为准则”:可确立普遍适用的条款,并为AI生态系统中
不同参与者(如AI数据聚合商与抓取数据使用者)提供具体指导。准则应包含标准术语以确保共同理解,可纳入监测遵守情况的机制(如注册系统),并就透明度和文档实践提出建议。最后,可包含标准合同条款。
·标准技术工具:可帮助保护知识产权,使权利人更便捷地管理自身数据的访问
权限,例如数据访问控制机制、自动化合同监控和直接支付系统。标准化工具能简化组织的合规流程,并助力权利人在多个平台上保护其权利。
·标准合同条款:可解决与数据抓取相关的法律和运营问题。这些条款可作为可
选起点,允许组织协商特定条件。其制定将受益于多利益相关方合作,并可针对不同应用场景(从非营利研究到商业应用)进行定制。
·提升意识倡议:赋能利益相关方了解数据抓取及其法律影响,获取保护和管理
自身权利的信息。这包括帮助权利人理解保护措施、教育AI系统用户负责任使用,以及确保AI数据生态系统中所有参与者明确自身角色与责任。

引言
人工智能(AI),尤其是生成式人工智能(GenAI)的兴起,正在知识产权(IP)领域引发一系列复杂问题。
知识产权法律历来通过保护创作者权益来激励创新,促成具有价值的产品、技术及其他创作成果(统称“创作成果”)的产生,为社会带来巨大福祉。尽管不同司法管辖区的法律存在差异,但其核心原则具有共性:通过授予权利人对其创作成果的特定专有权利来保障其利益。这些法律框架旨在激励创新、促进创造力,保护个人和企业开发的智力资产。
为了平衡知识产权所有者的权利保护与更广泛的社会利益,知识产权法律通常包含有限的、具体情境下的例外规定,允许第三方在特定条件下无需获得权利人许可即可使用受保护的作品。例如,部分版权法允许在满足特定要求时将受版权保护的作品用于非商业或其他有限目的。某些例外规定要求支付费用,而另一些则无需支付。此外,知识产权保护通常具有期限性,权利到期后作品即进入公共领域。
尽管各国知识产权法律存在差异,但国际条约在全球范围内促进了知识产权权利和原则的协调。这些条约包括由世界贸易组织(WTO)管理的《与贸易有关的知识产权协议》(TRIPS协议),以及由世界知识产权组织(WIPO)管理的《伯尔尼公约》、《巴黎公约》和WIPO“互联网条约”等关键公约。这种协调确保了基本的一致性,特别是在版权和商标保护等领域(详见第32节)。
与版权和商标法不同,商业秘密法主要通过禁止未经授权的使用或披露来保护保密信息,而非授予开发者专有权利。知识产权保护涵盖各种载体和格式的材料,包括文件、软件、照片和图形作品等。部分司法管辖区还承认独特的(sui gcncis)权利以保护特定类型的材料。例如,欧盟(EU)设立了专门的数据库权利(欧盟,1996)。此类专门保护措施有助于应对知识产权在数字时代演变的特性。
知识产权保护被认为对全球创新做出了重大贡献,包括构成AI基础的要素(如通过开源或其他许可提供的受版权保护的软件)。重大突破通过开放科学出版物和开源计划得以实现,推动了语言模型的广泛应用和显著进展。例如,谷歌开发并公开发布的“词向量”
(Word2Vec)技术革命性地改变了自然语言处理领域,加速了高级文本分析技术的发展(Mikolov,Chen,Corrado,&Dean,2013)。这种融合专有创新与开放创新的多元生态系统,凸显了维护强大、有效且可预测的知识产权框架对于持续支持AI及其他领域创新的重要性。
尽管本文重点探讨通过数据抓取获取数据训练AI模型所引发的知识产权考量,但需承认AI与知识产权的交集贯穿于整个AI系统生命周期。例如,当生成式AI系统根据用户提示生成新内容(“AI生成输出”)时,便引发了这些输出是否应受知识产权保护的问题。目前,许多司法管辖区要求人类参与才能获得版权保护,但关于所需的人类参与程度以及权利归属问题仍待解决(Mammen等,2024)。
当AI生成输出被指控侵犯第三方知识产权或造成其他损害时,复杂的责任问题随之出现。这些问题因AI系统运行于涉及多方(从上游供应商到下游用户)的价值链中而变得尤为棘手。此外,跨境AI运营会引发管辖权问题(详见第三章)。本报告虽探讨了与数据收集及AI输出可能模仿输入数据相关的问题,但不深入探讨更广泛的责任问题或AI生成内容的知识产权资格问题。特别是,报告不讨论由AI生成专利发明或共同发明所引发的问题。
本报告旨在概述数据抓取背景下AI与知识产权的关键问题,助力深入理解数据抓取实践、相关技术、参与方以及全球法律与监管应对措施。报告最后提出初步考量和潜在政策方向,以指导政策制定者释放AI创新潜力的同时保护知识产权及其他权利。在此过程中,报告与经合组织人工智能原则[OECD/IEGAL/0449保持一致,该原则倡导发展和使用既创新又可信赖的AI,同时尊重并管控与知识产权等权利相关的风险。此外,本报告亦为经合组织关于增强数据访问与共享的建议(EASD建议)[OECD/LEGAL/0463的讨论做出贡献,该建议旨在最大化数据访问与共享的益处,同时促进可信度并保护个人和组织的权利(包括知识产权)。
尽管数据抓取在隐私、数据保护及相关领域引发重大关切,本报告聚焦于其对知识产权的影响。隐私与数据保护问题正通过经合组织及其他相关机构的补充工作进行探讨,包括由经合组织数据治理与隐私工作组(WPDGP)和经合组织人工智能治理工作组(WPAIGO)联合设立的经合组织人工智能、数据与隐私专家组(OECD.AI Expert Groupon AI,Dara,andPrivacy)。该专家组正在分析AI与隐私的交叉领域,特别是当AI训练数据包含个人数据时的挑战。其既往及当前工作通过考察收集和处理AI训练数据的各种方法,补充了本报告的分析,有助于确保隐私考量充分融入更广泛的数据治理框架,实现更全面的治理路径(经合组织,2024)。
这些努力与更广泛的国际倡议协调一致,例如英国信息专员办公室(ICO)于2023年8月发布的、由全球十二个数据保护机构共同签署的关于数据抓取与数据保护的联合声明。该声明强调了全球协作应对数据抓取相关隐私风险的迫切性(ICO,2023)。
“数据抓取”用于收集数据以训练人工智能系统,面临重大挑战
近期人工智能(AI)技术,尤其是生成式人工智能(GenAI)的迅猛发展,给现行知识产权(IP)框架带来了若干新的政策挑战。各国政府已开始关注并积极思考应对之策。例如,2023年日本担任七国集团(G7)主席国期间,G7领导人明确将生成式人工智能引发的知识产权侵权问题列为主要风险之一(经合组织,2023)。
知识产权政策挑战可能在AI系统生命周期的早期阶段(即数据收集与处理阶段)就已显现。这一阶段涉及将数据汇总用于训练、微调、测试或验证AI模型和系统(如生成式AI系统)(OECD,2023)。开发高性能的生成式AI及其他基于机器学习(ML)的AI系统,通常需要访问海量数据(即AI训练数据)以提升其准确性和性能(Clark&Perrault,2022)。AI训练数据可能包含个人身份信息、事实、创意内容、软件、音频文件、视频、数字图像乃至几乎任何形式的数字内容。
AI输入数据可通过多种方式收集,其中包括数据抓取——即AI系统开发者在未与数据托管实体协调的情况下,从第三方网站或社交媒体平台自动提取信息。尽管利用数据抓取为AI系统收集数据并非全新实践,但其使用规模随着生成式AI的爆发式增长而显著扩大(Metz,Kang,Frcnkel,Thompson,&Grant,2024)。
数据抓取活动跨越司法管辖区,引发了诸多紧迫且可能相互冲突的隐私、知识产权及其他政策问题。
积极方面:若以负责任的方式进行,AI数据抓取可提供获取多样化海量数据的途径,这对推动AI研究与创新、开发高性能生成式AI系统至关重要,并符合经合组织人工智能原则[OECD/LEGAL/0449。增加对可靠且多样化合法来源的AI训练数据的访问,有助于减少潜在的偏见和其他危害,并通过开发服务于历史欠发达社区的本地化AI工具来帮助缩小数字鸿沟(Chason,2024;Lce &Lai,2022;Chen,Wu,&Wang,2023;Hall,Vassilev,Grcene,Peine,&Patrick,2022)。
风险挑战:另一方面,若缺乏适当的防护措施,用于训练AI模型或系统的数据抓取可能侵犯知识产权、隐私权及其他权利,威胁安全,并导致其他危害。
从知识产权(IP)视角看:风险评估通常聚焦于数据抓取是否侵犯了AI训练数据中存在的知识产权(如版权、商标权、商业秘密等)。然而,其他相关知识产权问题同样值得关注:数据抓取实践是否非法移除了嵌入在AI训练数据中的权利管理信息(RMI);是否绕过了保护这些数据的技术保护措施(TPM)以及是否违反了涉及知识产权保护数据的合同条款。

本文来自知之小站

 

PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)