李士林黄诚 | AI智能学习的版权侵权，抑或数据权益妨害？—

一、生成式人工智能学习训练的技术管窥

二、训练学习牵涉版权使用的考察

三、合理使用路径的效果评价

四、文本和数据挖掘的例外

五、人工智能训练的数据共享与限制

·结论

内容提要

生成式人工智能学习训练的内部过程为数据运算、提取、重组的技术实现步骤，对外并无表达的生成，没有讨论侵权与合理使用的必要。就数据搜索复制、改编和生成的表达可能侵害版权，文本和数据挖掘的版权例外针对的是训练前的复制、改编等行为，没必要将数据挖掘的内部训练过程纳入考虑。

生成的表达性内容是否侵权由版权法规范，即便文本和数据挖掘的例外规定并无考虑生成内容的侵权问题。训练前数据的获取更多关涉数据共享和流通制度，欧盟和我国就数据共享已有初步议案和规范，也许可以为生成式人工智能提供数据权益的思路转向。

2023年1月23日，美国三名漫画艺术家针对包括Stability AI在内的三家AIGC商业应用公司，在加州北区法院发起集体诉讼，指控Stability AI研发的Stable Diffusion模型以及三名被告各自推出的、基于上述模型开发的付费AI图像生成工具构成版权侵权。2月15日《华尔街日报》记者弗朗西斯科·马可尼（Francesco Marconi）也公开指责，Open AI公司未经授权大量使用路透社、纽约时报、卫报、BBC等国外主流媒体的文章训练Chat GPT模型，但从未支付任何费用。7月19日近 8000 名作家联名纽约著作人协会（Authors Guild），要求 OpenAI等涉及生成式 AI 的公司，在使用受到版权保护的内容训练模型时，必须取得作家的同意，并给予原作者资金补偿。

近日，天津自贸区法院审理了一起被告利用爬‍虫技术实时抓取原告新闻转载平台的新闻内容，直接向用户推送。法院认定被告构成不正当竞争，侵害原告新闻数据的竞争性利益。本案中，新闻本身并非我国著作权法保护的客体，但被告侵害他人数据权益的行为构成侵权。

ChatGPT等生成式人工智能系统在训练自己的大模型系统时，所投喂的原料，多为他人享有著作权的作品，或者构成他人数据库中的数据内容，那么AI公司可以自由使用这些作品吗？抑或未经许可的使用侵犯著作权？不受著作权保护的内容可以自由搜集和访问吗？人类为解决人工智能生成式技术的发展与版权的冲突进行了哪些有益的探索？新近讨论的数据权益及其规范可为该问题贡献思路吗？下文以这些疑问为导向，从著作权法和数据权益层面予以讨论，尝试为读者展现问题的脉络和解决的路径。

一、生成式人工智能学习训练的技术管窥

对于人工智能如何获取训练的数据，较普遍的看法认为，大公司，能够从自己的组织内部生成必要的数据，而中小企业更多从免费提供的网站收集此类数据。对于如何使用资料进行训练的问题较笼统的说法是，网页抓取工具自动搜索网页以查找合适的材料，然后对其进行处理和存储以用于AI培训。那么训练数据的来源是否涉及对版权作品的使用，具体使用的方式是否落入版权所授予著作权人的复制、改编和传播等权利范围，人工智能生成的表达是否属于合理使用的版权例外，抑或仅涉及对作品文风、体裁等思想成分的模仿与重组？诸如此类的细节性问题，不是笼统地使用和学习所能概括，应当深入技术内部充分说明其使用作品的详情。

简单来说，生成人工智能是人工智能的一个子领域，其中计算机算法用于生成类似于人类创建的内容的输出，无论是文本、图像、图形、音乐、计算机代码还是其他内容。在生成式 AI 中，算法旨在从包含所需输出示例的训练数据中学习。通过分析训练数据中的模式和结构，生成 AI 模型可以生成与原始输入数据共享特征的新内容。其工作原理概括说来为，训练模型涉及向算法提供大量数据，包括文本、代码、图形或与手头任务相关的任何其他类型的内容。收集训练数据后，AI 模型将分析数据中的模式和关系，以了解管理内容的基本规则。AI 模型在学习时不断微调其参数，从而提高其模拟人工生成内容的能力。

审视其工作原理，大致可以了解包括版权作品在内的语料使用方式，即大量的数据（文本转码为数据）提取到训练模型，采用一定的算法对数据进行分析、提取和归类等，这类似于人脑神经网络的启发学习过程，然后系统接收用户命令请求后，依照最接近命令的特征要求，从系统提取出共同特征的内容输出成信息。对于机器系统而言，其内部处理的为数据，即代码，所有外部视觉可见的素材必须转码为数据，以计算机能读懂的方式予以编码，打乱、归纳、重组，接收指令后激发提取、组合，最后仍输出为用户可见的信息。

我们可以用医疗人工智能训练的过程，展示喂料与结果如何使用原始的医疗数据。

第一步，需要大量的，比如数百万份的电子健康记录的数据，数据越多分析的结果也更准确，胜任的任务量也更多。

第二步，将数据纳入基础模型，运用算法，实现多个不同的任务。

第三步，对基础模型进行微调，使其适应特定的任务。这里列举的任务包括问题回答、图表总结和图像分析、风险分层和寻找相似的患者，等等。

第四步，人机协同工作，人类可以通过自然语言交互与 AI 进行沟通，分析结果，理解需求。

在整个过程中，医疗数据是系统学习的原始资源，在学习过程中经过编码、拆分、重组、解析和提取等一系列的运算后，形成智能医疗数据库，然后在用户的需求下，输出结果。这中间大量数据的清洗、归类和重组后，从最终结果中找出与原医疗数据相同的数据是非常小的概率事件，当然前提是医疗数据的使用遵从个人信息保护法的规则，经过脱敏和清洗，编码为数据，无法再逆向析出个人信息。医疗数据的事例，从法律层面上核心的关注点为个人信息的权利与使用规则，脱敏后处理的数据与个人信息并无瓜葛，除非数据析出后的信息侵害了个人信息权益。

二、训练学习牵涉版权使用的考察

腾讯研究院的研究者以“Stable Diffusion”为例，剖析了该模型对版权作品的利用。Stable Diffusion模型对版权作品的利用存在于两个阶段。

第一，AI模型训练阶段。Stable Diffusion利用版权作品训练内部组件“图像编码器”（U-Net模型），辅之以“Clip文本编码器”（Text Encoder模型），最终做到只需输入一段描述性文字，即可生成对应的图像内容。

第二，AI模型应用阶段。Stable Diffusion经过充分训练后，可以依据用户给出的文本输出最终图像。该成像AI利用扩散工作原理，给定足够大的数据集，扩散模型可以学习复杂的操作，利用噪点算法来创建大量训练示例来训练图像生成模型的核心组件—噪声预测期，在特定配置下运行时，将创建图像。训练数据和输出图像均采用了压缩版本的编码和解码组件，在文本编码器的作用下将用户的文本提示转换成图像请求。

根据两位研究者的观察，“Stable Diffusion”在训练模型前，需要先将作为训练数据的作品从相应网络地址下载并存储，以形成版权作品的副本。然后，对作品进行编码后，将其输入至“图像信息空间”的改编。较之于对作品的直接下载与存储，过程对作品进行了噪声添加与编码（压缩），未在“图像信息空间”“无差还原”原始版权作品，但其仍保留了作品内容中最关键、本质的特征，应当认定为版权法意义上的改编。最后，在输出图像内容时，若去噪与解码后生成的内容，与原作品在表达上构成“实质性相似”，则落入“复制权”的规制范围；若不构成“实质性相似”，而是在保留作品基础表达的前提下形成了新的表达，则可能构成对原作品“改编权”的侵害。从版权法来看，根据上述传播生成内容的方式是交互式或非交互式，即是否能使公众在自行选定的时间和地点获取，还可能分别落入“信息网络传播权”与“广播权”（网络直播）的规制范畴。

其实，对作品的编码，很难认定为改编。改编是指改变作品，创作出具有独创性的新作品的权利，改编作品源于原作，而又高于原作，如果改编完全与原作不同，那属于新作品；如果改编与原则实质相同，那属于复制或抄袭，并非著作权法上的改编。意即改编需要保留原则独创性特征，但又增加了新的独创性内容。

“Stable Diffusion”在训练模型下载和存储图像作品的行为可能涉及对作品的复制或暂时复制，但将图像作品转码为机器可处理的代码（噪点），很难认定为改编，因为图像转换为大量的噪点，相当于将作品逆向还原为点线面、色彩、方位、坐标等元素，并非保留了作品最关键、本质的特征，而是大量元素的数据集合，这个转码的过程甚至都无从作品的表达体现，何来的改编作品呢？

当然，在用户指令下的输出图像，如果与原享有著作权的图像构成实质相似，那么输出性表达可能构成对原作的复制权侵害。至于可能落入“信息网络传播权”的规制范畴一说，难以证立。即便用户输入指令获得想要的图像表达，也不是在选定的时间和地点就能够获得，需要依照自己的意愿，依照自然语言文本才能调出所需要的图像，然后再通过不断调整，完全达到自己的意愿。这等同于订阅式的网络传播，或者自我决定式获取，并不是点击系统就可以自然获得图像作品的结果，并不在信息网络传播权的控制范围之内，遑论侵害信息网络传播权呢。

从法理哲学视角审视，结果论者认为最大化效用就是规则追求的结果。就版权侵权而言，侵权人所表达的内容如果与原作品存在实质性相似，就存在侵权的可能。从作品这一结果出发，衡量侵权与否，就应当是版权所追求的最大化效用，至于行为人创作过程中的复制、改编，还是其他演绎作品，无须过问，除非在侵犯改编权等特殊的场景中才予以考虑。如果经过实质性相似结果主义的考量，发现新作品与原作存在部分实质性相似外，新作品尚增加了另外的独创性部分，那么就转而以改编权衡量，源于原作高于原作的新创侵害了改编权。

正如“琼瑶诉于正”一案法院认为，“剧本《宫锁连城》在整体情节排布及推演过程与剧本《梅花洛》、小说《梅花洛》基本一致，导致整体上的相似性，构成改编的事实”。以结果论而言，“Stable Diffusion”模型是否侵害他人的作品，无须关注于其训练学习的过程，只要在用户指令下输出的图形构成与他人作品的实质性相似即可断定为侵权，除非存在侵权例外。

另外，与结果论相对的道义论坚持对道德原则的违反不能通过结果的正当性予以正当化，行动的正确与否取决于该行动是否被道德义务所要求、禁止或者允许。著作权法所遵从的道义即为洛克的劳动论，即智力劳动者在公共领域内添加了智力劳动性的东西，这增加的东西自然属于劳动者本人，这符合自然法。如果坚持行为的道德性评价，那么著作权法所创建的权利机制应当能够从行为本身的德性评价中获得支持。换言之，判断某行为是否侵权他人的著作权，应当从行为本身评价，而不应当仅仅关注于行为带来的结果。以行为论衡量，未经许可复制他人作品的行为，就可能侵害作品的复制权，而不论这种复制为内部复制，还是临时复制。这与主张著作权侵权采用过错归责原则的观点是一致的。但问题在于，合理使用也存在复制的情节，因而不能仅凭复制行为就断定侵害复制权。复制权内在要求以再现作品的方式公开使用作品，影响到作品本身的市场利益和正常的权利行使。

由是而论，“Stable Diffusion”模型在学习训练过程中，确实存在将搜集的作品先行复制到自身系统的行为，但是这种复制如果没有面向用户，并未影响到作品本身的正常市场利益和权利行使，何来的复制权侵权呢？

但是来自著作人协会的作家，以朴素的意识认为AI在训练模式时使用了大量作者的作品，却没有支付半毛钱给作者，当市场充斥着由AI撰写的书籍、故事和新闻时，将会威胁到他们的职业，随着AI的普及，这些作家将更加难以谋生。那么如何平衡新技术与旧利益之间的冲突呢？依赖技术，还是从现有规范中寻求新的解释和突破？

也许我们可以另寻途径，“Stable Diffusion”模型将作品等信息，转换为数据，依次经过运算、提取和重组，最后输出为用户需求的信息。除了纠结于信息的版权保护和侵权判定外，其实从数据权益的视角分析，也许能够找到更好的解决路径。模型采集的数据、加工处理、运算分析，最后输出数据的组合，用户端析出为信息。整个内部的流程涉及数据权益和数据规范，我们不妨以数据为关注点，解析AI智能训练学习的问题。

三、合理使用路径的效果评价

著作权制度建立的初衷就是通过权利激励社会知识增量，推动文化发展和繁荣。著作权制度从来不是一部财产垄断法，以往不是，现在不是，未来也不应该是。它只是在传承和创新前人知识基础上就创新部分给予的一定期限垄断权。正如现代著作权制度萌生之时，英国所争议的私人与公共领域之间的界限，应当以作品的独创性表达为限，思想、原理、体裁、风格、语言等思想性成分和公共领域元素不能为私人所垄断。即便独创性的成分，在不涉及法律所创设的垄断权之外，公共仍具有使用的自由。现代著作权法在司法判例和理论抽象的基础上逐渐确立了合理使用原则，尤其是美国法院形成的合理使用四个规则，对现代著作权立法产生了重要的影响，成为1976年美国著作权法合理使用制度的基石。

我国著作权法以“一般条款+特殊情形”的模式规定了合理使用制度，当可应对传统环境下的私人使用，但是针对人工智能大量投喂或学习现象，无法直接援引合理使用的直接规定。那么人工智能的训练学习属于个人合理使用的范畴吗？是否可以适用版权例外？如上分析，如果直接认定人工智能训练的对象为数据，并不指向具体的著作权信息，显然又与“数据为信息载体，载体与内容不可分”的认知相悖。究竟人工智能的学习是合理使用制度适用技术可解决的问题，还是新技术对旧制度提出的变革需要，抑或著作权法之外的另类新问题？

如果不考虑信息与数据之间的转换以及两者间的规范关系，那么仅就版权法意义上而言，人工智能的“搜集—复制—改编—汇编—输出”等一系列的内部或外部操作，可能落入著作权法设置的复制权、改编权、汇编权和传播权的边界内，引发著作权侵权。如上分析，人工智能的内部处理也可能对著作权的正常使用和市场利益不构成任何影响，属于公共领域内的学习自由行为。对此情形的假设，我们一并纳入合理使用制度予以分析。

吴汉东先生在《著作权合理使用制度研究》的论著中将合理使用的分析分为两种情形，一是科教领域内的数据挖掘例外，二是商业领域内的合理使用。针对数据挖掘行为，留待后文解析。就商业领域内的合理使用，吴先生将其分为三种类型：

其一，非表达型机器学习。由于非表达性机器学习的目的在于提取事实信息、实用性设计思想和功能性特征，这些元素本身并非著作权保护的内容，而且人工智能的使用不会与原作品争夺市场，一般为合理使用行为。

其二，普通的表达型机器学习。正如本文开篇述及美国作者协会所指控的那样，以表达性为目的，大量使用享有著作权的作品，形成与原作品具有市场竞争关系的创造性表达，减损作品的市场价值，侵害了作品的著作权。吴先生认为谷歌从大量作品中提取高频出现的语言模版，形成作者共同体内部通用的表达模型，并非利用作品中受版权保护的表达性内容，构成合理使用的可能性较大。

其三，私人订制的表达性机器学习。本情形旨在模仿和重现某一作家的作品，体现了某一作者一贯的个性化表达，属于典型的表达性使用，构成合理使用的概率非常小。也许正如Greg Rutkowski所指控的，Stability AI公然打着“能够生成Greg Rutkowski风格作品”的旗号上架相关模型市场，是一种赤裸裸的（无视版权）挑衅行为，对整个艺术行业构成威胁。由于认定人工智能生成的内容很大程度上挤压与替代被使用作品的原有市场，因而合理使用的要求很难满足，即便依照美国的合理使用四要素分析，也同样如此。

其实，吴先生在分析人工智能是否构成合理使用时并没有纠缠于人工智能搜集和储存是否侵害版权，而将分析的焦点集中于人工智能生成物与原作品表达之间的实质性相似的判断，如果使用了作品的表达性成分，甚至模仿和再现原作品，那么合理使用的抗辩就无法成功；如果使用作品的目的在于总结和计算表达规律，那么人工智能形成的表达物为大众化表达，属于转换性合理使用。换言之，原作品只是人工智能处理的素材，而不是最终生成的结果，我们不能因为用户购买了食材，出售者就可以对做好的食物拥有权利。

就科教领域内人工智能是否构成作品合理使用的问题，吴先生并没有沿着著作权法框架内的合理使用制度分析，而是转向了“文本和数据挖掘”，以其他国家和地区成文法或判例法确立的文本数据挖掘的著作权例外为例，解释人工智能训练的非侵权情形。当然，也可以说数据挖掘例外仍然属于著作权制度的范畴，是现有合理使用制度的拓展。

四、文本和数据挖掘的例外

文本和数据挖掘，是指为了获取新知识或者信息，对任何数字资料（包括文本、数据、图片、声音等）的自动化分析。依照欧盟《单一数字市场版权指令》第2条的定义，“文本和数据挖掘”是指任何旨在分析数字形式的文本和数据的自动分析技术，以便生成包括但不限于模型、趋势、相关性等在内的信息。英国有关文本和数据挖掘政策给出的定位为：“文本与数据挖掘指基于计算机的从文本或数据中提取、组织数据的过程，通过大量复制存储素材、提取数据并重组其识别模式、趋势和假设，或通过一定的方式重组挖掘到的信息”。我国对生成式人工智能技术的定义为，具有文本、图片、音频、视频等内容生成能力的模型及相关技术。从定义看，狭义的文本和数据挖掘仅仅指向的为人工智能的训练和学习过程，并不指向训练之前的搜索和复制等准备工作，也不管控人工智能生成后的内容是否侵犯所投喂素材的版权。换言之，文本和数据挖掘针对人工智能的内部处理数据的过程，不判断数据析出信息的行为和结果。广义的文本和数据挖掘将人工智能的整个运行过程全部囊括在内。

欧盟《单一数字市场版权指令》为文本和数据挖掘规定了两项例外：

一是，科研机构和文化遗产机构为科学研究目的进行文本和数据挖掘，对其合法获取的作品或其他内容进行复制与提取的行为；

二是，以文本和数据挖掘为目的，对合法获取的作品或其他内容进行复制与提取的行为，但著作权人反对的例外。“两项例外”的适用要件为：限于合法访问的数据；使用目的限于非盈利性学术和科研单位；著作权例外的方式主要包括复制、提取和适合目的方式的储存。

与欧盟版权指令相比，英国的数据挖掘政策有所拓展，英国知识产权局提出了两个方面的新动向：

第一，在使用目的方面，是否可以覆盖商业目的的数据挖掘；

第二，在适用主体方面，是否扩张到研究机构和文化遗产保护机构以外的主体。

在主要争议之外，英国知识产权局还补充说明了以下几点：

第一，在数据挖掘完成后，若使用者在未经版权人许可的情况下输出所使用的作品，仍有可能构成版权侵权行为；

第二，除非获得许可或者例外，数据挖掘系统复制数据将构成版权侵权；

第三，权利人是否有权选择退出以及对于退出行为有何限制尚无定论。

日本采用了著作权合理使用制度的解释，应对文本和数据挖掘。2018年日本《著作权法》修订中增加了“灵活的权利限制条款”，为人工智能技术爬取与利用版权作品创造了条件。新条款规定，如果互联网公司对作品的使用“不侵害著作权所有者利益”或者“对所有权的损害程度轻微”，则可不经权利人许可而直接使用。

美国并未以法律条文的形式承认文本与数据挖掘的正当性，而是在多项司法判决中对文本数据挖掘的使用予以了肯定。在谷歌数字图书馆系列案件中的HathiTrust案中，法官认为，创建数字复制件并提供给用户的行为构成了合理使用，因为创建全文检索数据库是构成转换性使用的典型做法之一，原因在于关键词搜索的结果具有与原文不同的目的、特征和意义，即使谷歌下载并存储了整本书的完整数字副本也是如此。美国司法判决的既判力对文本和数据挖掘行为在法律上的正当性予以了高度认可。无论是否为商业性主体、亦无论是否为营利目的，只要满足“转换性使用”的认定标准，即可以被认定为合理使用。

我国《著作权法》除合理使用的一般条款外，并无关于文本和数据挖掘的例外规定。国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》就有关人工智能训练作出了框架性规定，具体要求为：

第一，数据来源合法；

第二，尊重知识产权；

第三，数据标注；

第四，训练数据来源、规模、类型的说明义务；

第五，生成内容的合法原则。

这些规定并不涉及版权合理使用的问题，其中训练数据来源说明义务为合理使用和作者拒绝等制度的未来构建提供了思路。如果说训练模型使用的作品需要向作者支付使用报酬或者说作者有权选择是否允许作为训练素材，那么训练数据来源说明无疑为作者提供了透明信息，以便作者有机会行使权利。

五、人工智能训练的数据共享与限制

上述的分析从人工智能训练涉及的版权使用以及文本挖掘的例外层面展开，人工智能训练搜集、复制、存储等过程在构成版权侵权的情形下，需要版权例外，为促进人工智能的发展提供制度保障。但是也应看到，人工智能训练的原料如果仅限于网络上的公开信息或者训练企业自有的数据，那么信息孤岛和结果偏见无法避免。真实、准确、客观的人工智能生产内容有赖于训练数据的质量、数量和广度，即便行业内的专业性人工智能技术也有赖于多个同质和相关行业的大数据。如何访问和分享数据就成为制约或促进人工智能技术发展的规范关键。

理论上而言，任何数据库或者数据集只要给定生成式人工智能访问端口，其就可以训练和学习所有的数据，关键的问题在于除了有限的合同商谈外，数据库或数据集的权利人是否有义务无偿开放访问的端口供人工智能使用？或者数据库所有人是否享有对数据库中数据的支配权和垄断权？准确回答这些问题，就有赖于数据库或数据权益的制度规范适用。

早在1996年《欧盟数据保护指令》明确赋予了数据库的特别权制度，以便阻止任何第三方对数据内容的全部或者部分实质性提取和再利用，以及重复、系统地提取或再利用数据库非实质部分与数据库的正常使用相冲突，且不合理的损害数据库所有人的合法利益。数据库特别权包括两项权能，即摘录权和再利用权。美国的数据库法案将其扩展为“任何未经数据库制作者授权，不得以与数据库制作者对数据的正常利用相冲突的或对其实际或潜在市场造成不利影响的方式，使用数据库的全部或实质部分”。依照这些规定，提取和利用他人数据库的实质部分或多次提取，需要经过特别权人的许可。这可以用来规范部分人工智能的文本和数据挖掘行为，也就是说数据挖掘可能侵害他人的数据库特别权。但是由于特别权不适用于网络环境下生成的数据及数据库，所以其适用的范围有限。

数据如何访问、提取和重组等使用规则的构建，有赖于数据产权制度的明晰。欧盟的数据法提案提供了适用于所有“数据”的更广泛的规则，其中包括“行为、事实或信息的任何数字表示以及此类行为、事实或信息的任何汇编，包括声音、视觉或音像记录的形式”。数据使用规则涵盖了所有部门在使用各种数据方面的企业对企业以及政府对企业数据的各个方面。数据持有者与数据接收者可以商定提供数据的条款，并进行合理的数据使用费用补偿，当然合同必须在公平、合理和无歧视性的原则下进行。这就一定程度上有效解决了数据之间的共享和流通问题。对于人工智能训练需要的数据，可以通过合同的方式获取。

我国尚无国家层面的数据共享和访问规范，《反不正当竞争法》修正案征求意见稿增加了第18条“商业数据专条”，针对以企业数据为核心的商业数据，构建一定排他权的弱权利保护机制，以确定性、事先可识别性和保护措施作为受保护的构成要件，以促进数据的生成和数据的流通利用。该条允许数据企业之间互相访问和提取，但是不能开发相争竞争的数据产品，或者采用非法访问的方式获取数据。受限于商业秘密保护和技术措施的限制，该条款很难说在促进数据共享方面起到多大的作用，只能说为数据共享提供了竞争法的思路。未来开放数据规范体系的构建能极大地促进人工智能生成内容的发展，丰富人类的知识增量。

结语

人工智能生成式技术需要大量搜集含有版权的原料，经过复制、储存、运算、重组，等一系列运算操作，生成表达性内容。这可能牵涉对版权的侵害，构成复制、改编、传播等侵权。为了促进人工智能技术的发展，部分国家对文本和数据挖掘予以例外规定，缓解了技术发展与版权人之间的利益冲突。不无疑问的是，除了前期的搜索、复制和后期生成的表达内容外，人工智能处理的过程并无对版权人的市场和正常权利行使构成威胁和损害，为何需要版权例外处理呢？

鉴于人工智能前期的搜索和运算处理的对象均为数据，所以从数据规范视角审视和解决该问题可能更为妥当。不论欧洲的数据法案还是我国的数据专条，都为数据共享探索了相对可行的路径，虽然不完美，但至少找对了方向，迈出了可行的步伐。

江西省知识产权驱动创新的地方法制保障研究（21FX02），个人简介：李士林，南昌大学法学院副教授。

注释（上下滑动阅览）

【1】Jan Bernd Nordemann, Jonathan Pukas, Copyright exceptions for AI training data—will there be an international level playing field? Journal of Intellectual Property Law & Practice, Volume 17, Issue 12, December 2022, Pages 973–974.

【2】Owen Hughes. Generative AI Defined: How It Works, Benefits and Dangers, https://www.techrepublic.com/topic/artificial-intelligence/.

【3】Googleyun. Introduction to Large Language Models, https://www.youtube.com/watch?v=zizonToFXDs&t=525s&ab_channel=GoogleCloudTech.

【4】这里的分析，以我国的《个人信息保护法》为依据，其他国家所制定的个人信息保护法，在个人信息保护和脱敏使用规则上，并无本质的差别。

【5】朱开鑫、张艺群：《“你的AI侵犯了我的版权”：浅谈AIGC背后的版权保护问题》，腾讯研究院公众号2023-03-01日。

【6】Jay Alammar. The Illustrated Stable Diffusion, https://jalammar.github.io/illustrated-stable-diffusion/,访问于2023-07-25.

【7】吴汉东：《知识产权法》，法律出版社2021年版，第210页。

【8】天津市第三中级人民法院（2019）津03知民终6号民事判决书。

【9】吴汉东：《知识产权法》，法律出版社2021年版，第209页。

【10】琼瑶诉于正等侵害著作权纠纷案，北京市第三中级人民法院（2014）三中民初字第07916号民事判决书。

【11】〔美〕劳伦斯·索伦：《法理词汇》，王凌皞译，中国政法大学出版社2010年版，第52页。

【12】饶明辉：《当代西方知识产权理论的哲学反思》，科学出版社2008年版，第68-71页。

【13】〔澳〕布拉德·谢尔曼，〔英〕莱昂内尔·本特利：《现代知识产权法的演进》，金海军译，北京大学出版社2006年版，第34-40页。

【14】吴汉东：《著作权合理使用制度研究》，中国人民大学出版社2019年版，第16-20页。

【15】参见吴汉东：《著作权合理使用制度研究》，中国人民大学出版社2019年版，第241-245页。

【16】Sharon编：“无视艺术家拒绝，Stability AI 市场上架相应画风开源模型'挑衅原作者’”，知产前沿 2023-08-07.

【17】朱开鑫、张艺群：《“你的AI侵犯了我的版权”：浅谈AIGC背后的版权保护问题》，腾讯研究院公众号2023-03-01日

【18】吴汉东：《著作权合理使用制度研究》，中国人民大学出版社2019年版，第236页。

【19】UK Government. Text Mining and Data Analytics in Call for Evidence Responses. http://webarchive. nationalarchives.gov.uk/20140603093549/http://www.ipo.gov.uk/ipreview-doc-t, pdf.

【20】《生成式人工智能服务管理暂行办法》第22条的规定。

【21】EC, Proposal for a Directive on Copyright in the Digital Single Market, COM(2016) 593 final, 14 September 2016.

【22】陈佳露：《数据流通利用 | 英国文本与数据挖掘例外制度评述》，清华大学智能法治研究院2022-11-22。

【23】侯海军、毛禾枫、薛佳琳：“多国将挖掘文本与数据行为纳入著作权合理使用范围”，《人民法院报》2023年6月9日第八版。

【24】孔祥俊：《论反不正当竞争法“商业数据专条”的建构》，载《东方法学》2022年第5期，第15页。

李士林专栏文章（节选）

SPECIAL COLUMN

李士林 | 数据法律保护制度研究述要与简评

李士林黄诚 | 地理标志公益诉讼中的检察权行权路径与权力界限

李士林 | “淄博烧烤”可以注册为商标吗？——热词申请为商标的注册规则阐释

瓷器知识产权保护系列文章

李士林李奕琨 | 游戏作品侵权与不正当竞争之间的界限：以“迷你玩”案为样本

李士林黄诚 | “香兰素案件”之后商业秘密案件审判的新动态

李士林袁雅茜 | 网络平台的侵权与抗辩—对“腾讯诉抖音”一案的观察

作者：李士林黄诚

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。