2023年掀起热议的ChatGPT,被称为最具革命性的科技进步。作为一款人工智能聊天机器人,ChatGPT能够根据聊天上下文进行互动,不断完善、具体自己的回答,做到与真正人类沟通几乎无异的交流。同时,除了通过理解和学习人类的语言来进行对话以外,ChatGPT还可以协助人类生成邮件、脚本、文案、翻译、代码等内容。而ChatGPT“创作”出来的内容与人类使用的自然语言极为相近甚至难以辨认,是否应当给与著作权法上的保护值得探究。
一、ChatGPT创作内容的底层逻辑
ChatGPT底层是一款通用的自然语言生成模型,通过互联网海量的语料库训练,对语言文本进行概率建模来预测下一段输出内容的概率,从而实现根据用户输入的文字内容生成对应文字回答的功能。ChatGPT创作内容可以理解为分成三步:
第一步,文本数据挖掘。文本数据挖掘是处理大数据的一种技术手段,通过大量复制文本数据,从中抽取有价值的信息和知识。ChatGPT从互联网中收集到海量的自然语言文本,形成自己的语料数据库,为后续的统计、分析、学习提供素材。
第二步,文字接龙。当我们向ChatGPT提供一个不完整的句子时,ChatGPT会分析后面应该接什么字词,并根据语料库中的内容统计出现不同接续词的概率。ChatGPT会按照统计出的概率随机输出相应内容,这也是其针对同样问题输出不同答案的原因。
第三步,训练引导。单纯的文字接龙无法实现与真正人类沟通几乎无异的功能,ChatGPT还需要人类老师(标记人员)来对其生成答案进行引导。通过人类老师的人工标记,ChatGPT进一步训练出一个反馈模型,模拟人类的喜好对ChatGPT的输出结果进行打分,再由该反馈模型去训练ChatGPT,该过程就是基于人类反馈的强化学习。[1]通过强化学习,ChatGPT就会“明白”哪些回答是更好的回答,从而实现与人类顺畅地交流。
二、ChatGPT数据挖掘的合理使用
ChatGPT“创作”内容前提是在互联网规模庞大的文本语料库中进行训练,以不断完善其自然语言模型。文本语料有两个主要来源:一是用户对ChatGPT输入的内容;二是ChatGPT从互联网中收集到的语料。
针对第一种来源授权,ChatGPT《使用条款》第3条(a)款规定用户同意ChatGPT使用用户内容以改进和提升服务,也就是使用用户输入内容来进行机器学习。[2]在《用户内容如何被用于提升系统性能》中,OpenAI进一步指出,若用户不同意自己的输入内容被ChatGPT用于上述使用,则可以通过邮件联系OpenAI表示拒绝,但可能影响用户在特定场景下对ChatGPT的使用。[3]
而对于第二种来源,ChatGPT在当前实践中并未取得相关授权。在对语料库中的文本进行分析、使用之前,ChatGPT首先需要对文本数字化,转换成其能理解的标准数据格式,再将作品全文复制并存储到机器中形成复制品,这属于著作权法意义上的典型复制行为。但未经授权的情形下,并不必然意味着ChatGPT数据挖掘行为侵害作品复制权,因为部分国家将数据挖掘行为纳入合理使用范围。
美国的司法实践以“转化性使用”理论为基础,通过判例将文本数据挖掘纳入合理使用范围。根据“转化性使用”原则,若使用达到著作权法促进知识、鼓励创作的目标,且使用的方式或目的与原作品不同,使新作品具有创造性而不同于原作品,则该种使用属于合理使用。2016年美国作家协会诉谷歌案中,美国作家协会因为谷歌在其数字图书项目中将其享有著作权的图书扫描为电子版将谷歌诉至法院,认为谷歌的文本数据挖掘行为构成了对图书的复制和展示,侵犯其著作权。美国法院认为,谷歌文本数据挖掘方便用户进行图书搜索的新使用目的和将图书数字化的新使用方式皆与原来不同,具有“转换性”意义,构成合理使用。[4]基于该标准,ChatGPT对文本数据进行分析、学习,从而输出具有创造性的新内容,应当符合著作权法促进知识、鼓励创作的目标,且其使用方式和目的已可能与原作品不同。由此,ChatGPT的文本数据挖掘无疑比起谷歌将图书数字化的使用更具有转换性意义,应可构成美国法律体系下的合理使用。
日本是最早对数据挖掘作出例外规定的国家。日本《著作权法》在2009年增加条款,允许为了计算机信息分析的目的(即从众多作品或者其他大量信息中筛选出构成该信息的语言、声音、影像或者其他要素,并进行比较、分类或者其他统计分析)在必要限度内将作品存储在媒介上或者进行改编。根据该例外,企业为了商业目的复制他人作品并用于计算机信息分析可能构成合理使用的情形,而ChatGPT对文本数据的商业使用恰好符合这一情形。此外,2008年日本《著作权法》修正案还将该条款中的“为了计算机信息分析”目的修改为“为了提供新的知识或信息”,进一步扩大了该例外的适用范围。从上述条款可见,日本《著作权法》借鉴了美国“转化性使用”理论,同时未限定使用目的为非商业性使用,为科研领域对作品的数字化使用(尤其是商业使用)留下了较大的制度空间。
欧盟于2019年通过的《单一数字市场版权指令》第3条规定,成员国应当对作品和数据库的复制权提供例外,允许研究机构、教育机构和文化遗产机构以科研目的对其原本可以合法访问的作品及数据库进行复制。同时,允许成员国选择不限制适用文本与数据挖掘例外的主体,任何人在文本与数据挖掘过程中都可以对其合法访问的作品和数据库进行复制,但版权人明确排除使用者进行文本与数据挖掘的除外。值得注意的是,欧盟《信息社会版权指令》第5条中关于复制权例外仅限于非商业目的的限制仍然适用。从该目的限制以及欧盟对适用主体仅提供选择性例外来看,欧盟对数据挖掘适用合理使用采取了较为谨慎的态度。而ChatGPT所进行的数据挖掘行为较难适用非商业目的要求,同时OpenAI也可能不符合成员国对主体的限制,故而较难构成欧盟版权法中的合理使用。
但数据挖掘在我国现行法律体系下则更难适用合理使用的例外情形,根据我国《著作权法》第24条规定:“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”。该规定引入了国际公约中关于合理使用一般认定规则的“三步检测法”,但将其中的“在特殊情况下”改为“在下列情况下”,同时列出13种合理使用情形而形成了封闭式的定义,法院较难在司法实践中依据法定列举之外认定其他合理使用情形的途径。一方面,第24条并没有将数据挖掘行为单独列为合理使用情形之一;另一方面,将数据挖掘行为解释为已有的13种情形均存在法律适用障碍。例如,ChatGPT作为人工智能系统以商业目的对大量文本数据进行挖掘的行为不符合第1项“为个人学习、研究”使用作品,也不符合第6项“为学校课堂教学或者科学研究”。据此,ChatGPT在中国境内的数据挖掘行为将可能构成著作权侵权。
三、ChatGPT创作内容的著作权有无
独创性的有无是认定是否构成著作权法意义上的作品的实质要素。独创性的一般按照“独”与“创”两步分别进行判断,其中“独”要求创作成果前所未有或与现有作品存在实质性差异,而“创”则要求创作成果具备一定的个性判断与选择。若ChatGPT创作内容能够满足这两项标准,即应给与著作权法上的保护。
1、“独”之构成要件
“独”要求创作成果在外在形式上不构成现有作品的重复或者再现。笔者认为,对于ChatGPT创作内容应当与对人类作品持同一认定尺度,只要ChatGPT是“算法创作”自己生成并与他者不同的结果,就应视为具有独创性。
ChatGPT通过概率统计分析,用语料库中的大量字词进行一次次“文字接龙”,使得最终生成的内容从外观上与语料库中原有的作品存在实质性差异。当然ChatGPT对于每个字词的运用分开来看属于一次次的复制,但是不论是在评判人类生成内容还是人工智能生成内容时,我们对“独”的判断都应以创作成果整体而非句子的具体组成部分为基础。就目前ChatGPT的工作原理来看,鉴于语料库的庞大体量和依靠概率统计分析的内容生成方式,其生成内容与现有作品重复的可能性应当微乎其微。由此可见,ChatGPT显然已经脱离了单纯的复制,其生成内容实现了人类心智活动的“无机化”,并表现了人类无法预知的随机性,符合“独”之构成要件的要求。
2、“创”之构成要件
“创”要求创作成果能够体现创作者在一定程度上的个性判断与选择。部分学者指出,人工智能生成内容不具有独创性是因为其使用同一算法得出的结果相同。然而,ChatGPT并非根据统计结果输出最有可能输出的内容,而是按照概率随机输出,因此当用户对其输入相同的内容时,ChatGPT每次输出的回答都不尽相同。此外,ChatGPT会根据用户输入内容而不断地进行调整和自我学习,使得每一次输出的内容都有所不同。2020年中国首例人工智能“作品”案(“菲林案”),法院即认定人工智能创作内容“体现出针对相关数据的选择、判断、分析,具有一定的独创性。”
当然,并非ChatGPT生成的任何内容都能够满足独创性的要求。若“创作”内容具有高度的可重复性,则不具备个性化的特征。ChatGPT的《使用条款》第3条(b)款即强调了在特殊情形下输出内容的相似性:“由于机器学习的性质,输出内容在不同用户之间可能不是唯一的,ChatGPT可能为OpenAI或第三方产生相同或类似的输出。例如,您可能向一个模型提供诸如‘天空是什么颜色?’的输入,并收到诸如‘天空是蓝色的’的输出。其他用户也可以提出类似的问题并收到相同的回应。”[5]对于该类成为共识的问题,语料库中存在大量同质性的语料素材,因此ChatGPT的答复也相应出现同质化的现象。此外,篇幅过短的回复也容易与其他人的表达重复,从而无法构成独特的表达。
四、ChatGPT创作内容的权利归属
1、人工智能
包括我国在内许多国家的著作权法立法与司法实践中,均坚持只有人类可以作为著作权人的观点,包括自然人和通过拟制获得著作权人主体地位的法人。例如,美国版权局要求被登记的作品须由人类创作,并且明确将“在没有任何源于人类作者的智力投入或参与的情况下,由机器以及随机或自动运行的纯粹机械过程生成”的成果排除在可登记范围之外。[6]猕猴自拍案,美国法院认定动物的自拍照不构成作品的判决即反映这一立场。[7]中国法院在菲林案中虽认可威科先行库生成的大数据报告具备独创性,但并没有进一步认可该报告构成著作权法意义上的作品,正是考虑到著作权法上的作品应由自然人创作完成,智能生成的作品不宜对民法主体的基本规范予以突破。由此,无论是在中国或美国,ChatGPT创作内容的权利都无法归属于人工智能本身。
2、ChatGPT用户
部分学者指出,人工智能内容生成软件的使用者对内容创作过程作出了重大贡献,在某些情况下会参与设置参数并为算法提供数据,极大地改变了软件输出结果,甚至可能影响算法的运行方式。[8]鉴于此,人工智能生成内容的著作权归属于软件使用者成为主流观点之一。
但该理论的关键是,软件使用者智力活动对于人工智能生成内容的独创性是否起到重要作用,从而才能评判软件使用者能否成为生成内容著作权人。如果使用者能够在数据输入、触发条件设定、文章框架模板选择、算法模型训练等方面体现自身的个性选择,且因而致使人工智能生成内容呈现出特定的表现形式,应可以被认定为软件生成内容的作者。然而,人类智力活动对人工智能生成内容独创性的重要作用显然无法进行客观量化。例如,即使使用同一ChatGPT软件,部分用户通过不断地引导,逐步限定回答内容、排除不适当内容,不断筛选、变更提问方式,最终通过ChatGPT获得满意的文本;部分用户可能仅是对ChatGPT输入简单关键词,其对于人工智能生成内容的独创性作用显然有限。正基于此,法院在菲林案中认定软件用户仅提交了关键词进行搜索,应用可视化功能自动生成的分析报告亦非传递软件用户思想、感情的独创性表达,从而否定了使用者对人工智能生成内容享有著作权。
3、软件开发者
在DreamWriter案中,法院认定涉案文章的创作流程主要经历数据服务、触发和写作、智能校验和智能分发四个环节,开发者深入参与到内容生成过程中,其主创团队相关人员的具有个性化特征的选择与安排体现在数据类型的输入与数据格式的处理、触发条件的设定、文章框架模板的选择和语料的设定、智能校验算法模型的训练等多个环节之中,进而法院提出软件开发者构成人工智能生成内容著作权人的观点。但菲林案中的法院则持相反观点,法院认定软件开发者没有根据其需求输入关键词进行检索,该分析报告并未传递软件研发者的思想、感情的独创性表达,不认可人工智能生成内容著作权归属于软件开发者。持同样观点的学者亦指出,软件开发者在对人工智能进行开发、训练过程中投入大量且高质量的智力成果,但是该成果仅体现在软件开发过程而非内容生成过程之中,软件开发者并没有实际参与到输出内容的创作中。
但正如本文第一部分论述,从ChatGPT的技术原理可以看出,创建算法的过程与算法输出的过程不能被割裂地看待,ChatGPT内容生成的过程离不开OpenAI的参与和引导。ChatGPT通过自身的机器学习筛选出创作所需的语料从而完成内容创作的过程,离不开更早阶段OpenAI已经通过反复模拟训练为其存入的创作时所需的标准和规则,使得ChatGPT建立自己的判断,进而在海量的文本数据信息中进行统计和取舍,具有了类人的意志和情感。可以说,软件开发者赋予了人工智能生成内容独创性,他们对整个创作起到实质性控制作用。因此,ChatGPT生成内容的著作权应当可以归属于对其进行设计和训练的软件开发者OpenAI。
4、软件开发者与软件使用者共享
鉴于人工智能内容生成过程的复杂性,部分学者提出采取由软件开发者和软件使用者联合共有的归属模式,将人工智能生成内容认定为共有作品,在难以区分各主体贡献值时,考虑授予软件开发者和软件使用者以联合作者权。[9]
但反对者认为,传统著作权法理论中的共同作品要求由多方作者合作完成,每个作者参与合作时知情并有意思联络,但是软件开发者和软件使用者并没有直接接触,不存在合作或者合意。[10]但该质疑能够得到合理解释,显然OpenAI对用户后续使用ChatGPT生成作品存在意思表示,而对于用户而言,其实施内容输入的行为并获得预期回复,亦对生成该作品存在意思表示。虽然上述意思表示存在于不同的时间和空间,但可以被视为存在高度概括的合意,从而使得用户和OpenAI成为ChatGPT生成内容的共同作者。
鉴于此,笔者认为,在ChatGPT生成内容构成作品的前提下,其著作权由作为软件开发者的OpenAI和作为软件使用者的用户共同享有。ChatGPT生成内容的过程离不开OpenAI的参与,OpenAI不断进行的开发与训练赋予了ChatGPT生成内容的独创性;而用户作为启动程序和输入内容的人,也参与到对算法的调整,使得ChatGPT生成内容能够体现其一定的个性选择与判断,因此由二者共同享有著作权是合理的。当然,笔者完全赞同,若用户仅是输入简单指令或关键词,则其智力成果难以在ChatGPT生成内容中得到体现,在此种情况下应仅由软件开发者即OpenAI享有生成内容的著作权。
值得注意的是,前述分析是根据著作权法原理对著作权权属进行首次分配,但约定优先原则仍然适用。当事人之间可以通过合同或者软件用户协议等方式对著作财产权重新进行二次利益分配,以灵活适应人工智能产业链上各主体的需求。在ChatGPT《使用条款》第3条第(a)款中,OpenAI明确约定ChatGPT输出内容的全部权益归属于用户:“在双方之间以及在适用法律允许的范围内,您拥有所有输入内容,并且在您遵守本条款的前提下,OpenAI特此向您转让其对输出内容的所有权利(right)、所有权(title)和利益(interest)。OpenAI可在必要时使用内容以提供和维护服务、遵守适用法律和执行我们的政策。您对输入内容和输出内容负责,确保其不违反任何适用法律或本条款。”据此,在认定软件开发者和软件使用者对软件生成内容共同享有著作权的前提下,鉴于OpenAI将其权益主动转让给用户,因此ChatGPT生成内容的全部著作权应当归属于用户所有。
五、结语
滞后性是法律的一大特点,人们往往在新技术问世后、甚至出现了法益侵害问题之后才有所醒悟。以ChatGPT为代表的新技术出现既改变了人们的生活方式,也改变了现有的利益分配模式,无疑给传统著作权法带来了全新的挑战。在我国现行《著作权法》暂未将人工智能相关问题进行明确规制的情况下,我们应当在现有的著作权法一般理论框架下分析ChatGPT数据挖掘行为的合理性、生成内容的可版权性以及生成内容的著作权归属等问题,以应对相关领域存在的法律风险。
[注]