GitHub在去年11月遭到集体诉讼。
现在,关于其背后的知识共享问题被翻出来,美国版权清理中心(CCC)的常务董事Roy Kaufman特地撰文指出:
GitHub给的代码通常没有署名,违反了著作权授权许可协议CC BY 4.0。
此文一出,GitHub再度被推到风口浪尖,引起热烈讨论。
这场起诉的导火索是GitHub与OpenAI共同研发的“敲代码神器”:Copilot。
当时,正式发布不到5个月的Copilot已惹怒了一众程序员,主要问题可以概括为“侵权”二字。
美国版权清理中心的Roy在文中写道,其实CC BY 4.0的规定已经算相当宽松了:
只要有合理的署名,就可以在没有额外许可的情况下,把用户上传的内容用于文本数据挖掘、机器学习,以及AI训练(可统称为Text Data Mining,TDM)。
巴特,GitHub Copilot给出的代码连这点都做不到——因为它往往没有标注作者署名。
诚然,GitHub主要是个用于分享开源代码的平台,但官方这样随意挪用用户上传的内容,依然涉嫌违反许多法律和协议。
有网友指出:
(根据相关法律),不可以通过修改主机服务商的使用条款,随意挪用用户上传的内容。
还有人把Copilot和谷歌图书(Google Books)作比较,后者用于搜索谷歌扫描的书籍、杂志全文,并可通过光学字符识别(OCR)转换为文本。该网友指出:
二者有一个明显的不同之处:谷歌图书一次只允许你访问2页内容。
若要获取一本书的全部内容,必须搜索很多次——也就是说,他人不能一下子就获得这本书的完整电子版,这样就不存在“版权清洗”。
事实上,谷歌图书也曾被作家协会起诉,但谷歌最后胜诉了。
因为法院在权衡版权侵权问题时,会考虑“实用性 ”以及“充分改造性”等问题。
有吃瓜网友补充调侃道,虽然谷歌很有可能把这些电子版书籍的内容上传到自家的云上了,但是:
毕竟谷歌没用这些东西来搞AI写小说。
言外之意,就是假如谷歌也来搞类似Copilot的事情,那他们可能也要面临大麻烦。
至于GitHub Copilot违反了哪些协议,原告表示,其中包括美国的数字千年版权法(Digital Millennium Copyright Act,DMCA)。
DMCA主要有以下部分:
1、版权技术措施法案:规定在数字领域中可使用的技术保护措施,防止未经许可就被挪用。
2、网络服务提供商责任限制法案:规定网络服务提供商(如网站或云服务)在用户侵权行为方面的责任。
3、对破解加密技术的刑事处罚条例:破解加密技术,可能构成刑事犯罪。
4、版权投诉通知制度:规定版权所有者如何投诉侵权行为,以及网络服务提供商应对投诉的责任和义务。
据其中的“网络服务提供商责任限制法案”,如果服务商希望使用用户上传内容,需征得用户同意,并且在使用时给予适当的署名。(嗯,又是署名…)
除了DMCA,Copilot还涉嫌违反了加州消费者隐私法等,以及前文提到的CC BY 4.0。
总而言之,GitHub和Copilot涉嫌违反的法律和规定相当错综复杂。
目前,本案尚处于早期阶段,不管最终判决结果如何,都还有很长的路要走。
值得一提的是,诉讼发起者,干了20多年的老程序员Matthew Butterrick已激活了自己的律师资格证,特地来细究这些问题。
参考链接:
[1]https://scholarlykitchen.sspnet.org/2023/01/05/github-is-sued-and-we-may-learn-something-about-creative-commons-licensing/
[2]https://news.ycombinator.com/item?id=34274326
“