So-Large-LM-Task09: 大模型的法律
输入“/”快速插入
So-Large-LM-Task09: 大模型的法律
飞书用户6850
1月29日创建
Legality / 大模型的法律
Introduction
本节讨论法律对 LLM 对开发和部署有何规定。
Relationship / 新技术与现有法律的关系
与我们之前的 lecture 一样,比如关于 society biases 的讲座,我们将要讨论的很多内容并不一定特指 LLM(并没有特别的 LLM 法律条例)。然而,每当有新的强大的技术出现,它都会引发很多关于现有法律是否仍然适用或有意义的问题。例如,随着互联网的重要性日益提高,
Internet law
(or cyberlaw) 应运而生。它从现有的领域中汲取知识,如 intellectual property law, privacy law, and contract law 等。
Internet unique challenges / 互联网的独特挑战
法律通常有明确的管辖范围(例如,州,联邦),但互联网并不受地理限制。在互联网上可以保持匿名,任何人都可以发布一段内容,理论上可以被任何人查看。
Non-legal considerations / 法律与道德的区别
法律可以由政府强制执行,而道德无法强制执行,可以由任何组织创立。例如
医师的希波克拉底誓言
、
ACM的道德与职业行为准则
、
NeurIPS的行为准则
和
斯坦福的荣誉准则等
。
jurisdiction
/
法律的管辖权问题
根据你所在的地方(哪个国家,哪个州等),适用的法律会有所不同。例如,欧盟的数据隐私法
GDPR
比美国的法律更全面。法律可以在联邦、州或地方级别存在。
Types of law / 法律的类型
常见的法律类型包括
Common law
(judiciary),
Statutory law
(legislature), and
Regulatory law
(executive)。
Gloss:
Common law
(judiciary),
Statutory law
(legislature), and
Regulatory law
(executive)
普通法(司法)、成文法(立法)和监管法(行政)
Lifecycle of LLM/
LLM 的生命周期
我们将会把注意力转向 LLM。回忆一下 LLM 的生命周期:
1.
Collect training data (e.g., Common Crawl).
2.
Train a large language model (e.g., GPT-3).
3.
Adapt it to downstream tasks (e.g., dialogue).
4.
Deploy the language model to users (e.g., customer service chatbot).
在 LLM 的生命周期中,有两个主要领域与法律交叉:Data 和 Applications。
Data
所有的机器学习都依赖于数据。
语言模型依赖于大量的数据,尤其是为其他目的制作的他人的数据,这些数据往往在未经许可的情况下被抓取。
Copyright law
保护数据的创作者,那么在这些数据上训练语言模型是否构成侵犯版权?
Privacy law
保护个人隐私权,那么在公开或私密数据上训练语言模型是否可能侵犯隐私?对于私密数据,何时可以收集和汇总这些数据?
Applications
语言模型可以被用于广泛的 downstream tasks(e.g., question answering, chatbots)。
技术可能 be used
intentionally for harm
(e.g., spam, phishing attacks, harassment / 骚扰, disinformation)。现有的 Internet fraud and abuse laws 可能覆盖其中的一部分。
他们可以被部署在各种高风险的环境(e.g., healthcare, lending, education)。现有的在相关领域的规定(e.g., healthcare)可能覆盖其中的一部分。
LLM 的扩展能力(e.g., realistic text generation, chatbots)将带来新的挑战。
Copyright law
/ 版权法
LLM 或任何 ML 模型都是在数据基础上训练出来的,而这些数据来自人类的劳动成果 (e.g., author, programmer, photographer, etc.)。除创作者外,其他人能对这些创作 (e.g., books, code, photographs, etc.) 做什么,这属于 Intellectual Property Law 的范畴。
•
Motivation: 鼓励创造各种知识产品。如果任何人都可以拿走你的辛勤劳动并从中获利,那么人们创造或分享的积极性就会降低。
•
Types of intellectual property: copyright, patents, trademarks, trade secrets.
Gloss:
copyright, patents, trademarks, trade secrets
版权、专利、商标、商业秘密
•
在美国,管理版权的关键法规是1976年的《版权法》。
•
版权保护适用于“以任何已知或将来开发的有形媒体表达的原创作品,通过这些媒体可以直接或通过机器或设备感知、复制或以其他方式传播”。
•
从“已出版”(1909年)扩展到“固定”,基于1886年的
Berne Convention
。
•
不需要注册即可获得版权保护(与专利形成对比)。
•
在创作者可以起诉侵犯版权的人之前,需要进行注册。
•
注意:版权的门槛非常低(你可能没有意识到的许多东西都受到版权保护)。
•
版权持续75年,然后版权到期,成为公共领域的一部分(莎士比亚、贝多芬等作品)。
Project Gutenberg
的大部分是公共领域中的图书。
使用受版权保护的作品有两种方式:
1.
获得 license。
2.
援引 fair use clause。