中娱网

什么是人工智能“语料库”?为什么每个人都在谈论它?

2023-07-07 14:07:00 来源:凤凰网

编者按:比尔·盖茨(Bill Gates)、Reddit 首席执行官和其他科技领袖越来越多地谈论“语料库”,现在是时候了解它是“何方神圣”了。本文带你深度揭秘语料库以及它如何影响人工智能平台的运行。文章来自翻译,希望能对你有所启示。


(资料图片)

得益于 ChatGPT 和类似人工智能平台的问世与飞速发展,人工智能的崛起一直是 2023 年最引人注目的话题之一。每天都会有关于人工智能技术如何影响创新、工作或人类生活的新文章出现。

如果你一直在关注人工智能领域,你可能会注意到最近科技高管们经常谈论的一个词:“语料库” (corpus)。Reddit(美国社交新闻站点)CEO、维基百科的创始人吉米·威尔士(Jimmy Wales)以及微软创始人比尔·盖茨都提到过。

以下是语料库的含义,以及为什么它对于理解 ChatGPT 和 Midjourney 等人工智能平台的运行至关重要。

什么是人工智能语料库?

学过拉丁语的人都知道“corpus”是“身体”的意思,现代英语里的“corpse”被译为“尸体”,源自拉丁语“corpus”。其他人可能也认识 corpus 这个词,因为它在今天仍然适用于现存法律机制中,被译为:人身保护令。这句话的字面意思是“你拥有人身自由权”,它确保任何被逮捕的人都有权出庭,以确定逮捕是否合法。

但当其用于人工智能领域时,“语料库”一词根本不是指身体。相反,它指的是用于训练人工智能的文本库或数据集合。这个语料库是人工智能审查的材料,以使其在设计时变得智能。

每个人工智能平台的语料库都是不同的,因为是人类决定他们想要用什么样的数据来训练 AI,而人类决定训练人工智能的语料库将取决于他们希望人工智能精通哪些方面或是解决什么问题。

语料库类型

语料库的类型没有限制,人工智能语料库的构成取决于人类创造者想让它做什么。

以 Midjourney 为例,Midjourney(一款 2022 年 3 月面世的 AI 绘画工具)是一个流行的生成艺术平台,用于使用 AI 创建图像。由于 Midjourney 只允许用户使用文本提示创建图像,因此它需要接受一系列图像和相关文本描述的训练。例如,为了让 Midjounry 生成瀑布的图像,它的语料库必须包含瀑布的图像以及描述瀑布的相关文本。

还有 ChatGPT 等人工智能平台,一种被称为大型语言模型(large language model,简称 LLM)的人工智能平台。强大的 LLM 有能力基于文本数据与人类进行对话聊天——前提是他们的语料库足够大且足够丰富。LLM 模型可以处理多种自然语言任务,根据其语料库所包含的内容,它可以回答复杂的问题,甚至能够生成原创作品,如短篇小说或创建太空射击游戏代码。LLM 模型的能力仅仅取决于用于训练人工智能的语料库文本数据,它基于大量文本数据进行训练以能够理解文本的含义,并给出相应答案。

我想知道 ChatGPT 的语料库是由什么组成的,所以我直接问了它。“ChatGPT 语料库是由大量互联网文本数据组成,包括网站、书籍、文章和其他公开来源。”它回答说。由于不满足于这个相当模糊的答案,我要求 ChatGPT 详细说明其语料库中的数据类型,这次 ChatGPT 的回答更加详细了:

网站:来自不同领域和主题的网站文本。

书籍:涵盖各种类型和主题的书籍文本。

文章:来自新闻文章、杂志特写和博客文章的相关文本。

研究论文:来自科学论文和出版物的相关文本。

会话数据:来自对话和互动的多回合文本。

社交媒体:来自 Twitter、Reddit 和其他在线论坛等平台的文本。

维基百科:维基百科文章中涵盖众多主题的文本。

注意 ChatGPT 语料库并不包括图像,其不具备图像处理能力。这是因为 ChaptGPT 是一个基于文本的 AI 生成器,它不能生成图像,因为它的语料库从来没有包含任何可以训练图像的文本数据。

Midjourney 和 ChatGPT 的文本数据只是构成语料库的两个例子,实际上语料库可以由任何类型的数据组成。例如,如果你想制作一个可以创作音乐的 AI 平台,你只需要在它的语料库中介入音频歌曲相关的文本数据即可。或者,如果你想要一个能够以海明威风格写小说的人工智能,你可以使用一个只包含海明威书面作品的语料库。

语料库是否合法?

如果你没有一个语料库来训练 AI,AI 就无法学习。你的语料库越大,AI 就会变得越熟练、越智能。但是,当涉及到版权和知识产权法时,人工智能语料库可能就会存在很大的漏洞。

用受版权保护的内容数据训练人工智能,这样的做法是否违反法律呢?例如,如果我创造了一个可以生成类似 Banksy(注:英国著名艺术家)艺术品的人工智能平台,该平台基于 Banksy 的作品语料库来训练 AI,这是否侵犯了 Banksy 的版权或知识产权?我所创造的 AI 并没有直接“盗用”他的作品,只是复制他的风格,所以这是否仍然构成侵权呢?再比如,假设我创建了一个包含蕾哈娜歌曲语料库的 AI 程序平台,它可以使用蕾哈娜的声音或与之接近的声音生成全新的原创歌曲,这合法吗?

今年早些时候,由 AI 生成的模仿加拿大歌手德雷克(Drake)和歌手“盆栽”(The Weeknd)创作的新歌“Heart On My Sleeve”爆火并传播到了多个平台后,环球音乐集团(Universal Music Group)发表声明严厉谴责这首歌是“用生成式人工智能创作的侵权内容”。但使用人工智能工具的创作者可能并不这样认为。最终,无论是人工智能生成的音频、视频还是基于文本的媒体,随着 ChatGPT 和 Midjourney 等生成式人工智能程序越来越普及,“AI 是否侵权”这个问题很可能会在未来几年仍然需要进一步的探讨和研究。

与此同时,各国政府已经在计划立法来监管生成人工智能模型。例如,欧盟正在提议一项法律,要求人工智能所有者披露人工智能语料库是否包含受版权保护的内容。这种透明度将使版权持有人更容易识别自己的作品被用于哪些语料库,从而寻求赔偿。

在美国,国会研究服务处(Congressional Research Service)最近向国会建议,在更新版权立法之前,它可能更希望采取“采取观望态度”,建议国会监测法院在未来几年关于人工智能印发的版权案件的反应。

将出售语料库作为收入来源

当然,无论如何,一些内容创作者会选择接受人工智能为其提供的创收机会。比方说,一位在世的画家想赚些外快,她可非常容易地将自己的作品集打包在一个语料库中,并将其使用权出售给生成式人工智能公司。正如歌手格莱姆斯(Grimes)已经提出的那样,作家可以出售他们的小说集;杂志出版商可以出售过期杂志;歌手可以出售他们的人声语料库,或者要求 AI 基于他们的语料库生成的作品中获得一部分抽成。

如果埃隆·马斯克(Elon Musk)想为日渐走下坡路的 Twitter 带来新的收入来源,他可能会考虑将该平台上的所有推文打包成一个语料库,出售给人工智能初创公司。Meta 的 Facebook 也将从中找到新的收入来源,前提是 Twitter 和 Meta 可以声称拥有帖子的所有权。事实上,Reddit 的用户帖子语料库已经被用来帮助训练 ChatGPT 了,在最近接受《纽约时报》采访时,Reddit 首席执行官史蒂夫·霍夫曼(Steve Huffman)表示,他知道这个语料库的价值。“Reddit 的数据库非常有价值,但我们不需要把所有这些价值免费提供给世界上一些知名的公司。”霍夫曼说道。

从这个意义上说,随着越来越多的公司向人工智能领域扩张,强大的预包装语料库在科技界的地位可能会变得与淘金热矿工的镐一样重要,一个全新的语料库销售产业可能会随之诞生。

如果是这样的话,在未来的几个月和几年里, “语料库”将成为人工智能领域的常谈话题。

译者:Araon_

标签:

热门推荐