Token(5分钟了解什么是 token)

5分钟了解什么是 token

几年前在一次事情中,第一次交往到天然言语处理模子 BERT。

事先在评价这个模子的功能时,向导说这个模子的功能必要到达了 200 token 每秒,固然晓得这是一本功能目标,但是对 token 这个看法却不是很明晰。

由于事先交往视觉模子多一些,在视觉模子的功能评价中,有一个紧张目标叫做 fps,普通了解就是一秒钟可以处理的图片数。

fps 数值越大,分析模子吞吐功能越好(关于吞吐的看法可以查察:再也不怕被问吞吐和延时的区别了)。

那么 token 每秒又是什么呢?要搞清晰这个,就得先来了解一下什么是 token。


1、什么是token

在盘算机范畴中,token 通常是指一串字符或标记,好比微信群众平台的密钥,就被称作一个 token,但是就是一长串的字符。

photo by AI

而在人工智能范畴,尤其是天然言语处理(Natural Language Processing, NLP)中, "token" 指的是处理文本的最小单位或基本元素

它可以是一个单词、一个词组、一个标点标记、一个子词大概一个字符。

现在很多大模子无论展现才能,照旧收钱定价,都是以 token 为单位,如 OpenAI 的收钱标准为:GPT-4,1k 个 token 收钱 0.01刀。

那么怎样了解 token 呢?

假定要让一个 AI 模子识别底下的一句话:"I love natural language processing!" 。

模子并不是直接熟悉这句话是什么意思,而是必要先将这句话拆解成一个个的 token 序列。

好比这个句子可以分析成以下的 tokens:

  • "I"
  • "love"
  • "natural"
  • "language"
  • "processing"
  • "!"

最初的标点标记相反是一个 token,如此模子看到的就是基本的 token 单位,如此有助于 AI 模子了解这个句子的布局和涵义。

各位有想体系学习机器学习深度学习数学的,可以扫码进群领材料,内里包含机器学习深度学习从入门到进阶的数学材料(包含PDF)。

2、怎样拆分 token 呢?

在 NLP 职责中,处理文本之前,必要先将文本举行 tokenization,也就是将文本 token 化,然后再对这些 tokens 举行利用。

现在有很多算法可以完成这个 tokenization 的历程,这里先不掀开。

看到这里你约莫会问,一个 token不就是一个单词吗?

但是不是如此的,就像我们外表说的,一个 token 可以是一个单词,也可以是一个词组大概一些子词。

好比在 tokenization 阶段,约莫会把 "New York City" 这三个单词当做一个 token,由于这三个单词合在一同具有特定的意思,叫做纽约市。

还约莫把 “debug” 这个单词看作两个 token,分散为"de" 和 "bug",如此模子约莫晓得 “de” 前缀代表“变小”的意思。

假如再碰到诸如 “devalue ”时,就会把它直接分为两个token,分散是 “de”和 “value”,并且可以晓得 devalue 代表"变小代价"的意思。

如此的 token 就属于单词中的子词,如此做有很多利益,此中一个利益便是模子不必要记取太多的词。

不然,模子约莫必要记取"bug"、"debug","value","devalue"四个token.

而一旦将词分红子词,模子只必要记取"bug"、"value" 和 "de" 这三个 token 即可,并且还可以扩展识别出 "decrease "的意思。

看到这了解了吧,一个 token 约莫会代表是一个单词,也约莫会是一个词组,大概字符和标点标记。


3、一个幽默的测试

但是有个很简便的办法可以测试一下模子在处理文本时,对否是依照 token 为最小单位来处理的。

我们使用一个大模子,好比 chatGPT 3.5,让他来对一小段文本举行反转利用。

可以看到,句子中的“一个”反转之后仍旧是“一个”,而不是"个一"。

这约莫就是由于在模子处理时,“一个” 被当做了一个 token 来对待,而这又是一个基本单位,无法再进一步拆分完成反转。

而假如使用 GPT-4 来举行相反的实行,可以看到它以前把这个成绩修复了,这是由于 GPT-4 中大幅更新了逻辑推理才能,在更繁复的场景下它乃至会本人边写代码来完成繁复的逻辑的推理。

假如你有chatGPT 的使用情况,可以测试一下看看它对否可以将句子反转过去。


总的来说,token 可以了解为天然言语模子处理文本的最小单位。

它不一定是一个单词,约莫是一个词组,也约莫是一些前缀如“de”,也约莫是一些标点(好比叹息号约莫代表愈加剧烈的情感)等。

晓得了 token 是什么,那么 token / s 的意思就很简便了,这个单位就代表了模子一秒钟可以处理的 token 的个数。

这个数字越大,分析模子处理文本的速率更快,无论是识别文本,照旧输入文本,用户用起来,也就愈加流利。

无偿分享一些我整理的人工智能学习材料给各位,整理了好久,十分全盘。包含人工智能基本入门视频+AI常用框架实战视频、机器学习、深度学习与神经网络等视频、课件源码、毕设项目、AI抢手论文等。

底下是截图,扫码进群无偿提取:扫码进群领材料

我会在群里与伙伴们定期分享人工智能的提高事情情况干系材料

最初祝各位天天提高!!

内容底部广告位(手机)
标签:

管理员
草根站长管理员

专注网站优化+网络营销,只做有思想的高价值网站,只提供有担当的营销服务!

上一篇:三星官网网站(「官方网站合集」各大手机官方网站合集小米苹果华为三星荣耀手机)
下一篇:返回列表

相关推荐