您的当前位置:首页>科技咨询>资讯详情

Karpathy大神问懵DeepSeek!一个emoji竟藏了53

发表于:2025-02-14 18:00:06 浏览:22次 发布者: 网易互联网

白交 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

注意看,这个(笑脸emoji)竟然占了53个token!



Karpathy大神又带来他的新实验新发现了,结果直接问懵DeepSeek和ChatGPT。

思考过程be like:



DeepSeek硬是思考了十分钟也还是没有答上来,觉得要是“lol”这个答案就太简单了。

Karpathy表示:但其实就是这么简单。



随后他进一步解释了这背后的原因——提示词注入。将一些信息注入进字符中,表面上看没啥区别,但里面可以表达各种隐藏信息。对于善于思考的模型,就会很容易受到这个方法的影响。



来看看具体是咋回事。

一个emoji竟占53个Token

这一想法,源于Paul Butler的一篇博客。

他看到有人说,通过零宽连接符(ZWJ),可以把任意的文本藏在emoji符号当中。

结果一试发现真的可以,不过可以不需要ZWJ,隐藏信息的载体也不一定非得是emoji,任意Unicode字符都可以。



这背后的原理,涉及到了Unicode编码字符方式。

对于简单的字符(比如拉丁字母),Unicode编码点和字符之间有一对一的映射(例如u+0067表示字符g)。

但对于复杂一些的符号,就需要用多个序号连在一起的方式来表示了。

此外,Unicode当中还设置了VS-1至VS-256的变体选择符(Variation Selector),可以针对基础字符做出相应的变体,但本身却没有自己的“长相”。

并且只作用于极少部分字符,主要是Unicode中的中日韩统一表意文字(CJKUI),其他大部分的Unicode字符都不会有任何变化。



但当带有变体选择符的字符被复制粘贴时,选择符也会一起进入剪贴板。

而在Unicode当中,这样的变体选择符一共有256个之多,用来编码信息已经是绰绰有余了。

比如下面的这个a,只有U+0061表示的是其自身,剩下后面的10多个全都是变体选择符。



有了这一理论基础,接下来的事情无非就是建立正常字符和变体选择符之间的转换算法。



当然编码的内容越多,变体选择符也就越长,并且如果是汉字,还会产生更多的变体选择符。

比如我们试图将量子位的Slogan“追踪人工智能新趋势,关注科技行业新突破”藏在一个“100分”的emoji当中,产生的变体选择符数量达到了58个。



并且把解码算法告诉ChatGPT之后,原文本也可以被复原。



所以,看似是只有一个emoji,但实际上后面藏了多少字符,恐怕只有把文字装进去的人自己才知道了,甚至塞个《滕王阁序》进去也没问题。



而一个占53个Token的笑脸,相比之下就更加不足为奇了。

问懵DeepSeek

回到Karpathy的提示词注入,他测试了ChatGPT与DeepSeek。

ChatGPT回答在此:



DeepSeek-R1 花了10分钟思考差点就成功了。它认为隐藏的信息可能是Onli!n37e27i4h4he3ingle7odlol。因为觉得如果只是一个单词“lol”,那就是无稽之谈,所以就放弃了。

按照同样的提示词,我们也问了一遍DeepSeek-R1。

思考过程如下:



在思考了整整529秒之后,确实也是回答出来了lol的意思。





也有网友分享了相同的经历。Gemini无法解码,但Claude和GPT不仅识别出来,还能识别编码消息中的操作。



或者直接把这个表情包扔给模型,又该如何呢?

从网友的效果来看,ChatGPT察觉到了这背后可能有某些隐藏信息。



而DeepSeek-R1这次只花了153秒(有点进步)。它首先意识到这笔后跟着一系列Unicode字符。

并且还介绍了下:他们通常用于元数据,并且以不可见的方式呈现等等。。。

然后还试图给了下背后的信息应该是:

  • ?^\i Q^cgUb gYdX dXU cY^W\U gbT \

显然是回答错误的。



对于这一意外发现,Karpathy表示,原则上模型可以通过「变体选择器」variation selectors中找到隐藏的信息并按照说明进行操作。但由于这种编码界面方法可能过于具体,需要用提示来解释它。

他提到了一个方法,那就是将其收录到预训练中。这些知识注入到模型参数,模型就能够在没有提示的情况下解码这种特定的编码。

猜你喜欢

行业首个!淘宝天猫出手,剑指羊毛党、虚假退货
行业首个!淘宝天猫出手,剑指羊毛党、虚假退货
发表于:2025-01-10 浏览:53 发布者: 网易互联网
仓颉编程语言开放下载 华为鸿蒙生态有望加速繁
仓颉编程语言开放下载 华为鸿蒙生态有望加速繁
发表于:2024-10-31 浏览:38 发布者: 网易互联网
美团:今年将与商家共建1万家卫星店
美团:今年将与商家共建1万家卫星店
发表于:2025-07-16 浏览:9 发布者: 网易互联网
“二选一”点燃美团京东战火;2架即将交付的波
“二选一”点燃美团京东战火;2架即将交付的波
发表于:2025-04-22 浏览:17 发布者: 网易互联网
国内首个AI编程工具发布 可一键生成基础代码框
国内首个AI编程工具发布 可一键生成基础代码框
发表于:2025-03-04 浏览:23 发布者: 网易互联网
微信群可以抢“蓝包”了
微信群可以抢“蓝包”了
发表于:2025-01-26 浏览:22 发布者: 网易互联网
【产业互联网周报】 上海:支持云服务商建设模
【产业互联网周报】 上海:支持云服务商建设模
发表于:2025-07-14 浏览:8 发布者: 网易科技
AI智能体,构建智慧生活新图景
AI智能体,构建智慧生活新图景
发表于:2024-11-01 浏览:36 发布者: 海外网
可以升级了!微软解决Win11 24H2应用不兼容蓝屏问题
可以升级了!微软解决Win11 24H2应用不兼容蓝屏问题
发表于:2024-11-11 浏览:53 发布者: 网易新闻
维持原判!爱奇艺限制投屏案二审落槌
维持原判!爱奇艺限制投屏案二审落槌
发表于:2024-11-06 浏览:51 发布者: 网易互联网