视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

人工智能又有新进展!DeepSeek-OCR通过像素化处理文本,压缩比例低于1/10,基准测试中名列前茅。开源一天获得4.4k个星星,Karpathy也坐不住了,期待视觉输入的更多可能性。

DeepSeek再一次让人惊叹不已!

他们的新成果DeepSeek-OCR,可谓是一场革命——

文本不再是唯一的输入方式,视觉将主导一切!

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

而且,在光学字符识别(OCR)任务上,DeepSeek-OCR的表现也让人刮目相看——

🚀在一块A100-40G显卡上,它的速度能达到每秒约2500个Token,真是飞起来了。

🧠在保持97%准确率的同时,能够将视觉信息压缩到原来的1/20,日常使用中压缩比也能轻松做到低于1/10

📄 在OmniDocBench基准测试中,利用更少的视觉Token,它的表现甚至超过了GOT-OCR2.0和MinerU2.0。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

那么,这个效果到底有多惊人呢?

一整页密密麻麻的文字,竟然能压缩到仅100个视觉Token,在OmniDocBench上实现了最高60倍的压缩率!

DeepSeek-OCR简直就像把文字变成了像素点,仿佛是把一本100页的书浓缩成一张照片,AI依然能轻松理解。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

参数少、压缩比高、速度快,还支持100种语言……DeepSeek-OCR简直是全能选手。

它不仅在理论上具有很高的价值,实际应用也相当广泛,用户的反馈更是好评如潮:

GitHub上的DeepSeek-OCR项目,吸引了4.4k颗星星🌟

说到DeepSeek-OCR这个开源项目,它的表现真的是让人刮目相看。想象一下,把一本厚厚的书简化成一张图片,AI却能轻松搞定。这款工具的参数设置简单,压缩效率高,速度也飞快,甚至能支持多达100种语言,简直是个多面手!

它不仅在理论上有着惊人的潜力,实际应用中也是大显身手,用户们对它的评价更是好评如潮。DeepSeek-OCR用真实的案例告诉我们,像缩微胶片、书籍这样实体的页面,才是训练AI模型的最佳素材,而不是那些质量参差不齐的网络文章。

特斯拉前AI总监、OpenAI创始团队成员Karpathy简直乐开了花,他对DeepSeek的新模型赞不绝口。

Karpathy迫不及待,早已厌倦分词器

Karpathy对DeepSeek-OCR的新论文非常感兴趣。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

更有趣的是,对于大型语言模型而言,使用像素作为输入真的比文本好么?文本Token是否让输入变得既浪费又低效呢?

DeepSeek-OCR正在挑战「文本主导AI的传统观念」,视觉可能会重回风口!

Karpathy自称「从骨子里就是做计算机视觉的」,不过他目前暂时在自然语言处理领域徘徊,所以对这些问题格外关注。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

或许,未来的大语言模型输入只需要图像,这样的想法才更为合理。即使你手上有纯文本,先把它转成图像再喂给模型,可能效果更好:

更高的信息压缩率 => 更短的上下文窗口,高效得多。

信息流的适用性大幅提高 => 不仅限于文本,还能处理粗体、彩色文本以及各种图像。

现在的输入可以轻松且默认地用双向注意力机制进行处理,而不是自回归注意力——这可要更强大得多。

把(输入端的)分词器tokenizer干掉!!

特别是最后这一点,Karpathy早就忍无可忍,反复吐槽分词器的缺陷——

分词器既丑陋又独立,根本不是端到端的过程。

它「引入」了Unicode和字节编码的种种糟粕,背负着沉重的历史包袱,同时还带来了安全和越狱的风险(比如连续字节问题)。

它让两个看似完全一样的字符,在网络内部变成了完全不同的Token。

比如一个微笑的表情符号😄,在大型语言模型眼里,只是个奇怪的token,而不是一个具备像素、承载丰富信息、能够进行迁移学习的真实笑脸。

总之,Karpathy坚信,分词器的问题太多,这次必须把它打发走。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

而且,他还展望了视觉作为通用输入的未来:

OCR只是「视觉到文本」众多实际应用中的一种。「文本到文本」的任务也完全可以被转化为「视觉到文本」的任务,反之就不一定。

所以,用户输入的内容可能是图像,而解码器(即「智能助理」的回应)依然是文本。

至于如何真实地输出像素,或者说你是否真的想这样做,目前还没那么清晰。

现在,Karpathy表示,他正在拼命克制,不去搞一个只用图像输入的「nanochat」支线任务。

为什么图像输入对AI更友好?

有网友提问:

首先,为什么图像能轻松获得双向注意力,而文本却做不到?

再者,虽然图像没有像文本那样的「Token化」过程,但我们在将输入图像切割成一个个图像块(patches)时,难道得到的结果不也是类似,甚至可能更糟糕吗?

### 网友对Karpathy的提问与讨论

最近,Karpathy提到了一些关于文本生成的想法。他表示,理论上是可行的,但为了提高效率,通常生成文本时会采用比较简单的自回归训练方法。

想象一下,如果有一个中间训练阶段,能够利用双向注意力机制来微调那些不需要预测或生成的用户消息Token,这样会更高效。

理论上,可以对整个上下文进行双向编码,目标只是为了解析下一个Token,但这样做的缺点是训练过程无法并行化。

至于另一种观点,他认为这与“像素和Token”的关系并不大,关键在于像素是经过编码的,而Token则是被解码的。

不过,关于Karpathy提出的“nanochat支线任务论”,一些网友却不太赞同:

DeepSeekOCR的研究表明,这不仅仅是个压缩的问题,更涉及到语义的提炼。

分词器的时代意味着我们学会识字,而像素的时代则关乎我们的感知能力。

所以,Nanochat不应被看作支线任务,它实际上是“光学认知”的起点。

在评论区,网友们纷纷呼吁Karpathy:赶紧开发一个只用图像输入的“nanochat”吧!

### 马斯克的光子猜想:未来的AI将与光子密切相关

马斯克,这位Karpathy的前老板和好友,给出了一个相当科幻的预测:

从长远来看,AI模型的输入和输出中,有超过99%将会是光子。

他甚至让Grok来算了一算,已知宇宙中光子的总数量。

马斯克的光子预测:未来的AI与光子息息相关

估算可观测宇宙中光子的总数其实并不是一件简单的事情,但我们可以通过一些关键的因素来得到一个大概的数字。这些因素包括宇宙微波背景辐射(CMB)所产生的光子、来自星星的光子,还有其他一些微弱的光源。

在这些因素中,宇宙微波背景辐射(CMB)占据了绝对主导地位,因此我们可以推测,整个可观测宇宙中的光子总数大约为1.5×10⁸⁹个。这个数字虽然是个粗略的估算,但它与宇宙学的计算结果大致吻合,具体数值还会受到可观测宇宙体积和其他微小来源的影响。

哇,1.5×10⁸⁹这个数字简直让人惊叹!没有其他东西能达到这样庞大的规模,这正是马斯克思考的逻辑。

毕竟,人类自身就是一个通用的“光学计算系统”,我们的眼睛帮助我们感知这个世界:

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

作者介绍

这篇论文的作者有三位,分别是Haoran Wei、Yaofeng Sun和Yukun Li。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

论文地址:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

作为第一作者的Haoran Wei,之前还参与了一个在GitHub上备受欢迎的项目GOT-OCR2.0,项目名为「通用OCR理论:通过统一的端到端模型迈向OCR-2.0」。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

项目地址:
https://github.com/Ucas-HaoranWei/GOT-OCR2.0

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

论文地址:
https://arxiv.org/abs/2409.01704

### 深入了解AI人才:Yaofeng Sun与Yukun Li

Yaofeng Sun是DeepSeek的一名软件工程师,他在2023年加入了幻方AI/DeepSeek这个大家庭。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

根据谷歌学术的资料,他参与了多个模型的研究,包括DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2等。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

他本科毕业于北京大学的图灵班,专业是计算机科学。

在校期间,他代表北京大学参加了ACM-ICPC亚洲区域赛,并连续三年获得金牌,参赛的地区包括EC总决赛(2017)、青岛、西安、上海和南京等地。

此外,他还曾在全国信息学奥林匹克竞赛(NOI)中拿到金牌,时间是2015年和2016年。

视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!

而Yukun Li同样是一位活跃的AI从业者——

自2020年以来,他的引用次数已经突破了9000,参与的项目包括DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2等。

一起见证AI的崛起与创新!

AI新突破

我们一同见证这些伟大的AI突破,还能亲眼目睹开源AI的快速发展!

参考链接:

https://x.com/karpathy/status/1980397031542989305

https://x.com/teortaxesTex/status/198023417556435798

https://www.linkedin.com/in/sunyaofeng/

本文由“新智元”微信公众号提供,作者:新智元,经过36氪授权发布。

来源:今日头条
原文标题:文本已死,视觉当立,Karpathy狂赞DeepSeek新模型,终结分词器时代 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《视觉时代来临,Karpathy盛赞DeepSeek新模型,分词器将被历史淘汰!》有3条评论

  1. DeepSeek-OCR的技术进步真是让人惊叹,能把大量文字压缩成少量视觉Token,未来的AI输入方式或许真的会全面转向视觉。期待更多应用落地!

    回复
  2. DeepSeek-OCR的表现让我大开眼界,尤其是它的高压缩比和支持多语言的能力,未来视觉输入真有可能取代传统文本!

    回复
  3. DeepSeek-OCR的压缩能力和速度令人震撼,视觉输入的未来展现出无限可能,非常期待它在实际应用中的表现。

    回复

发表评论