视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

人工智能又有新进展！DeepSeek-OCR通过像素化处理文本，压缩比例低于1/10，基准测试中名列前茅。开源一天获得4.4k个星星，Karpathy也坐不住了，期待视觉输入的更多可能性。

DeepSeek再一次让人惊叹不已！

他们的新成果DeepSeek-OCR，可谓是一场革命——

文本不再是唯一的输入方式，视觉将主导一切！

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

而且，在光学字符识别（OCR）任务上，DeepSeek-OCR的表现也让人刮目相看——

🚀在一块A100-40G显卡上，它的速度能达到每秒约2500个Token，真是飞起来了。

🧠在保持97%准确率的同时，能够将视觉信息压缩到原来的1/20，日常使用中压缩比也能轻松做到低于1/10。

📄 在OmniDocBench基准测试中，利用更少的视觉Token，它的表现甚至超过了GOT-OCR2.0和MinerU2.0。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

那么，这个效果到底有多惊人呢？

一整页密密麻麻的文字，竟然能压缩到仅100个视觉Token，在OmniDocBench上实现了最高60倍的压缩率！

DeepSeek-OCR简直就像把文字变成了像素点，仿佛是把一本100页的书浓缩成一张照片，AI依然能轻松理解。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

参数少、压缩比高、速度快，还支持100种语言……DeepSeek-OCR简直是全能选手。

它不仅在理论上具有很高的价值，实际应用也相当广泛，用户的反馈更是好评如潮：

GitHub上的DeepSeek-OCR项目，吸引了4.4k颗星星🌟

说到DeepSeek-OCR这个开源项目，它的表现真的是让人刮目相看。想象一下，把一本厚厚的书简化成一张图片，AI却能轻松搞定。这款工具的参数设置简单，压缩效率高，速度也飞快，甚至能支持多达100种语言，简直是个多面手！

它不仅在理论上有着惊人的潜力，实际应用中也是大显身手，用户们对它的评价更是好评如潮。DeepSeek-OCR用真实的案例告诉我们，像缩微胶片、书籍这样实体的页面，才是训练AI模型的最佳素材，而不是那些质量参差不齐的网络文章。

特斯拉前AI总监、OpenAI创始团队成员Karpathy简直乐开了花，他对DeepSeek的新模型赞不绝口。

Karpathy迫不及待，早已厌倦分词器

Karpathy对DeepSeek-OCR的新论文非常感兴趣。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

更有趣的是，对于大型语言模型而言，使用像素作为输入真的比文本好么？文本Token是否让输入变得既浪费又低效呢？

DeepSeek-OCR正在挑战「文本主导AI的传统观念」，视觉可能会重回风口！

Karpathy自称「从骨子里就是做计算机视觉的」，不过他目前暂时在自然语言处理领域徘徊，所以对这些问题格外关注。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

或许，未来的大语言模型输入只需要图像，这样的想法才更为合理。即使你手上有纯文本，先把它转成图像再喂给模型，可能效果更好：

更高的信息压缩率 => 更短的上下文窗口，高效得多。

信息流的适用性大幅提高 => 不仅限于文本，还能处理粗体、彩色文本以及各种图像。

现在的输入可以轻松且默认地用双向注意力机制进行处理，而不是自回归注意力——这可要更强大得多。

要把（输入端的）分词器tokenizer干掉！！

特别是最后这一点，Karpathy早就忍无可忍，反复吐槽分词器的缺陷——

分词器既丑陋又独立，根本不是端到端的过程。

它「引入」了Unicode和字节编码的种种糟粕，背负着沉重的历史包袱，同时还带来了安全和越狱的风险（比如连续字节问题）。

它让两个看似完全一样的字符，在网络内部变成了完全不同的Token。

比如一个微笑的表情符号😄，在大型语言模型眼里，只是个奇怪的token，而不是一个具备像素、承载丰富信息、能够进行迁移学习的真实笑脸。

总之，Karpathy坚信，分词器的问题太多，这次必须把它打发走。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

而且，他还展望了视觉作为通用输入的未来：

OCR只是「视觉到文本」众多实际应用中的一种。「文本到文本」的任务也完全可以被转化为「视觉到文本」的任务，反之就不一定。

所以，用户输入的内容可能是图像，而解码器（即「智能助理」的回应）依然是文本。

至于如何真实地输出像素，或者说你是否真的想这样做，目前还没那么清晰。

现在，Karpathy表示，他正在拼命克制，不去搞一个只用图像输入的「nanochat」支线任务。

为什么图像输入对AI更友好？

有网友提问：

首先，为什么图像能轻松获得双向注意力，而文本却做不到？

再者，虽然图像没有像文本那样的「Token化」过程，但我们在将输入图像切割成一个个图像块（patches）时，难道得到的结果不也是类似，甚至可能更糟糕吗？

### 网友对Karpathy的提问与讨论

最近，Karpathy提到了一些关于文本生成的想法。他表示，理论上是可行的，但为了提高效率，通常生成文本时会采用比较简单的自回归训练方法。

想象一下，如果有一个中间训练阶段，能够利用双向注意力机制来微调那些不需要预测或生成的用户消息Token，这样会更高效。

理论上，可以对整个上下文进行双向编码，目标只是为了解析下一个Token，但这样做的缺点是训练过程无法并行化。

至于另一种观点，他认为这与“像素和Token”的关系并不大，关键在于像素是经过编码的，而Token则是被解码的。

不过，关于Karpathy提出的“nanochat支线任务论”，一些网友却不太赞同：

DeepSeekOCR的研究表明，这不仅仅是个压缩的问题，更涉及到语义的提炼。

分词器的时代意味着我们学会识字，而像素的时代则关乎我们的感知能力。

所以，Nanochat不应被看作支线任务，它实际上是“光学认知”的起点。

在评论区，网友们纷纷呼吁Karpathy：赶紧开发一个只用图像输入的“nanochat”吧！

### 马斯克的光子猜想：未来的AI将与光子密切相关

马斯克，这位Karpathy的前老板和好友，给出了一个相当科幻的预测：

从长远来看，AI模型的输入和输出中，有超过99%将会是光子。

他甚至让Grok来算了一算，已知宇宙中光子的总数量。

马斯克的光子预测：未来的AI与光子息息相关

估算可观测宇宙中光子的总数其实并不是一件简单的事情，但我们可以通过一些关键的因素来得到一个大概的数字。这些因素包括宇宙微波背景辐射（CMB）所产生的光子、来自星星的光子，还有其他一些微弱的光源。

在这些因素中，宇宙微波背景辐射（CMB）占据了绝对主导地位，因此我们可以推测，整个可观测宇宙中的光子总数大约为1.5×10⁸⁹个。这个数字虽然是个粗略的估算，但它与宇宙学的计算结果大致吻合，具体数值还会受到可观测宇宙体积和其他微小来源的影响。

哇，1.5×10⁸⁹这个数字简直让人惊叹！没有其他东西能达到这样庞大的规模，这正是马斯克思考的逻辑。

毕竟，人类自身就是一个通用的“光学计算系统”，我们的眼睛帮助我们感知这个世界：

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

作者介绍

这篇论文的作者有三位，分别是Haoran Wei、Yaofeng Sun和Yukun Li。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

论文地址：
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

作为第一作者的Haoran Wei，之前还参与了一个在GitHub上备受欢迎的项目GOT-OCR2.0，项目名为「通用OCR理论：通过统一的端到端模型迈向OCR-2.0」。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

项目地址：
https://github.com/Ucas-HaoranWei/GOT-OCR2.0

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

论文地址：
https://arxiv.org/abs/2409.01704

### 深入了解AI人才：Yaofeng Sun与Yukun Li

Yaofeng Sun是DeepSeek的一名软件工程师，他在2023年加入了幻方AI/DeepSeek这个大家庭。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

根据谷歌学术的资料，他参与了多个模型的研究，包括DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2等。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

他本科毕业于北京大学的图灵班，专业是计算机科学。

在校期间，他代表北京大学参加了ACM-ICPC亚洲区域赛，并连续三年获得金牌，参赛的地区包括EC总决赛（2017）、青岛、西安、上海和南京等地。

此外，他还曾在全国信息学奥林匹克竞赛（NOI）中拿到金牌，时间是2015年和2016年。

视觉时代来临，Karpathy盛赞DeepSeek新模型，分词器将被历史淘汰！

而Yukun Li同样是一位活跃的AI从业者——

自2020年以来，他的引用次数已经突破了9000，参与的项目包括DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2等。

一起见证AI的崛起与创新！

AI新突破

我们一同见证这些伟大的AI突破，还能亲眼目睹开源AI的快速发展！

参考链接：

https://x.com/karpathy/status/1980397031542989305

https://x.com/teortaxesTex/status/198023417556435798

https://www.linkedin.com/in/sunyaofeng/

本文由“新智元”微信公众号提供，作者：新智元，经过36氪授权发布。

来源：今日头条

原文标题：文本已死，视觉当立，Karpathy狂赞DeepSeek新模型，终结分词器时代 – 今日头条

原文链接：https://www.toutiao.com/article/7563573041427481103/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！