AI 大师 Andrej Karpathy 刚刚告诉我,他非常喜欢 DeepSeek 的 OCR 角色。原文:我真的很喜欢新的 DeepSeek-OCR 文档。这是一个很好的OCR模型(可能比重点差一点),是的,数据收集等等,但无论如何都无所谓。对我来说更有趣的是(尤其是作为一个核心是暂时伪装成自然语言的计算机视觉的人)是像素是否比文本更适合作为法学硕士的输入。文本标记是浪费还是可怕的收入? Karpathy 认为,除了模型本身之外,DeepSeek 论文还提出了值得思考的问题。对于法学硕士来说,像素是比文本更好的输入形式吗?文本标记是浪费还是不好?他还想象也许所有法学硕士的唯一输入应该是图像。即使是纯文本内容也必须先渲染为图像,然后再输入模型中。卡帕蒂列举了支持这一想法的四个主要原因。 1. 更高的信息压缩效率通过在图像中表示文本,gr可以实现食者信息压缩。这意味着上下文窗口更短且更高效。 2. 更通用的信息流 像素是比文本更通用的信息流。它不仅可以渲染纯文本,还可以轻松捕获粗体和彩色文本,甚至任意图形和照片。 3.默认实现强双向注意力。默认情况下,可以使用双向注意力自然轻松地处理像素化输入。这比自回归注意力更强大。 4. 完全删除Tokenizer。卡帕蒂并没有掩饰他对标记器的厌恶。他认为标记器是丑陋的、独立的阶段,也不会从一个极端走向另一个极端。 Unicode和字节编码的所有丑陋部分都被引入,许多历史问题被继承,并且引入了安全和越狱风险(例如连续字节问题)。他举例说,通过 Tokenizer,两个看起来一模一样的字符人眼在网络上显示为两个完全不同的令牌。笑脸表情符号并不是由像素组成的真正的笑脸,它们只是模特眼中的奇怪暗示。这使得模型无法利用视觉信息提供的迁移学习优势。他强调应该废除代币化器。 Karpathy 总结道,OCR 只是将视觉转换为文本的众多任务之一。传统的文本到文本任务可以重组为视觉到文本任务,但反之则不然。他设想了一种未来的交互模型,其中用户的输入(消息)是图像。解码器的输出(向导的响应)仍然可以是文本。这是因为尚不清楚如何生成像素,甚至不清楚是否应该生成像素,从而模糊了中心争议。 :双向注意力和图像阻塞关于Karpathy的观点,人工智能专家Yoav Goldberg提出了两个问题:1.为什么图像可以轻松捕获双向注意,但文字不能? 2. 没有标记化,但是将输入图像分割成块不是一种类似的、也许更丑陋的处理方法吗?卡帕蒂解释了这一点。他回应说,没有任何原则可以阻止文本使用交互式注意力。然而,为了提高效率,文本通常以自回归的方式进行训练。他想象可以在训练中间添加一个调整阶段,以使用双向注意力来处理条件信息(例如来自用户的输入消息,因为这些标记不需要模型生成)。不过,他不知道是否有人会这么做。理论上,可以对整个上下文窗口进行双向编码以预测下一个标记,但这会妨碍训练的并行化。最后他补充说,也许这个方面(双向注意力)严格来说并不是像素和令牌之间的本质区别,但像素通常是 en编码和令牌通常被解码(借用 Transformer 原始文章中的术语) Mask:未来 99% 是光子。讨论结束时,埃隆·马斯克也出现在评论区,并做出了一个更具未来感的决定。从长远来看,AI模型99%以上的输入和输出都将是光子。马斯克的言论并非随口而出。他还补充了一些火箭科普来解释为什么他认为“f”otons是放大的最终解决方案。简单地说,宇宙中的大多数粒子都是光子,而这些光子的主要来源是宇宙微波背景(CMB)。计算表明,CMB的光子密度约为每立方厘米410个光子。将此密度乘以可观测宇宙的巨大体积(约 465亿光年远)。半径)表明,仅 CMB 贡献的光子数量就达到了令人惊讶的数量,约为 1.5。这可能这是马斯克相信未来人工智能输入和输出将由光子主导的基本逻辑。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)均由用户上传发布。网易号是一个社交媒体平台,仅提供信息存储服务。