找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 121|回复: 0

AI有没有可能实现无限的上下文

[复制链接]
发表于 2026-1-4 23:12 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg
假设一个人足够聪明的话,要深刻了解一个专业领域,可能要读一百本专业书籍或者数百篇论文,而且要假设读的书和论文都是重要的,这样的阅读量大概在数千万字之间。目前最长的上下文长度为400万Token,换算成中文大约200万字,当然这不是很精准的一个估计,实际上能处理的文本数量可能远远少于200万字。在上一篇文章中,我们已经阐述了人脑不擅长记忆事物关系的缺点,在实际的学习当中,如果没有很好的知识检索方式,我们往往面临以下问题:1、什么是重要的问题?什么是重要的知识?2、与这个重要问题相关的领域,有哪些重要的知识存在?如书籍和论文。3、知识与问题的相关性如何?例如跨学科的知识之间,矛盾的理论之间,实验数据与理论数据的冲突之间......等等具备何种相关性?也就是在学习之前,我们还要清楚学习方向和学习地图的问题:重要的问题,与重要问题相关知识的地标,知识与重要问题的相关性强度三个问题。而“无限”的上下文能力,能够帮助我们很好的解决上述三个问题,在该领域中找出重要的问题,找出与重要问题相关的知识,量化知识与问题的关联强度。虽然AI目前阶段可能无法准确的量化问题的价值、相关性和相关性的强度,但AI可以帮忙做一次初步的筛选和整理。这项能力不仅仅可以用于科学研究,也可以用于商业洞察、项目管理、法律顾问......等等诸多需要长文本和复杂文档的领域。一、微积分思想可能是解决无限上下文的利器我们常常说的Token,主要是指词向量,是词与词之间的意义关系。我们可以把Token理解为一个句子、一个段落或者一篇文章的某个积分。那么我们也可以把一篇文章理解为一本书的某个积分,以此类推,我们可以把一本书或者一篇论文理解为某个知识体系的积分。那么我就可以得出一个词Token、句Token、文Token、书Token的概念,需要注意的是,我在这里表达的是一种用微积分思想来解决无限上下文的推测,而不是在定义一个具体的标准的概念或者术语,是一个猜想而不是一种具体的技术解决方案,因为我不是人工智能技术方面的专家。这个想法在没有预训练之前是无法实现的,因为没有Token之前,AI无法对用户输入的文档进行Token的自动化分解和向量标注,从而无法实现对整句、整段、整篇和整书进行自动化的意义标注。
w2.jpg
运用微积分的思路,就像把一本书提炼成章、节、文目录,从而把一个数千万字的知识体系提炼成一个AI可以处理的章、节、文目录。例如:运用一个100万Token的模型来处理一个1000万字的知识体系时,实际上是把1000万字的文本拆解成20个或者30个文本来进行处理,然后按照30个文本之间的相关性得出一个概要性的文本。当然这个思路需要一个分层的存储或者记忆机制,例如:原始文档层、拆解层、提炼层、整合层(输出层).....等等,运用监督训练的方式,持续优化各层之间的关系、意义精度、压缩比例等等,在用户端可以提供不同程度的输出,概括的、框架的、重点的、原始的内容。
w3.jpg
各个大模型之间,大模型和Agent之间,大模型、Agent、用户之间,可以互相监督学习,也可以蒸馏模型、Agent、用户之间的知识。在符合用户隐私利益,或者用户愿意开源知识的情况下,可以利用这样的机制来提升意义的精度。我认为真正的开源,不仅包括技术对用户开源,也包括用户对模型和Agent的知识开源。通过这样的逐步积累,就可以形成一个庞大的“脑联网”,大模型不仅仅是一群顶尖的研究员的工作,而是一种分层的、具有社会分工形式的工作。并且,也不用过于担心数据污染,因为在这样一种庞大知识体系的内部,知识之间存在很强相关性和逻辑链,一个错误的知识,在这样庞大的正确的逻辑链当中是无法生存的。二、浓稠特征转稀疏特征是解决端侧大模型上下文长度的有力武器模型的体积或者说参数量,归根结底是特征量的问题。在矩阵当中有一个特征不变量的思想(具体意思我不太懂,因为我数学不好),不过我把这一思路理解为充分特征转换为关键特征。这是一种什么思路呢?我们可以把梦境和实境的对照引入进来,假设梦境当中温度10°时激活淋雨或洗冷水澡,温度5°时激活在雪地中或者玩冰,而在现实当中温度10°+水+水滴落下才能确认是淋雨或者冷水淋浴,温度5°+雪才能确认是在雪地中,我不知道怎么用数学把这些特征参数化,但是这个例子能说明人的大脑可以通过关键特征复现部分场景(未必准确),可以通过相对充分的关键特征准确的复现场景。在图像技术当中,可以通过一个模糊的苹果轮廓复现一个完整的苹果图片。在三维重建中,可以用高斯泼溅将二维图片还原成三维图片。同样的道理,也可以将短文本还原成长文本,将长文本压缩为短文本,将巨量参数压缩为关键参数,将巨量特征压缩为少量关键特征。再举一个例子,例如用户说“今天很冷”这样一个主观表达,可能意味着今天下雪了,今天冷空气南下,今天风很大而且是秋冬时节......等等,但都有一个核心特征,即温度处于一个较冷的阈值,可能是10°以下,可能是8°以下,每个人的主观感受不一样,但一定有一个温度阈值。而我们将这个例子扩展开来,就可以发现人类所有的表达,其实都是围绕某些感受的某些特征来表达的,是从视觉、听觉、味觉、触觉、嗅觉......等基本的感知维度和一定阈值变化来进行表达的,而这些维度和阈值,其实就可以转化为特征和量化,语言是一层一层向外扩散和构建的(特别说明这里不是说语言结构和语法),而是遵循一种感受维度、感受程度、程度变化的基点,外层是相关性或逻辑,最外层是量化。(这里的表述不一定准确,这里还只是一个灵感,日后可能加以研究才能得出一个更准确的模型,核心的意思是:人类生成语言是遵循某种特定关系的。)这一段要表达的意思是:语言的生成和某些特定的物理量和生理量具有关系,他们之间是可以彼此映射的,这有可能是压缩LLM模型体量的一个突破点。最后,要睡觉了,这篇文章充满了胡思乱想,也许有的想法业界已经在研究,甚至已经有了研究成果,有些想法可能看起来不可思议,甚至有点搞笑,不过这都不重要,我写文章的目的在于记录自己的思考,将其植入我的记忆当中,将来遇到类似的知识时,我便知道这些知识的重要性,这类似于我自己先在大脑里面构建一个知识坐标,再去寻找知识或者等待知识的出现。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-1-12 06:16 , Processed in 0.091825 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表