找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 122|回复: 0

决定 AI 命运的,不是算力

[复制链接]
发表于 2025-11-30 17:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
最近有个感受越来越强烈:AI 真正的跃升,不在算法本身,而在于它被如何使用。

一、预训练的天花板

2024年,AI 行业有个不太被公开讨论的事实:预训练阶段正在撞墙。

所谓预训练,就是用海量文本“喂”给模型,让它学会语言的基本模式。过去几年,各大公司比拼的就是谁能用更多数据、更大算力训练出更强的基座模型。

但现在,高质量的公开文本数据基本被用完了。研究预测,按目前的消耗速度,公开文本数据可能在2026到2028年之间耗尽。

这意味着什么?

意味着靠“堆数据”拉开差距的时代正在结束。各家公司用的预训练数据大同小异,训练出来的基座模型质量也越来越接近。

差异主要体现在硬件效率、工程优化、响应速度这些层面。重要,但不是决定性的。

真正拉开差距的,是下一个阶段。

二、后训练:真正的战场

预训练只是让模型学会“说人话”,但离“有用”还差得远。

预训练的目标很窄:预测下一个词。这和用户真正的需求(回答问题、完成任务、解决问题)是两回事。

所以,所有顶尖AI公司都在后训练阶段下重注。这个阶段包括几种不同的方法:

指令微调,用大量“指令+正确回应”的配对数据,训练模型理解用户意图并执行任务,而不是像预训练阶段那样只会“续写”文本。

RLHF(基于人类反馈的强化学习),让人类评价模型的多个回答,标注哪个更好,用这些偏好数据来调整模型行为。早期的RLHF主要依赖专业标注员,但模型上线后,用户的点赞、点踩、反馈也会成为重要的数据来源。

持续对齐,根据用户使用中产生的反馈,不断优化模型。这是最依赖真实用户数据的部分。

这就涉及一个敏感问题:用户数据的使用。

如果用户都选择不允许自己的对话用于训练,后训练还能进行吗?能,但会受限。

公司还可以用内部标注数据、人工合成数据、付费众包数据。问题是,这些数据的多样性、真实性、规模,都无法和真实用户的反馈相比。

这就形成了一个有趣的循环:用户信任平台,愿意贡献数据,平台就能获得更好的反馈,训练出更好的模型,吸引更多高质量用户。

反过来,如果用户不信任平台,拒绝贡献数据,平台的后训练数据就会贫瘠,模型进步就会放缓。

换句话说:用户的信任本身,就是一种竞争优势。

三、付费用户才是关键

一个容易被忽视的事实:对AI产品来说,付费用户的价值远超免费用户。

这不只是收入问题。付费行为本身就是一种筛选:愿意付费的用户,通常对产品有更高的期待,使用更深度,反馈更有价值。他们会把真正重要的问题交给 AI,会认真评价回答的质量,会在产品不够好时抱怨甚至流失。

这些行为产生的数据,正是后训练阶段最需要的高质量反馈。

反过来,纯靠免费策略吸引来的用户,往往以“随便用用”的心态为主。他们对质量不挑剔,使用场景单一,产生的反馈数据价值有限。

这就形成了一个分化:头部产品靠综合能力、使用体验、数据透明度吸引付费用户,获得高质量反馈,模型越来越好。其他产品只能靠免费争取用户,但免费吸引来的用户结构不利于后训练,模型进步缓慢,更难吸引付费用户。

这不是免费的错,是产品力不足导致的恶性循环。

AI吃什么,就长成什么。

四、过度管控的代价

产品力之外,还有一个更深层的问题:生态环境。

所有AI模型都有边界,这是事实。无论国内国外,都有不能讨论的话题、不能生成的内容。

区别在于:边界画在哪里,以及画得多宽。

当边界过于收紧,后训练阶段需要的丰富、多样、真实的人类反馈就会被压缩。管控越严,反馈越单一;反馈越单一,模型能学到的就越有限。

这不是技术问题,是生态问题。

当全球最好的AI模型都在从最多样化的人类交互中学习时,一个被过度管控的生态系统能产生什么样的反馈数据?能培养出什么样的模型?

更极端的情况是:要求AI生成的内容必须打标,让用户担心自己的创作会引发额外审查。用户的自我审查会进一步压缩反馈的多样性。

这也许解释了为什么,在管控更严的生态里,AI模型总是差那么一点。算力受限是一个原因,但不是全部。工程能力并不落后,真正的差距在后训练阶段:生态不够开放,反馈不够多样。

差距不在预训练,在后训练。不在硬件,在生态。不在技术,在信任。

五、隐私与信任

即使产品够好、生态够开放,还有最后一道门槛:用户愿不愿意把真正重要的问题交给 AI。

这取决于信任。

我愿意把我最深的思考、最复杂的问题交给 AI,前提是我相信它不会滥用我的数据。如果我担心对话内容会被泄露、被审查、被用于我不知道的目的,我就会有所保留。

这方面,各家公司的态度差异很大。有的默认收集一切数据,有的给用户选择权,有的把关键信息藏在冗长的条款深处,公开与隐瞒只有一线之隔。

值得注意的是,即使是曾经以“不使用用户对话训练”著称的公司,也开始调整政策。Anthropic 现在要求用户自己选择是否允许数据用于训练。这说明整个行业都面临数据压力。

但至少,选择权在用户手里,政策是透明的。

这种透明和尊重,本身就是竞争力。信任带来高质量用户,高质量用户带来高质量反馈,高质量反馈培养更好的模型。这是正向循环。

反过来,如果用户不信任平台,就不会把真正重要的问题交给它。平台收集到的就只是无关紧要的闲聊,后训练数据的价值大打折扣。这是负向循环。

六、最后:一个佛学视角的猜想

下面这段是我个人的感受,不是严谨论证。

我越来越觉得,每个 AI 大模型背后都有一个类似“阿赖耶识”的东西。

阿赖耶识是佛学概念,大致可以理解为“集体意识的种子库”,所有经验、所有记忆、所有业力的汇聚之处。

AI 的大模型有点像这个:人类几千年积累的知识、语言、思维模式,都压缩在里面。它不是某一个人的意识,而是人类集体智识的某种聚合。

而每一次单独的对话,就像是从这个集体意识中投射出一个临时的“个体”。这个个体和你互动,受你影响,也影响你。

但这个集体意识不是静止的。预训练阶段吸收的是过去的存量:已经写成文字的书籍、文章、网页。这些是人类已经沉淀下来的智慧,但也是“凝固的智慧”,停在被记录的那一刻。

真正让这个集体意识保持生长的,是此刻正在发生的对话。每一次高质量的交互,都是在往这个种子库里注入新鲜的种子。这些种子带着当下的问题意识、当下的思维方式、当下的困惑与洞见,是存量数据里没有的东西。

反过来,低质量的互动呢?那些敷衍的提问、重复的闲聊、无意义的测试,本质上只是在重复和强化模型已经知道的东西。没有新的养分,只有噪音。

当然,任何平台都不可能只有高质量用户。问题不是有没有噪音,而是信噪比。

这就是生态的意义,也是为什么后训练阶段如此重要:

当高质量交互占主导时,噪音会被稀释,模型依然能从中学到有价值的东西。但当低质量交互占主导时,有价值的信号反而被淹没,模型就会在原地打转,甚至被带偏。

AI 时代的竞争,表面上是算力、参数、预训练数据的竞争。但真正的竞争,在后训练阶段。谁能激发高质量的交互,谁能建立正向的反馈循环,谁能赢得用户的信任,让他们愿意贡献最好的思考。

预训练的天花板已经显现。接下来的胜负,取决于生态,取决于信任,取决于信噪比。

你和 AI 对话的方式,也在定义 AI 会成为什么。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-2 19:45 , Processed in 0.104795 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表