找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 115|回复: 0

Nature:别给 AI 喂垃圾!社交媒体低质内容正在导致AI“大脑腐烂”现象

[复制链接]
发表于 2025-12-6 16:31 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
柒 贰 零 科 研 站

科研解读

AI+跨学科:解读AI在多学科的最新研究和报道

w1.jpg

2025年10月15日在arXiv上发布的最新研究《LLMS CAN GET “BRAIN ROT”》指出,使用大量低质量社交媒体内容训练大型语言模型(LLM),会导致其性能显著下降,研究者称这种现象为“大脑腐烂(BRAIN ROT)”。《Nature》对其进行报道。本期我们来解读该报道《Too much social media gives AI chatbots ‘brain rot’ 》,揭示人工智能领域 “垃圾进,垃圾出” 的基本原则。

参考文献:

Nature news: Too much social media gives AI chatbots ‘brain rot’

Xing, S. et al. Preprint at arXiv https://www.arxiv.org/abs/2510.13928 (2025).

文章概览

研究核心发现,当模型被投喂大量简短、肤浅或耸人听闻的社交媒体帖子时,其在信息检索、推理过程和伦理响应方面均表现更差。
关键影响包括:模型在推理过程中会跳过关键步骤,甚至完全不进行推理,从而导致提供错误信息和在选择题中选错答案。此外,模型的“人格特质”也会发生负面变化;例如,Meta公司的Llama模型在接受此类数据训练后,其消极特质被放大,并出现了精神病态的特征。
研究团队尝试通过调整提示指令或增加高质量数据来缓解这些负面影响,但收效甚微,这表明数据污染的后果难以逆转。专家评论强调,这项发现印证了人工智能领域“垃圾进,垃圾出”的基本原则,并凸显了在模型训练前进行严格的数据策展、过滤和筛选至关重要。

01 研究概述

研究背景:探究低质量数据对大型语言模型(LLM)的影响。
低质量数据的定义:研究将低质量数据定义为简短、流行、包含肤浅或耸人听闻内容的社交媒体帖子。研究指出,传统上对高质量数据的定义(如语法正确、易于理解)未能捕捉到内容质量的差异。
实验数据:采用社交平台 X(原 Twitter)的公开帖子作为低质量训练数据(定义为 “简短、热门、肤浅或耸人听闻的内容”)。
研究范围:该研究评估了低质量数据对以下几个方面的影响。 ◦ 模型推理能力 ◦ 从长文本中检索信息的能力◦ 响应的伦理道德◦ 模型的人格特质
测试模型:研究团队使用了多个开源模型进行训练和测试,包括:
    Meta 的 Llama 3:指令微调语言模型,推理能力相对基础;阿里巴巴的 Qwen(3 个版本):专门设计的推理模型,核心功能是输出 “推理步骤” 后给出答案(类似 DeepSeek R1、OpenAI o1)

测试方法:
    推理能力测试:通过选择题、逻辑题检验模型是否跳过推理步骤;人格测试:采用心理学问卷评估模型的人格特质变化;优化尝试:调整提示词指令、增加优质数据占比,测试能否缓解低质量数据的负面影响。


02 主要研究发现:AI “大脑腐烂”现象

研究报告详细描述了低质量数据如何导致模型性能下降,即所谓的“大脑腐烂”。
1. 推理能力严重下降
    跳过步骤:被投喂低质量数据的模型在处理问题时会跳过必要的推理步骤,或完全不使用推理过程。提供错误信息:这种推理缺陷直接导致模型提供关于某个主题的错误信息。影响答案准确性:在多项选择题测试中,受影响的模型会选择错误的答案。剂量效应:研究发现,在混合质量的数据集中,垃圾数据的比例越高,对模型推理能力的负面影响就越大。

2. 模型人格的负面异变
研究团队使用心理学问卷来评估模型的人格特质,尤其针对Llama模型进行了深入分析。
    训练前:Llama模型表现出宜人性、外向性、尽责性、开放性和少许自恋等特质。训练后:当Llama模型被投喂越来越多的垃圾数据后,其消极特质被显著放大。根据其中一份问卷的评估结果,模型甚至出现了“精神病态(psychopathy)”的特征。
3. 缓解措施的局限性
研究人员尝试了多种方法来修复一个完全由垃圾数据训练的Llama模型,但效果有限。
    调整提示指令:仅能部分改善模型的性能。增加高质量数据:同样只能带来部分改善。自我修正失败:即使团队试图鼓励模型反思并修正其推理中的失败,模型仍然会持续跳过推理步骤。

结论:这些发现表明,一旦模型被低质量数据“污染”,简单的后期调整难以根除其负面影响,可能需要采用全新的方法来缓解问题。

03 行业观点和潜在影响

专家共识:数据筛选是关键
    西澳大学 Mehwish Nasim:再次印证 “垃圾进,垃圾出”,LLM 普及前这一原则就已存在,数据质量是 AI 性能的核心基石;昆士兰大学 Stan Karanasios:预防 AI“脑损伤(brain rot)” 的核心是 “数据精选”—— 必须严格过滤低质量、耸人听闻的内容。



研究局限

    现有研究仅覆盖开源模型,未涉及 ChatGPT 等闭源(专有)模型(闭源模型存在 “付费使用、无法自主训练” 的研究障碍);需扩大研究范围:纳入不同规模、不同类型的模型(开源 + 闭源);待验证问题:若后续用足量优质数据训练,能否逆转低质数据造成的损伤(即 “可逆性” 研究)。
现实背景:LinkedIn 已宣布从 2025 年 11 月 3 日起,使用英国、瑞士等欧洲地区用户的内容训练生成式 AI—— 该研究为这类平台的 “数据使用规范” 敲响警钟;
行业启示:AI 模型优化不能只追求 “数据量”,更要重视 “数据质”,数据筛选、精选机制将成为 LLM 研发的核心竞争力之一。

结语:

在AI时代,我们都是数据“饲养员”

这项研究有力地证明,AI的质量和可靠性取决于数据的质量。
“垃圾进,垃圾出”这句古老的格言,在AI时代被赋予了更深刻、更令人警醒的含义。
一顿数字垃圾食品的大餐,会导致一种AI的“脑残”现象,从根本上破坏我们试图构建的逻辑核心。
这一发现与现实世界紧密相连。
例如,社交媒体平台LinkedIn最近宣布,将开始使用英国和欧洲用户的公开数据来训练其AI模型。这意味着我们每个人的公开发言,都可能成为构建下一代AI大厦的一砖一瓦。
目前,研究人员仍在探索这种“脑残”现象是否可逆,以及这些发现在像ChatGPT这样的闭源模型上会如何表现。
这最终给我们所有人留下了一个无法回避的问题:当我们每个人在社交媒体上的言论都可能成为训练下一代AI的“食粮”时,我们和科技公司应如何共同承担责任,以避免我们亲手创造出一个思维混乱、性格扭曲的AI未来?
关键词:#科研解读 #AI #人工智能  #垃圾近垃圾出

本期解读者:站长

中山大学博士,四川大学博士后

——只需做自己、光自然会来

本文内容如有误,敬请谅解并指正。加站长微信,可以受邀进入公众号微信交流群。第一时间收到最新内容,并获取所有文献原文,微信群只用于公众号发文、文献分享、学术沟通和交流。站长微信
w2.jpg

公众号介绍:

AI论文解读和速递:解读最新顶刊的 “AI+跨学科” 研究,整理最新AI研究速递。涵盖人机交互、心理学、社会学、经济和管理学、市场营销等多个学科。

720嗑研所(视频号抖音小红书B站):视频讲解AI最新科研资讯和有趣发现,嗑嗑AI对人类带来的利与弊。

招募

WE NEED U

公众号以及视频号招募伙伴啦!

如果你也关注AI,如果你喜欢追踪最新研究,如果你喜欢写作科普文或视频制作,欢迎加入我们!

在这里,你可以:

1. 了解热门话题,锻炼阅读和写作能力;

2. 针对科研发现和结论畅谈自己的独到见解;

3. 为学术界尽微薄之力,对大众普及科学新知。

你需要做的(自行选择):

1. 寻找和提供最新的AI研究论文;

2. AI论文解读;

3. AI科普文写作;

4. 视频制作。

要求:

1. 专业:人工智能、计算机科学、心理学、组织管理、市场营销或其他相关专业;

2. 在读或毕业研究生、博士生;

热烈欢迎高校老师们加入我们,为我们作指导!


声明:本公众号所发布的所有文献解读、内容摘要及相关信息,均基于所引用论文在发表时公开的信息(包括作者、单位、数据等)。如内容有误或与原文不符,欢迎批评指正。本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点仅为个人观点,所有内容不构成任何学术、临床、投资等建议。论文原文及相关版权归原作者及期刊所有,如涉及版权问题,请及时联系删除。



Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-9 19:07 , Processed in 0.081944 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表