AI认知| 合成数据是大模型训练的永动机?

多客科技 · 发表于 2024-4-25 20:08

作者：AI认知札记
   现如今更大参数的模型，对算力需求巨大的同时，对数据也提出了更高的要求。千亿级大模型正迅速耗尽世界的高质量数据。因此利用AI合成数据，再投入到模型训练中，或许可以解决真实世界数据有限且昂贵的问题。对于使用合成数据，OpenAI的CEO Sam Altman不仅不介意，还放话“未来所有数据都将变成合成数据”。

   根据 Gartner 的预测，2024 年用于训练大模型的数据中有60%将是合成数据，到 2030 年大模型使用的绝大部分数据将由人工智能合成。市场规模方面，根据Cognilytica按照 Grand View Research的数据，合成数据市场规模在2021年大概是1.1亿美元，预计AI训练数据市场规模到2030年将超过1000亿美元。

      合成数据（synthetic data）是通过计算机技术人工生成的数据，而不是由真实事件产生的数据。但合成数据具备“可用性”，能够在数学上或统计学上反映原始数据的属性，因此可以作为原始数据的替代品来训练、测试并验证大模型。

   高质量数据是大模型技术发展的主要瓶颈之一，可供大模型学习的数据类型较多，但能够进一步拓展大模型知识边界、推动大模型推理、泛化等关键能力提升的数据更多偏向于视频、图片等多模态数据，以及特定行业中的领域知识数据。

   基础大模型训练所需的数据类型包含两大类，一是用于预训练(Pre-training)的世界知识，二是用于对齐(Alignment)的数据。合成数据作为真实数据的一种替代，现阶段虽然在预训练占比不高，但未来发展潜力巨大，可作为一个“新物种”密切关注；目前合成数据多应用于提升对齐阶段的数据获取效率，增强模型安全和可靠性。

合成数据：预训练语料

   首先，合成数据可应用于多模态数据的生成。最近火爆的Sora文生视频大模型，里面用到了大量由游戏引擎合成的视频数据作为训练集，以提高生成质量。此外，利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AI for Science等场景的训练。利用模拟模型生成多模态数据可以更好满足模型对训练数据差异化的需求。

   其次，合成数据还可应用于高价值领域知识的生成。核心是合成数据能通过对现有数据的深加工，将之前不能被用于训练的数据转化为可用，提升模型对数据利用的可能性。该过程分为三步：一是将原始数据(Data)转变为信息(Information)：即将非自然语言描述的内容（如工艺生产中的操作行为或时序数据）转化为大模型可读的结构化信息（操作记录）。二是将信息(Information)提炼为知识(Knowledge)：仅有操作记录并不能直接提供有效知识，但将多条结构化信息与行业的知识图谱、专家经验相结合，可以产出有价值的行业知识（如在什么温度下应该如何操作，好处是什么）。三是将得到的知识泛化：利用大模型的推理能力，将相对单一的知识进行多样性拓展，积累更丰富的行业语料。由此看出，大模型可以利用Data、Information、Knowledge等不同层次的内容，打通数据利用的模式。我们判断，通过合成数据拓展对数据利用的可能性，生成领域知识的趋势是“精”，即对语料质量要求高，且是不可或缺的。

合成数据：提升对齐阶段数据获取效率

   合成数据最大的优势是可以大幅提升对齐数据的获取效率，“如果掌握了合成数据技术，对齐的成本可能会降低好几个数量级，或用一样的投入产生更大数量级的数据，竞争格局就会发生变化”。例如斯坦福大学发布的70亿参数对话大模型Alpaca，正是采用此类Self-instruct 方法，用OpenAI的API自动生成指令数据进行微调。通常是用一个较大规模模型产出合成数据，生成指令及输入和输出样本，过滤掉无效或重复信息，自动化微调出性能较好的小模型，全过程中几乎无需人类标注。这不仅大幅降低了标注成本，也能缓解人工对齐导致模型对敏感问题拒答的情况。

账号		自动登录	找回密码
密码			注册

AI认知| 合成数据是大模型训练的永动机?

本帖子中包含更多资源