作者:AI认知札记
现如今更大参数的模型,对算力需求巨大的同时,对数据也提出了更高的要求。千亿级大模型正迅速耗尽世界的高质量数据。因此利用AI合成数据,再投入到模型训练中,或许可以解决真实世界数据有限且昂贵的问题。对于使用合成数据,OpenAI的CEO Sam Altman不仅不介意,还放话“未来所有数据都将变成合成数据”。
根据 Gartner 的预测,2024 年用于训练大模型的数据中有60%将是合成数据,到 2030 年大模型使用的绝大部分数据将由人工智能合成。市场规模方面,根据Cognilytica按照 Grand View Research的数据,合成数据市场规模在2021年大概是1.1亿美元,预计AI训练数据市场规模到2030年将超过1000亿美元。
首先,合成数据可应用于多模态数据的生成。最近火爆的Sora文生视频大模型,里面用到了大量由游戏引擎合成的视频数据作为训练集,以提高生成质量。此外,利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AI for Science等场景的训练。利用模拟模型生成多模态数据可以更好满足模型对训练数据差异化的需求。