RNN与CNN的局限:循环神经网络(RNN)虽能序列处理数据但存在“健忘”(难以保持长期记忆);卷积神经网络(CNN)擅长局部特征提取但“视野狭隘”(缺乏全局关联能力)。Transformer架构:2017年Google提出《Attention Is All You Need》,引入自注意力机制,使模型能并行处理全文并理解上下文关联,完美解决了RNN的“健忘”和CNN的“视野狭隘”问题。大模型(Large Model, LM):参数规模突破亿级(如GPT-3达1750亿),模型知识覆盖面大幅扩展。参数量超百亿的模型称为大模型,如腾讯混元TurboS(5600亿参数)。