关键转折点:神经网络的兴起。20世纪80-90年代,递归神经网络(RNN)和长短期记忆网络(LSTM)的出现允许模型处理序列数据,但在长序列上易出现梯度消失的问题,导致很难去训练大规模模型。Transformer架构的诞生(2017年):这是LLM形成的里程碑。Google研究团队在论文《Attention Is All You Need》提出,Transformer取代了RNN,使用自注意力机制(Self-Attention)来并行处理序列提高效率和性能。在此基础上就使得模型能够处理更长的上下文,并能捕捉词与词之间的复杂关系。