找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 193|回复: 0

AI:语言模型的技术演变

[复制链接]
发表于 2025-5-30 21:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
(接前十九条)

浙江大学DS系列专题——大语言模型溯源

语言模型的技术演化:

One-hot 编码:高维稀疏(维度=词表大小),无法表达语义关联

Word Embedding 词嵌入编码:低维稠密向量(如20维可表示数百万词)

N-gram(基于词频概率,1970s)统计方法

LSTM/GRU(序列建模,2000s)神经网络

Encoder-Decoder 深度学习模型框架,可用于解决Seq2Seq 问题

Transformer(自注意力机制:并行计算 + 全局语义捕捉、前馈网络/位置编码/层归一化,2017)

BERT (Encoder) / GPT-1 (Decoder)        双向上下文 vs 生成能力(2018        )

GPT-3 (175B参数)        涌现能力、上下文学习(2020)

ChatGPT (GPT-3.5 + RLHF)指令对齐、拒绝不当问题——人工智能的IPHONE时刻(2022)

GPT-4 (多模态)图像/文本融合、逻辑推理跃升(2023)

GPT-4o (全模态交互)实时响应、多语言优化(2024)

DeepSeek-V3        开源-混合专家MoE模型,效率突破(2024)

DeepSeek-V3 Base        基础生成能力,MoE架构 + 工程优化

DeepSeek-R1        强化推理能力(2025)专注复杂逻辑(数学/编程),抗“越狱”能力增强

DeepSeek-R1-Zero        冷启动推理能力        GRPO强化学习(规则奖励)

DeepSeek-R1-Distill         小模型蒸馏        迁移R1能力至轻量模型(如7B)

DeepSeek-R1-0528 在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro

评:

从语言模型的技术演变,我们可以看到,AI技术不是凭空来的,是经过了很多年的探索、摸索,直到Transformer(自注意力机制:并行计算 + 全局语义捕捉、前馈网络/位置编码/层归一化,2017)才开启了AI技术的跳跃式发展

w1.jpg

w2.jpg

w3.jpg

w4.jpg

w5.jpg

w6.jpg

ima知识库:

w7.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

我是开心果

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-6-1 18:20 , Processed in 0.121310 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表