萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 419|回复: 0

[计算机] AI大模型的前世今生

[复制链接]
发表于 2023-11-20 04:20 | 显示全部楼层 |阅读模式
作者:华之译
— 1 —
AI 大模型的进化简史

萌芽阶段(1956-2005年):

这个时期标志着人工智能的早期阶段,以基础理论和概念的发展为主导。

发展阶段(2006-2019年):这一阶段见证了深度学习科学的兴起。

关键的发展里程碑包括:

2006年:深度学习开始RGB露头角。

2012年:AlexNet在ImageNet挑战赛中取得了显著成绩,这是深度学习和深度神经网络在图像识别方面的重要进展。

2013年:Google Brain开发了DistBelief系统。

2014年:生成对抗网络(GAN)的提出,为AI模型生成形象开辟了新的道路。

2017年:Google的Transformer模型的出现,以及论文“Attention Is All You Need”的发表,自然引起语言处理的一个重要进步。

探索阶段(2020年及以后):

2018 年  OpenAI 发布 GPT-1 模型,标志着预训练模型在自然语言处理领域的兴起。

2019 年,  OpenAI 和 Google 又分别发布了 GPT-2 与 BERT 大模型,意味着预训练大模型成为自然语言处理领域的主流。

2020年:OpenAI发布GPT-3模型,是当时世界上最大、最强的语言处        理模型之一。

2022年11月:OpenAI发布了GPT-3.5模型,进一步提升了性能。

2023 年,  OpenAI 发布超大规模多模态预训练大模型 GPT-4,具备了多模态理解与多类型内容生成能力。谷歌推出 PaLM2 模型,Meta 发布 LLaMA-13B。

国内,百度率先发布文心一言,随后阿里、商汤、  360、华为等企业纷纷  发布自己的大模型,复旦、清华、哈工大、中科院等学院派,也发布了各自的大模型,市场进入了  "百模混战"格局。

— 2 —
大模型是什么

LLM(Large Language Model)是一种高级的人工智能技术,用于理        解和生成自然语言文本。它是基于机器学习特别是深度学习的大型神经网络模型,旨在模拟人类语言处理的能力。以下是LLM的几个关键特点:

大规模训练数据:LLM通常在大量文本数据上进行训练,这包括书籍、网站、新闻文章等各种语料库。这样的训练使得模型能够理解语言的广泛用法和语境。

深度学习架构:LLM通常基于变换器(Transformer)架构,这是一种特别适用于处理序列数据(如文本)的神经网络结构。

预训练和微调:LLM首先在大量文本上进行预训练,以学习语言的基本模式和结构。之后,它可以通过在特定任务上的微调(如翻译、文本生成、问答)进一步优化其性能。

多功能性:由于其广泛的训练,LLM能够执行多种语言任务,包括文本生成、阅读理解、翻译、摘要、对话生成等。

语言理解和生成能力:LLM不仅能够理解输入的文本,还能生成连贯、相关且通常是准确的回应。

适应性和灵活性:LLM可以适应各种语言环境和用户需求,提供定制化的回答和解决方案。

大模型能带来哪些好处?

1)更好的效果。大模型基于更大规模的参数和更深的结构,能够提供更高 精度的能力,从而在各类任务中取得更好表现。

2)更广泛的适用性。  大模型拥有更强的表征能力和灵活性,在不同场景间 表现出了更强的兼容性和适用性。

3)自监督学习能力。  海量无监督文本语料学习,大幅降低标注成本。

4)预训练+场景微调,  更好的适应长尾场景。

基础大模型的局限性有哪些?

1)通而不专。  基础大模型在拥有更强的泛化能力的同时,对于专业纵深领 域应用依然存在欠缺。

2)资源开销大。  大模型超大规模参数和计算量,对模型训练与运行的资源 要求高,且对专业领域,多数的资源开销不带来价值。

3)训练门槛高。   因超大规模参数量影响,大模型的调整学习对研发人员有 较高要求。

— 3 —
百模大战

1、国内大模型

1)百度文心一言:国内首个大模型发布者, AI 应用场景覆盖广

百度文心大模型是百度依托飞桨、文心大模型的技术创新推出的产业级知识增强大模型,既包含基础通用的大模型,也包含面向重点任务领域和行业的大模型,以及丰富的工具与平台支撑。文心大模型从海量数据和多源丰富知识中融合学习,效率更高,效果更好。



2)腾讯混元大模型

腾讯的混元大模型采用了强化学习技术,通过与人类专业知识的深度结合,使机器能够更加智能地完成任务。混元大模型已经在游戏、社交、推荐等多个领域得到应用,取得了良好的效果。



3)阿里通义大模型

阿里通义大模型采用了多模态技术,将不同类型的数据进行融合,从而得到更加全面和准确的信息。通义大模型已经在电商、智能客服、智能推荐等多个领域得到应用,取得了良好的效果。



4)华为盘古大模型

华为的盘古大模型是华为云联合西安交通大学、武汉大学、华中科技大学、复旦大学等十几所高校,在大量产业界实践的基础上联合打造的业界最大规模中文NLP预训练语言模型。盘古大模型已经在自然语言处理、文本分类、情感分析等领域得到应用,取得了良好的效果。



2、国外大模型

1)OpenAI:该公司开发的GPT-4模型是2023年最好的AI大模型之一,具有强大的能力,包括复杂的推理能力、高级编码能力、多种学术学习能力、可媲美人类水平表现的能力等。GPT-4模型是第一个可以同时接受文本和图像作为输入的多模态模型。



2)Google:Google开发的BERT模型在自然语言处理领域有着广泛的应用,它是一种基于Transformer的预训练语言模型,可用于各种自然语言处理任务,如情感分析、文本分类和问答系统等。



3)Meta:Facebook开发的大规模神经网络模型也被广泛应用于自然语言处理领域,包括文本分类、情感分析、问答系统等。





— 欢迎加入知识星球 —


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网 |网站地图

GMT+2, 2024-5-21 11:06 , Processed in 0.092243 second(s), 16 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表