AI大模型的前世今生

多客科技 · 发表于 2023-11-20 04:20

作者：华之译
— 1 —
AI 大模型的进化简史

萌芽阶段（1956-2005年）：

这个时期标志着人工智能的早期阶段，以基础理论和概念的发展为主导。

发展阶段（2006-2019年）：这一阶段见证了深度学习科学的兴起。

关键的发展里程碑包括：

2006年：深度学习开始RGB露头角。

2012年：AlexNet在ImageNet挑战赛中取得了显著成绩，这是深度学习和深度神经网络在图像识别方面的重要进展。

2013年：Google Brain开发了DistBelief系统。

2014年：生成对抗网络（GAN）的提出，为AI模型生成形象开辟了新的道路。

2017年：Google的Transformer模型的出现，以及论文“Attention Is All You Need”的发表，自然引起语言处理的一个重要进步。

探索阶段（2020年及以后）：

2018 年  OpenAI 发布 GPT-1 模型，标志着预训练模型在自然语言处理领域的兴起。

2019 年,  OpenAI 和 Google 又分别发布了 GPT-2 与 BERT 大模型，意味着预训练大模型成为自然语言处理领域的主流。

2020年：OpenAI发布GPT-3模型，是当时世界上最大、最强的语言处       理模型之一。

2022年11月：OpenAI发布了GPT-3.5模型，进一步提升了性能。

2023 年,  OpenAI 发布超大规模多模态预训练大模型 GPT-4，具备了多模态理解与多类型内容生成能力。谷歌推出 PaLM2 模型，Meta 发布 LLaMA-13B。

国内，百度率先发布文心一言，随后阿里、商汤、  360、华为等企业纷纷  发布自己的大模型，复旦、清华、哈工大、中科院等学院派，也发布了各自的大模型，市场进入了  "百模混战"格局。

— 2 —
大模型是什么

LLM（Large Language Model）是一种高级的人工智能技术，用于理       解和生成自然语言文本。它是基于机器学习特别是深度学习的大型神经网络模型，旨在模拟人类语言处理的能力。以下是LLM的几个关键特点：

大规模训练数据：LLM通常在大量文本数据上进行训练，这包括书籍、网站、新闻文章等各种语料库。这样的训练使得模型能够理解语言的广泛用法和语境。

深度学习架构：LLM通常基于变换器（Transformer）架构，这是一种特别适用于处理序列数据（如文本）的神经网络结构。

预训练和微调：LLM首先在大量文本上进行预训练，以学习语言的基本模式和结构。之后，它可以通过在特定任务上的微调（如翻译、文本生成、问答）进一步优化其性能。

多功能性：由于其广泛的训练，LLM能够执行多种语言任务，包括文本生成、阅读理解、翻译、摘要、对话生成等。

语言理解和生成能力：LLM不仅能够理解输入的文本，还能生成连贯、相关且通常是准确的回应。

适应性和灵活性：LLM可以适应各种语言环境和用户需求，提供定制化的回答和解决方案。

大模型能带来哪些好处？

1）更好的效果。大模型基于更大规模的参数和更深的结构，能够提供更高精度的能力，从而在各类任务中取得更好表现。

2）更广泛的适用性。  大模型拥有更强的表征能力和灵活性，在不同场景间表现出了更强的兼容性和适用性。

3）自监督学习能力。  海量无监督文本语料学习，大幅降低标注成本。

4）预训练+场景微调，  更好的适应长尾场景。

基础大模型的局限性有哪些？

1）通而不专。  基础大模型在拥有更强的泛化能力的同时，对于专业纵深领域应用依然存在欠缺。

2）资源开销大。  大模型超大规模参数和计算量，对模型训练与运行的资源要求高，且对专业领域，多数的资源开销不带来价值。

3）训练门槛高。因超大规模参数量影响，大模型的调整学习对研发人员有较高要求。

— 3 —
百模大战

1、国内大模型

1）百度文心一言：国内首个大模型发布者， AI 应用场景覆盖广

百度文心大模型是百度依托飞桨、文心大模型的技术创新推出的产业级知识增强大模型，既包含基础通用的大模型，也包含面向重点任务领域和行业的大模型，以及丰富的工具与平台支撑。文心大模型从海量数据和多源丰富知识中融合学习，效率更高，效果更好。

2）腾讯混元大模型

腾讯的混元大模型采用了强化学习技术，通过与人类专业知识的深度结合，使机器能够更加智能地完成任务。混元大模型已经在游戏、社交、推荐等多个领域得到应用，取得了良好的效果。

3）阿里通义大模型

阿里通义大模型采用了多模态技术，将不同类型的数据进行融合，从而得到更加全面和准确的信息。通义大模型已经在电商、智能客服、智能推荐等多个领域得到应用，取得了良好的效果。

4）华为盘古大模型

华为的盘古大模型是华为云联合西安交通大学、武汉大学、华中科技大学、复旦大学等十几所高校，在大量产业界实践的基础上联合打造的业界最大规模中文NLP预训练语言模型。盘古大模型已经在自然语言处理、文本分类、情感分析等领域得到应用，取得了良好的效果。

2、国外大模型

1）OpenAI：该公司开发的GPT-4模型是2023年最好的AI大模型之一，具有强大的能力，包括复杂的推理能力、高级编码能力、多种学术学习能力、可媲美人类水平表现的能力等。GPT-4模型是第一个可以同时接受文本和图像作为输入的多模态模型。

2）Google：Google开发的BERT模型在自然语言处理领域有着广泛的应用，它是一种基于Transformer的预训练语言模型，可用于各种自然语言处理任务，如情感分析、文本分类和问答系统等。

3）Meta：Facebook开发的大规模神经网络模型也被广泛应用于自然语言处理领域，包括文本分类、情感分析、问答系统等。

— 欢迎加入知识星球 —

账号		自动登录	找回密码
密码			注册

萍聚头条

[计算机] AI大模型的前世今生

本帖子中包含更多资源

浏览过的版块