找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 118|回复: 0

新手学AI之33:100个关键词了解AI(26)

[复制链接]
发表于 2025-10-4 15:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章




@my thoughts

Celebrate your life

w1.jpg

功不唐捐 玉汝于成

向内探索的力量超乎你的想象

w2.jpg

通过100个核心关键词了解AI系列第26期来啦!

这期的内容聚焦【知识增强】。

01 知识图谱(Knowledge Graph)

    定义:知识图谱是一种用 图结构(节点 + 边)表示知识的方式,节点表示实体(如人、公司、地点、产品),边表示实体之间的关系(如“属于”“合作”“位于”)。 知识图谱是 连接数据与语义的桥梁,广泛应用于搜索、推荐、问答、风控和医疗等领域。未来的发展方向是 与大语言模型结合,形成 “知识增强的智能体”,让AI既能记忆事实,又能进行逻辑推理.
    知识图谱的核心组成:
      实体 (Entity)
        人物、地点、机构、产品等。示例:苹果公司、乔布斯、iPhone。




      关系 (Relation)
        实体之间的语义联系示例:乔布斯 → 创办 → 苹果公司





      属性 (Attribute)

        实体本身的特征

        示例:iPhone → 发布年份 → 2007




    知识图谱的关键技术
      信息抽取:从文本、数据库、网页中提取实体和关系。实体消歧:解决同名不同义问题,比如“Apple”是水果还是公司。图数据库:Neo4j、JanusGraph、TigerGraph,用于高效存储和查询图结构数据。推理 (Reasoning):利用已有知识推导新知识,例如:已知 “A是B的父亲”, “B是C的父亲”,可以推理出“A是C的祖父”。



    知识图谱的应用

      搜索引擎

        Google Knowledge Graph:搜索“Leonardo DiCaprio”,直接显示他的电影、获奖信息,而不是单纯网页链接。

      推荐系统

        电商平台:通过知识图谱将“用户 → 购买 → 商品 → 品牌 → 类别”连接起来,提升推荐准确度。

      智能问答

        Siri、Alexa、ChatGPT 等利用知识图谱更好地理解复杂问题。

        示例:问“乔布斯创办的公司CEO是谁”,模型可以沿着图谱推理。

      金融风控

        银行通过构建企业知识图谱发现隐形的股权关系,检测风险企业。

      医疗健康

        构建疾病-症状-药物知识图谱,辅助诊断与药物推荐。





    知识图谱在 AI 中的作用
      补充大模型的事实性:避免“幻觉”问题增强推理能力:将深度学习与符号推理结合(神经符号AI)可解释性:可视化知识路径,解释推荐或回答的依据









02  嵌入(Embedding)

    定义:嵌入是把 离散的对象(词语、句子、图像、用户、商品等)转换为连续的低维向量 的方法。
    直观理解:它是“翻译器”,把无法直接计算的东西(如文字)变成计算机可以处理的 数字向量表示。

    例如:


      “猫” → [0.12, 0.85, -0.33, …]

      “狗” → [0.10, 0.83, -0.30, …]

      这两个向量会非常接近,反映出“猫”和“狗”在语义上的相似性。
    为什么需要嵌入:
      机器无法直接理解语言,只能处理数字。如果直接用“one-hot编码”,每个词一个维度,导致维度过高(百万级)且无法表达语义相似性。嵌入通过学习 语义空间,能让语义相似的对象在向量空间中靠近。




    嵌入的类型
      词嵌入(Word Embedding)
        代表:Word2Vec、GloVe、FastText。特点:把词语映射到向量,捕捉语义关系。示例:vector("king") - vector("man") + vector("woman") ≈ vector("queen")。




      句子/文档嵌入(Sentence/Document Embedding)
        模型:Sentence-BERT, USE (Universal Sentence Encoder)用于相似句子检索、语义搜索。




      多模态嵌入
        图像、视频、音频也可以嵌入。示例:CLIP(OpenAI):把图片和文字放在同一个向量空间。




      用户 / 商品嵌入
        推荐系统里,把用户和商品转为嵌入,计算相似度做推荐。



    嵌入的计算方法
      基于共现统计(早期):Word2Vec、GloVe。基于深度学习模型:BERT、GPT、CLIP 直接输出嵌入向量。目标函数:通常是让“语义相关的对象”在向量空间中靠近,不相关的远离。


    嵌入的应用
      语义搜索
        用户输入问题,系统将问题嵌入 → 与知识库嵌入比较 → 找到语义最接近的答案。
      推荐系统
        用户嵌入 vs 商品嵌入 → 最近邻推荐
      聚类与分类
        在嵌入空间中聚类,得到语义相似的组。
      机器翻译 / 跨语言检索
        多语言嵌入:把不同语言的句子映射到同一个向量空间
      对齐与推理
        结合知识图谱,用嵌入方法表示节点,增强推理。




   
    与知识图谱的结合
      知识图谱是 结构化知识,但规模庞大、不易计算。嵌入能把 节点和关系 转化为向量,用于相似度计算和推理。典型方法:TransE, RotatE, Graph Embedding。







03  RAG(检索增强生成)

    定义:RAG 是一种把 信息检索(Retrieval) 和 生成模型(Generation) 结合起来的方法。
      目标:解决大语言模型(LLM)“知识有限、容易幻觉”的问题。核心思想:
      先从外部知识库(数据库、文档库、向量库)里 检索 相关信息。再把检索到的资料 输入到生成模型,辅助它生成更准确的答案。


    为什么需要 RAG
      LLM 记忆有限:模型的训练数据有时间限制(知识可能过时)。避免幻觉:LLM 有时会“编造事实”。提升专业性:可以利用领域知识库(医学、法律、金融)。节省成本:不需要频繁对 LLM 进行昂贵的微调(Fine-tuning)。


    RAG 的工作流程
    用户问题 → 检索模块(向量数据库) → 找到相关文档 → 传给 LLM → LLM 结合文档生成答案
      嵌入 (Embedding):把文档和用户问题转换为向量表示。检索 (Retrieval):在向量数据库里找到与问题最相关的文档。增强 (Augmentation):把这些文档和用户问题一起输入到 LLM。生成 (Generation):LLM 根据上下文生成答案




    RAG vs. 微调(Fine-tuning)
      RAG:外部检索 + 原始大模型,不改变模型参数。
        优点:灵活、知识更新快、成本低。
      Fine-tuning:修改模型参数,把知识“刻进”模型。
        优点:适合固定任务、风格要求。
      实际应用:




        新知识 / 动态数据 → 用 RAG。固定领域 / 风格 → 用 Fine-tuning。两者可以结合。






w3.jpg

w4.jpg

END

w5.jpg

如果喜欢,请点个关注吧~
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-7 02:25 , Processed in 0.140150 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表