跳至主要內容

第一次课

周子力大约 8 分钟教学文档知识图谱

《自然语言处理与知识图谱前沿》课程讲义


第一部分 NLP 基础

1. 课程介绍

【核心内容】 欢迎来到自然语言处理(NLP)与知识图谱(KG)的前沿课堂。本课程不仅涵盖经典 NLP 理论,更聚焦于大语言模型(LLM)时代的技术变革。

【课程目标详解】

  1. NLP 基础:掌握从词法分析到语义理解的完整技术栈。
  2. 知识图谱:理解结构化知识的构建、存储与查询。
  3. 信息抽取:学习如何从非结构化文本中自动化提取实体与关系(IE)。
  4. KG 推理:掌握基于图谱的逻辑推理与路径发现。
  5. KG+LLM(重点) 探索大模型与知识图谱的融合,如 GraphRAG、LLM 辅助图谱构建、图谱增强大模型推理等前沿方向。

【教授寄语】

"NLP 正在经历从‘感知智能’向‘认知智能’的跨越。理解基础,才能驾驭大模型。"


2. 什么是 NLP

【定义升级】

  • 经典定义:让计算机理解、处理人类自然语言。
  • 现代定义:实现人机之间的语义交互内容生成逻辑推理
  • 核心挑战:歧义性(Ambiguity)、上下文依赖(Context)、常识推理(Common Sense)。

【应用场景扩展】

  • 传统:搜索、语音助手(Siri, Xiao Ai)、推荐系统。
  • 前沿
    • AIGC:自动写作、代码生成(GitHub Copilot)。
    • AI Agent:自主规划任务的语言智能体。
    • 多模态交互:图文理解(CLIP, LLaVA)。

3. NLP 应用

【典型应用深度解析】

  1. 搜索引擎:从关键词匹配(BM25)到语义检索(Vector Search, New Bing)。
  2. 智能客服:从规则树到基于 LLM 的生成式问答(减少人工配置成本)。
  3. 舆情分析:从情感正负面判断到事件演化脉络追踪。
  4. 机器翻译:从统计机器翻译(SMT)到神经机器翻译(NMT)再到零样本翻译(LLM)。

【案例:Google 搜索的演变】

  • 过去:匹配网页关键词。
  • 现在:SGE(Search Generative Experience),直接生成答案摘要,背后是检索增强生成(RAG)技术。

4. NLP 任务体系

【传统流水线 vs. 端到端】

  • 基础任务(NLU)
    • 分词(Tokenization):中文需分词,英文需 Subword (BPE)。
    • 词性标注(POS):语法结构基础。
    • 命名实体识别(NER):抽取“谁、哪里、组织”。
    • 关系抽取(RE):抽取“实体间关系”。
  • 高阶任务(NLG & Reasoning)
    • 文本分类 / 情感分析。
    • 机器翻译 / 文本摘要。
    • 问答系统(QA) / 指令遵循(Instruction Following)

【教授提示】

在 LLM 时代,许多传统任务(如分类、抽取)可以通过 Prompt Engineering 转化为生成任务,但专用小模型在低资源场景下仍具优势。


5. NLP 发展

【技术演进路线图】

  1. 规则时代 (1950s-1990s):专家系统,手写规则(如 Chomsky 语法)。
  2. 统计时代 (1990s-2010s):HMM, CRF, SVM,基于概率统计。
  3. 深度学习时代 (2013-2017):Word2Vec, RNN, LSTM, CNN。
  4. 预训练时代 (2018-2022):BERT (Encoder), GPT (Decoder), Transformer 架构爆发。
  5. 大模型时代 (2023-至今):LLM (LLaMA, Qwen, ChatGLM), 多模态,Agent,RLHF 对齐。

【代表模型】

  • BERT:双向编码,适合理解任务。
  • GPT-4/LLaMA 3:单向解码,适合生成与推理任务。

6. 文本预处理

【经典流程】

  • 分词:Jieba (中文), SpaCy (英文), BPE/WordPiece (模型级)。
  • 去停用词:去除“的、了、the"等无意义词。
  • 标准化:大小写转换、繁简转换、全半角统一。

【LLM 时代的新视角】

  • 数据清洗:对于大模型训练,预处理更关注去重(Deduplication)、去毒(Detoxification)和质量过滤。
  • RAG 预处理:文本切片(Chunking)策略直接影响检索效果(如按语义切片而非固定字符数)。

7. 文本表示

【表示方法演进】

  1. One-Hot:离散、稀疏、无语义(已淘汰)。
  2. Word2Vec/GloVe:静态词向量,一词多义无法区分(如“苹果”是水果还是公司)。
  3. BERT Embedding:动态上下文向量,同一词在不同句子中向量不同。
  4. LLM Latent Space:高维隐空间表示,蕴含复杂的知识与推理能力。

【技术对比】

方法上下文敏感语义丰富度计算成本
Word2Vec
BERT
LLM极高

8. Word Embedding

【经典案例解析】

  • 公式Vector(国王)Vector(男人)+Vector(女人)Vector(女王)Vector(国王) - Vector(男人) + Vector(女人) \approx Vector(女王)
  • 原理:向量空间中的几何关系对应语义关系。

【现代扩展:向量数据库】

  • 在 RAG 架构中,Embedding 模型(如 BGE, M3E)将文本转化为向量,存入向量数据库(Milvus, Faiss, Chroma)。
  • 应用:语义搜索,寻找“意思相近”而非“字面匹配”的文档。

9. Transformer

【架构核心】

  • Self-Attention 机制:允许序列中任意两个位置直接交互,解决长距离依赖问题。
    • 公式:Attention(Q,K,V)=softmax(QKTdk)VAttention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V
  • Positional Encoding:因为 Transformer 并行计算,需注入位置信息。
  • Encoder-Decoder 结构
    • Encoder (BERT 用):看全文,适合理解。
    • Decoder (GPT 用):看过去,适合生成。

【教授提示】

Transformer 是当今所有大模型的“发动机”。理解 Attention 机制是理解 LLM 如何“关注”关键信息的基础。


10. 预训练模型

【模型家族】

  1. Encoder-only:BERT, RoBERTa。擅长分类、NER、匹配。
  2. Decoder-only:GPT 系列,LLaMA, Qwen。擅长生成、对话、推理。
  3. Encoder-Decoder:T5, BART。擅长翻译、摘要。

【微调技术 (Fine-tuning)】

  • Full Fine-tuning:全量更新参数。
  • PEFT (参数高效微调):LoRA, P-Tuning。在消费级显卡上适配大模型的关键技术。
  • 指令微调 (Instruction Tuning):让模型学会听从人类指令。

11. 文本分类

【传统方法】

  • FastText, TextCNN, BERT + CLS token。
  • 场景:新闻分类、垃圾邮件识别。

【LLM 新方法】

  • Zero-shot/Few-shot Classification:直接通过 Prompt 让 LLM 分类,无需训练。
    • Prompt 示例:“请将以下文本分类为 [体育,财经,科技]:..."
  • 优势:泛化能力强,支持细粒度分类。
  • 劣势:延迟高,成本高。

12. 情感分析

【任务升级】

  • L1 情感极性:正面/负面/中性。
  • L2 方面级情感 (ABSA):针对具体属性的情感(例:“屏幕很好,但电池不行” -> 屏幕:正,电池:负)。
  • L3 情感推理:分析情感产生的原因及强度。

【电商评论分析案例】

  • 利用 LLM 提取用户痛点,自动生成产品改进报告。
  • 结合知识图谱,分析“电池”这一实体在产业链中的关联舆情。

13. 实体识别 (NER)

【识别目标】

  • 通用实体:人名 (PER)、地点 (LOC)、组织 (ORG)。
  • 领域实体:药品名、法律条款、机械部件。

【技术挑战与方案】

  • 嵌套实体:如“北京大学”(ORG)包含“北京”(LOC)。
  • LLM 赋能:使用生成式抽取(如 UIE 模型),将 NER 转化为序列生成任务,解决标签体系灵活性问题。
  • 应用:构建知识图谱的节点基础。

14. 关系抽取 (RE)

【任务定义】 识别实体对之间的语义关系。

  • 示例:(马云,创始人,阿里巴巴)
  • 示例:(北京,首都,中国)

【KG 构建的关键】

  • RE 是构建知识图谱的核心步骤。
  • 传统方法:PCNN, BERT+CNN。
  • 前沿方法
    • Prompt-based RE:利用 LLM 的常识推理能力抽取隐含关系。
    • Joint Extraction:实体与关系联合抽取,避免误差传播。
    • GraphRAG:抽取后的关系用于构建图索引,增强检索。

15. NLP 案例:微博舆情分析系统

【系统架构设计】

  1. 数据采集:微博 API 爬虫。
  2. 预处理:去重、去噪、表情符号转义。
  3. 核心 NLP 流水线
    • 热点检测:聚类算法发现突发话题。
    • 情感分析:判断舆论风向。
    • 事件抽取:利用 RE 技术构建“事件图谱”(谁,在何时,做了何事)。
  4. LLM 增强
    • 利用 LLM 生成舆情摘要报告。
    • 利用 KG 追溯谣言传播路径。

【实战价值】

不仅告诉用户“发生了什么”,还能通过 KG 推理告诉用户“为什么发生”以及“未来可能如何发展”。


16. 本章总结与展望

【NLP 任务体系回顾】 从底层的 Token 处理,到中层的语义表示,再到上层的任务应用,构成了完整的 NLP 金字塔。

【通往 KG+LLM 的桥梁】

  • NLP 是感知:负责从非结构化数据中获取信息。
  • KG 是记忆:负责存储结构化、可信的知识。
  • LLM 是推理引擎:负责利用知识进行生成和决策。

【下章预告】 接下来我们将深入知识图谱的世界,学习如何将本章学到的实体与关系,组织成机器可理解的知识网络,并探索如何利用 LLM 激活这些知识。

【课后思考题】

  1. 在 LLM 时代,传统的分词和词性标注任务是否还有存在的必要?为什么?
  2. 尝试设计一个 Prompt,让大模型从一段新闻中抽取三元组 (头实体,关系,尾实体)。
上次编辑于:
贡献者: zilizhou