第一次课
大约 8 分钟教学文档知识图谱
《自然语言处理与知识图谱前沿》课程讲义
第一部分 NLP 基础
1. 课程介绍
【核心内容】 欢迎来到自然语言处理(NLP)与知识图谱(KG)的前沿课堂。本课程不仅涵盖经典 NLP 理论,更聚焦于大语言模型(LLM)时代的技术变革。
【课程目标详解】
- NLP 基础:掌握从词法分析到语义理解的完整技术栈。
- 知识图谱:理解结构化知识的构建、存储与查询。
- 信息抽取:学习如何从非结构化文本中自动化提取实体与关系(IE)。
- KG 推理:掌握基于图谱的逻辑推理与路径发现。
- KG+LLM:(重点) 探索大模型与知识图谱的融合,如 GraphRAG、LLM 辅助图谱构建、图谱增强大模型推理等前沿方向。
【教授寄语】
"NLP 正在经历从‘感知智能’向‘认知智能’的跨越。理解基础,才能驾驭大模型。"
2. 什么是 NLP
【定义升级】
- 经典定义:让计算机理解、处理人类自然语言。
- 现代定义:实现人机之间的语义交互、内容生成与逻辑推理。
- 核心挑战:歧义性(Ambiguity)、上下文依赖(Context)、常识推理(Common Sense)。
【应用场景扩展】
- 传统:搜索、语音助手(Siri, Xiao Ai)、推荐系统。
- 前沿:
- AIGC:自动写作、代码生成(GitHub Copilot)。
- AI Agent:自主规划任务的语言智能体。
- 多模态交互:图文理解(CLIP, LLaVA)。
3. NLP 应用
【典型应用深度解析】
- 搜索引擎:从关键词匹配(BM25)到语义检索(Vector Search, New Bing)。
- 智能客服:从规则树到基于 LLM 的生成式问答(减少人工配置成本)。
- 舆情分析:从情感正负面判断到事件演化脉络追踪。
- 机器翻译:从统计机器翻译(SMT)到神经机器翻译(NMT)再到零样本翻译(LLM)。
【案例:Google 搜索的演变】
- 过去:匹配网页关键词。
- 现在:SGE(Search Generative Experience),直接生成答案摘要,背后是检索增强生成(RAG)技术。
4. NLP 任务体系
【传统流水线 vs. 端到端】
- 基础任务(NLU):
- 分词(Tokenization):中文需分词,英文需 Subword (BPE)。
- 词性标注(POS):语法结构基础。
- 命名实体识别(NER):抽取“谁、哪里、组织”。
- 关系抽取(RE):抽取“实体间关系”。
- 高阶任务(NLG & Reasoning):
- 文本分类 / 情感分析。
- 机器翻译 / 文本摘要。
- 问答系统(QA) / 指令遵循(Instruction Following)。
【教授提示】
在 LLM 时代,许多传统任务(如分类、抽取)可以通过 Prompt Engineering 转化为生成任务,但专用小模型在低资源场景下仍具优势。
5. NLP 发展
【技术演进路线图】
- 规则时代 (1950s-1990s):专家系统,手写规则(如 Chomsky 语法)。
- 统计时代 (1990s-2010s):HMM, CRF, SVM,基于概率统计。
- 深度学习时代 (2013-2017):Word2Vec, RNN, LSTM, CNN。
- 预训练时代 (2018-2022):BERT (Encoder), GPT (Decoder), Transformer 架构爆发。
- 大模型时代 (2023-至今):LLM (LLaMA, Qwen, ChatGLM), 多模态,Agent,RLHF 对齐。
【代表模型】
- BERT:双向编码,适合理解任务。
- GPT-4/LLaMA 3:单向解码,适合生成与推理任务。
6. 文本预处理
【经典流程】
- 分词:Jieba (中文), SpaCy (英文), BPE/WordPiece (模型级)。
- 去停用词:去除“的、了、the"等无意义词。
- 标准化:大小写转换、繁简转换、全半角统一。
【LLM 时代的新视角】
- 数据清洗:对于大模型训练,预处理更关注去重(Deduplication)、去毒(Detoxification)和质量过滤。
- RAG 预处理:文本切片(Chunking)策略直接影响检索效果(如按语义切片而非固定字符数)。
7. 文本表示
【表示方法演进】
- One-Hot:离散、稀疏、无语义(已淘汰)。
- Word2Vec/GloVe:静态词向量,一词多义无法区分(如“苹果”是水果还是公司)。
- BERT Embedding:动态上下文向量,同一词在不同句子中向量不同。
- LLM Latent Space:高维隐空间表示,蕴含复杂的知识与推理能力。
【技术对比】
| 方法 | 上下文敏感 | 语义丰富度 | 计算成本 |
|---|---|---|---|
| Word2Vec | 否 | 中 | 低 |
| BERT | 是 | 高 | 中 |
| LLM | 是 | 极高 | 高 |
8. Word Embedding
【经典案例解析】
- 公式:
- 原理:向量空间中的几何关系对应语义关系。
【现代扩展:向量数据库】
- 在 RAG 架构中,Embedding 模型(如 BGE, M3E)将文本转化为向量,存入向量数据库(Milvus, Faiss, Chroma)。
- 应用:语义搜索,寻找“意思相近”而非“字面匹配”的文档。
9. Transformer
【架构核心】
- Self-Attention 机制:允许序列中任意两个位置直接交互,解决长距离依赖问题。
- 公式:
- Positional Encoding:因为 Transformer 并行计算,需注入位置信息。
- Encoder-Decoder 结构:
- Encoder (BERT 用):看全文,适合理解。
- Decoder (GPT 用):看过去,适合生成。
【教授提示】
Transformer 是当今所有大模型的“发动机”。理解 Attention 机制是理解 LLM 如何“关注”关键信息的基础。
10. 预训练模型
【模型家族】
- Encoder-only:BERT, RoBERTa。擅长分类、NER、匹配。
- Decoder-only:GPT 系列,LLaMA, Qwen。擅长生成、对话、推理。
- Encoder-Decoder:T5, BART。擅长翻译、摘要。
【微调技术 (Fine-tuning)】
- Full Fine-tuning:全量更新参数。
- PEFT (参数高效微调):LoRA, P-Tuning。在消费级显卡上适配大模型的关键技术。
- 指令微调 (Instruction Tuning):让模型学会听从人类指令。
11. 文本分类
【传统方法】
- FastText, TextCNN, BERT + CLS token。
- 场景:新闻分类、垃圾邮件识别。
【LLM 新方法】
- Zero-shot/Few-shot Classification:直接通过 Prompt 让 LLM 分类,无需训练。
- Prompt 示例:“请将以下文本分类为 [体育,财经,科技]:..."
- 优势:泛化能力强,支持细粒度分类。
- 劣势:延迟高,成本高。
12. 情感分析
【任务升级】
- L1 情感极性:正面/负面/中性。
- L2 方面级情感 (ABSA):针对具体属性的情感(例:“屏幕很好,但电池不行” -> 屏幕:正,电池:负)。
- L3 情感推理:分析情感产生的原因及强度。
【电商评论分析案例】
- 利用 LLM 提取用户痛点,自动生成产品改进报告。
- 结合知识图谱,分析“电池”这一实体在产业链中的关联舆情。
13. 实体识别 (NER)
【识别目标】
- 通用实体:人名 (PER)、地点 (LOC)、组织 (ORG)。
- 领域实体:药品名、法律条款、机械部件。
【技术挑战与方案】
- 嵌套实体:如“北京大学”(ORG)包含“北京”(LOC)。
- LLM 赋能:使用生成式抽取(如 UIE 模型),将 NER 转化为序列生成任务,解决标签体系灵活性问题。
- 应用:构建知识图谱的节点基础。
14. 关系抽取 (RE)
【任务定义】 识别实体对之间的语义关系。
- 示例:
(马云,创始人,阿里巴巴) - 示例:
(北京,首都,中国)
【KG 构建的关键】
- RE 是构建知识图谱的核心步骤。
- 传统方法:PCNN, BERT+CNN。
- 前沿方法:
- Prompt-based RE:利用 LLM 的常识推理能力抽取隐含关系。
- Joint Extraction:实体与关系联合抽取,避免误差传播。
- GraphRAG:抽取后的关系用于构建图索引,增强检索。
15. NLP 案例:微博舆情分析系统
【系统架构设计】
- 数据采集:微博 API 爬虫。
- 预处理:去重、去噪、表情符号转义。
- 核心 NLP 流水线:
- 热点检测:聚类算法发现突发话题。
- 情感分析:判断舆论风向。
- 事件抽取:利用 RE 技术构建“事件图谱”(谁,在何时,做了何事)。
- LLM 增强:
- 利用 LLM 生成舆情摘要报告。
- 利用 KG 追溯谣言传播路径。
【实战价值】
不仅告诉用户“发生了什么”,还能通过 KG 推理告诉用户“为什么发生”以及“未来可能如何发展”。
16. 本章总结与展望
【NLP 任务体系回顾】 从底层的 Token 处理,到中层的语义表示,再到上层的任务应用,构成了完整的 NLP 金字塔。
【通往 KG+LLM 的桥梁】
- NLP 是感知:负责从非结构化数据中获取信息。
- KG 是记忆:负责存储结构化、可信的知识。
- LLM 是推理引擎:负责利用知识进行生成和决策。
【下章预告】 接下来我们将深入知识图谱的世界,学习如何将本章学到的实体与关系,组织成机器可理解的知识网络,并探索如何利用 LLM 激活这些知识。
【课后思考题】
- 在 LLM 时代,传统的分词和词性标注任务是否还有存在的必要?为什么?
- 尝试设计一个 Prompt,让大模型从一段新闻中抽取三元组 (头实体,关系,尾实体)。
