基础任务（NLU）：
- 分词（Tokenization）：中文需分词，英文需 Subword (BPE)。
- 词性标注（POS）：语法结构基础。
- 命名实体识别（NER）：抽取“谁、哪里、组织”。
- 关系抽取（RE）：抽取“实体间关系”。
高阶任务（NLG & Reasoning）：
- 文本分类 / 情感分析。
- 机器翻译 / 文本摘要。
- 问答系统（QA） / 指令遵循（Instruction Following）。

【教授提示】

在 LLM 时代，许多传统任务（如分类、抽取）可以通过 Prompt Engineering 转化为生成任务，但专用小模型在低资源场景下仍具优势。

5. NLP 发展

【技术演进路线图】

规则时代 (1950s-1990s)：专家系统，手写规则（如 Chomsky 语法）。
统计时代 (1990s-2010s)：HMM, CRF, SVM，基于概率统计。
深度学习时代 (2013-2017)：Word2Vec, RNN, LSTM, CNN。
预训练时代 (2018-2022)：BERT (Encoder), GPT (Decoder), Transformer 架构爆发。
大模型时代 (2023-至今)：LLM (LLaMA, Qwen, ChatGLM), 多模态，Agent，RLHF 对齐。

【代表模型】

BERT：双向编码，适合理解任务。
GPT-4/LLaMA 3：单向解码，适合生成与推理任务。

6. 文本预处理

【经典流程】

分词：Jieba (中文), SpaCy (英文), BPE/WordPiece (模型级)。
去停用词：去除“的、了、the"等无意义词。
标准化：大小写转换、繁简转换、全半角统一。

【LLM 时代的新视角】

数据清洗：对于大模型训练，预处理更关注去重（Deduplication）、去毒（Detoxification）和质量过滤。
RAG 预处理：文本切片（Chunking）策略直接影响检索效果（如按语义切片而非固定字符数）。

7. 文本表示

【表示方法演进】

One-Hot：离散、稀疏、无语义（已淘汰）。
Word2Vec/GloVe：静态词向量，一词多义无法区分（如“苹果”是水果还是公司）。
BERT Embedding：动态上下文向量，同一词在不同句子中向量不同。
LLM Latent Space：高维隐空间表示，蕴含复杂的知识与推理能力。

【技术对比】

方法	上下文敏感	语义丰富度	计算成本
Word2Vec	否	中	低
BERT	是	高	中
LLM	是	极高	高

8. Word Embedding

【经典案例解析】

公式： $Vector(国王) - Vector(男人) + Vector(女人) \approx Vector(女王)$
原理：向量空间中的几何关系对应语义关系。

【现代扩展：向量数据库】

在 RAG 架构中，Embedding 模型（如 BGE, M3E）将文本转化为向量，存入向量数据库（Milvus, Faiss, Chroma）。
应用：语义搜索，寻找“意思相近”而非“字面匹配”的文档。

9. Transformer

【架构核心】

Self-Attention 机制：允许序列中任意两个位置直接交互，解决长距离依赖问题。
- 公式： $Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$
Positional Encoding：因为 Transformer 并行计算，需注入位置信息。
Encoder-Decoder 结构：
- Encoder (BERT 用)：看全文，适合理解。
- Decoder (GPT 用)：看过去，适合生成。

【教授提示】

Transformer 是当今所有大模型的“发动机”。理解 Attention 机制是理解 LLM 如何“关注”关键信息的基础。

10. 预训练模型

【模型家族】

Encoder-only：BERT, RoBERTa。擅长分类、NER、匹配。
Decoder-only：GPT 系列，LLaMA, Qwen。擅长生成、对话、推理。
Encoder-Decoder：T5, BART。擅长翻译、摘要。

【微调技术 (Fine-tuning)】

Full Fine-tuning：全量更新参数。
PEFT (参数高效微调)：LoRA, P-Tuning。在消费级显卡上适配大模型的关键技术。
指令微调 (Instruction Tuning)：让模型学会听从人类指令。

11. 文本分类

【传统方法】

FastText, TextCNN, BERT + CLS token。
场景：新闻分类、垃圾邮件识别。

【LLM 新方法】

Zero-shot/Few-shot Classification：直接通过 Prompt 让 LLM 分类，无需训练。
- Prompt 示例：“请将以下文本分类为 [体育，财经，科技]：..."
优势：泛化能力强，支持细粒度分类。
劣势：延迟高，成本高。

12. 情感分析

【任务升级】

L1 情感极性：正面/负面/中性。
L2 方面级情感 (ABSA)：针对具体属性的情感（例：“屏幕很好，但电池不行” -> 屏幕：正，电池：负）。
L3 情感推理：分析情感产生的原因及强度。

【电商评论分析案例】

利用 LLM 提取用户痛点，自动生成产品改进报告。
结合知识图谱，分析“电池”这一实体在产业链中的关联舆情。

13. 实体识别 (NER)

【识别目标】

通用实体：人名 (PER)、地点 (LOC)、组织 (ORG)。
领域实体：药品名、法律条款、机械部件。

【技术挑战与方案】

嵌套实体：如“北京大学”（ORG）包含“北京”（LOC）。
LLM 赋能：使用生成式抽取（如 UIE 模型），将 NER 转化为序列生成任务，解决标签体系灵活性问题。
应用：构建知识图谱的节点基础。

14. 关系抽取 (RE)

【任务定义】 识别实体对之间的语义关系。

示例：(马云，创始人，阿里巴巴)
示例：(北京，首都，中国)

【KG 构建的关键】

RE 是构建知识图谱的核心步骤。
传统方法：PCNN, BERT+CNN。
前沿方法：
- Prompt-based RE：利用 LLM 的常识推理能力抽取隐含关系。
- Joint Extraction：实体与关系联合抽取，避免误差传播。
- GraphRAG：抽取后的关系用于构建图索引，增强检索。

15. NLP 案例：微博舆情分析系统

【系统架构设计】

数据采集：微博 API 爬虫。
预处理：去重、去噪、表情符号转义。
核心 NLP 流水线：
- 热点检测：聚类算法发现突发话题。
- 情感分析：判断舆论风向。
- 事件抽取：利用 RE 技术构建“事件图谱”（谁，在何时，做了何事）。
LLM 增强：
- 利用 LLM 生成舆情摘要报告。
- 利用 KG 追溯谣言传播路径。

【实战价值】

不仅告诉用户“发生了什么”，还能通过 KG 推理告诉用户“为什么发生”以及“未来可能如何发展”。

16. 本章总结与展望

【NLP 任务体系回顾】 从底层的 Token 处理，到中层的语义表示，再到上层的任务应用，构成了完整的 NLP 金字塔。

【通往 KG+LLM 的桥梁】

NLP 是感知：负责从非结构化数据中获取信息。
KG 是记忆：负责存储结构化、可信的知识。
LLM 是推理引擎：负责利用知识进行生成和决策。

【下章预告】 接下来我们将深入知识图谱的世界，学习如何将本章学到的实体与关系，组织成机器可理解的知识网络，并探索如何利用 LLM 激活这些知识。

【课后思考题】

在 LLM 时代，传统的分词和词性标注任务是否还有存在的必要？为什么？
尝试设计一个 Prompt，让大模型从一段新闻中抽取三元组 (头实体，关系，尾实体)。