第8天上午_综合项目实训
大约 18 分钟教学文档Python基础
第二天上午培训详解:表格知识库应用
🎯 培训主题:让校园百事通"懂数据、会计算"——奖学金与课程管家模块
📅 8:00-9:30|表格知识库的原理与创建
🔹 学习目标
- 理解表格知识库与文本知识库的核心差异
- 掌握结构化数据(Excel/CSV)的预处理规范
- 完成奖学金数据表的上传与配置
- 理解"字段级检索"与"条件筛选"的技术原理
🔹 表格知识库 vs 文本知识库:核心差异解析
📊 三种知识类型对比
| 维度 | 文本知识库 | 表格知识库 | 适用场景 |
|---|---|---|---|
| 数据结构 | 非结构化段落 | 结构化行列数据 | 文本:规章制度;表格:奖学金/课表/成绩 |
| 检索方式 | 语义相似度匹配 | 字段匹配+条件过滤 | 文本:"奖学金申请条件";表格:"GPA≥3.5的奖学金" |
| 查询能力 | 理解自然语言问题 | 支持筛选/排序/聚合/对比 | 表格可回答"金额最高的3个奖学金" |
| 更新维护 | 修改段落重新索引 | 修改单元格自动生效 | 表格更适合频繁变动的数据(如名额) |
| 输出格式 | 自然语言描述 | 可生成表格/列表/对比图 | 表格查询结果更适合结构化展示 |
🔧 表格知识库技术原理
传统文本检索流程:
用户问题 → 向量化 → 匹配文本段落 → 大模型总结回答
表格检索增强流程:
用户问题 → 意图识别 → SQL-like查询生成 → 表格引擎执行 → 返回结果集 → 大模型格式化输出
核心组件:
┌─────────────────────────────────────┐
│ 1. 表结构理解模块 │
│ • 自动识别:表头、数据类型、主键 │
│ • 示例:{"奖学金名称": string, │
│ "申请条件": { │
│ "GPA最低": float, │
│ "年级限制": list │
│ }} │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 2. 查询转换引擎 │
│ • 自然语言 → 结构化查询 │
│ • 例:"GPA 3.8能申请哪些奖学金" │
│ → SELECT name WHERE min_gpa ≤ 3.8 │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 3. 结果格式化模块 │
│ • 将查询结果转换为自然语言 │
│ • 支持:列表/对比表/条件判断 │
└─────────────────────────────────────┘
💡 关键认知:表格知识库不是"把Excel当图片上传",而是让AI理解数据的语义结构,实现"问数据"而非"搜文字"[[11]][[19]]。
🔹 实操步骤:创建奖学金表格知识库
步骤1️⃣:Excel数据预处理(25分钟)
📁 准备材料:
• 《XX大学奖学金名录2025.xlsx》(示例结构如下)
📋 标准表格结构示例:
┌──────┬──────────────┬──────────┬─────────┬──────────┬─────────────┐
│ 序号 │ 奖学金名称 │ 类型 │ 金额(元)│ GPA最低 │ 申请年级 │ 其他条件 │
├──────┼──────────────┼──────────┼─────────┼──────────┼─────────────┤
│ 1 │ 国家奖学金 │ 国家级 │ 8000 │ 3.8 │ [大二,大三] │ 无挂科+综合素质优秀│
│ 2 │ 校级一等奖 │ 校级 │ 5000 │ 3.5 │ [大一~大四] │ 志愿服务≥20小时 │
│ 3 │ 企业冠名奖 │ 社会捐赠 │ 3000 │ 3.0 │ [大三,大四] │ 专业排名前30% │
│ 4 │ 励志奖学金 │ 助困型 │ 4000 │ 3.2 │ [大一~大四] │ 家庭经济困难认定 │
└──────┴──────────────┴──────────┴─────────┴──────────┴─────────────┘
🔧 预处理规范(关键!):
✅ 表头设计原则:
• 字段名简洁明确:用"GPA最低"而非"申请需要达到的最低平均学分绩点"
• 避免合并单元格:每列独立,便于AI解析
• 数据类型一致:金额列统一为数字(非"8000元"文本)
✅ 数据清洗技巧:
• 空值处理:用"无"或"-"明确标注,避免空白
• 列表字段:用英文逗号分隔,如"[大二,大三]"
• 条件字段:结构化表达,如"GPA≥3.5"拆分为字段"GPA最低": 3.5
✅ 增强可读性(可选但推荐):
• 添加"备注"列:说明特殊规则
例:"企业冠名奖需额外提交推荐信"
• 添加"申请链接"列:便于AI引导用户操作
例:"https://jw.xxu.edu.cn/scholarship"
❌ 常见错误:
• 混合内容:同一单元格写"5000元(需面试)" → 拆分为"金额"和"附加条件"两列
• 隐含逻辑:用颜色/批注标注规则 → AI无法识别,需转为显式文本
• 多层表头:如"金额|一等奖|二等奖" → 扁平化为单行表头
步骤2️⃣:上传并配置表格知识库(20分钟)
🎯 操作路径:
Coze平台 → 知识库 → 创建知识库 → 选择"结构化数据"类型
📋 配置详解:
┌─────────────────────────────────────┐
│ 基础信息: │
│ • 名称:XX大学奖学金数据库2025 │
│ • 描述:包含各类奖学金的名称、金额、│
│ 申请条件、流程等信息 │
│ │
│ 上传设置: │
│ • 文件格式:☑ Excel (.xlsx) │
│ • 编码格式:UTF-8(避免中文乱码) │
│ • 工作表选择:默认第一个Sheet │
│ │
│ 字段识别(关键步骤): │
│ • 自动识别:系统自动解析表头 │
│ • 手动校准:检查字段类型是否正确 │
│ - "金额(元)" → 数值型 │
│ - "申请年级" → 列表型 │
│ - "其他条件" → 文本型 │
│ │
│ 索引策略: │
│ • 全文索引:支持模糊搜索(如"励志")│
│ • 字段索引:支持精确筛选(如GPA=3.5)│
│ 推荐:两者都启用 │
└─────────────────────────────────────┘
✅ 上传后验证:
□ 在"数据预览"中确认表格显示正常
□ 点击"测试查询",输入"国家奖学金"看能否定位
□ 检查字段类型:数值字段应支持">""<="等比较操作
步骤3️⃣:关联智能体并配置检索策略(15分钟)
🔗 绑定操作:
1. 进入"智慧校园助手"编辑页
2. 在"知识库"模块添加"XX大学奖学金数据库2025"
3. 设置检索优先级(如有多个知识库)
⚙️ 表格专属配置:
┌─────────────────────────────────────┐
│ 查询模式选择: │
│ • 语义查询(默认):理解问题意图 │
│ 例:"我能申请什么奖学金" │
│ • 精确查询:字段+值匹配 │
│ 例:"GPA最低<=3.0 AND 类型=校级" │
│ 推荐:语义查询为主,提示词中引导 │
│ 复杂问题使用精确语法 │
│ │
│ 结果排序: │
│ • 默认:按相关性排序 │
│ • 可选:按金额降序/申请难度升序 │
│ 应用场景:用户问"金额最高的奖学金" │
│ → 自动按金额降序返回 │
│ │
│ 返回条数(Top K): │
│ • 默认3-5条(避免信息过载) │
│ • 对比类问题可增至8-10条 │
└─────────────────────────────────────┘
🧪 快速测试:
在预览窗口提问:
"我GPA 3.6,大二,能申请哪些奖学金?"
→ 预期:返回符合条件的奖学金列表
→ 检查:是否准确过滤GPA和年级条件
💡 最佳实践:在系统提示词中明确告知AI"奖学金问题优先查询表格知识库",避免大模型凭记忆编造条件[[14]]。
📅 9:30-11:00|表格查询的提示词优化
🔹 学习目标
- 掌握针对结构化数据的提示词设计技巧
- 学会引导AI进行条件筛选、多字段对比、聚合计算
- 理解"自然语言→结构化查询"的转换逻辑
- 通过实战优化复杂问题的回答质量
🔹 表格查询提示词设计框架
🎯 核心原则:明确"查什么" + "怎么查" + "怎么展示"
# 表格查询提示词模板(奖学金场景)
## 角色增强
你是一位精通XX大学奖学金政策的数据助手,擅长从结构化表格中精准检索信息,并用清晰易懂的方式呈现。
## 查询理解指令
当用户询问奖学金相关问题时:
1️⃣ 先识别关键筛选条件:
• 用户属性:GPA、年级、专业、经济状况
• 奖学金属性:类型、金额范围、申请时间
2️⃣ 将自然语言转换为结构化查询逻辑:
• "我能申请什么" → WHERE GPA最低 ≤ 用户GPA AND 年级 IN 用户年级
• "金额最高的" → ORDER BY 金额 DESC LIMIT 3
3️⃣ 处理模糊条件:
• 用户说"成绩好" → 默认GPA≥3.5(可在提示词中定义)
• 用户未提年级 → 返回所有年级可申请的,并标注适用年级
## 结果处理规范
✅ 必须包含:
• 匹配结果数量(如"找到3个符合条件的奖学金")
• 核心字段:名称、金额、关键条件(GPA/年级)
• 行动指引:申请截止时间、入口链接、材料清单
✅ 格式要求:
• 列表类问题:用表格或编号列表展示
- 对比类问题:并排对比关键差异
- 条件判断:先给结论("可以申请"/"暂不符合"),再解释原因
❌ 禁止行为:
• 编造表格中不存在的信息
• 忽略用户提供的筛选条件
• 返回未排序的杂乱结果
🔹 进阶技巧实战
✨ 技巧1:引导用户补充关键信息
🎯 场景:用户问题信息不足
Q: "有什么奖学金可以申请?"
❌ 低效回答:
"我校有国家奖学金、校级一等奖、企业冠名奖等..."
(信息过载,用户仍需自行筛选)
✅ 高效回答(提示词驱动):
"为了给您精准推荐,需要了解:
1️⃣ 您目前的GPA是多少?(如3.6)
2️⃣ 您是哪个年级?(大一/大二/...)
3️⃣ 是否有家庭经济困难认定?(是/否)
💡 小提示:国家奖学金要求GPA≥3.8,大二及以上可申请~"
🔧 提示词实现:
在Constraints中添加:
"当用户未提供GPA/年级等关键筛选条件时,
先以友好方式引导补充,再给出示例参考"
✨ 技巧2:支持复杂条件组合查询
🎯 场景:多条件筛选
Q: "我想找金额3000-5000元、不需要面试的校级奖学金"
🔧 提示词增强:
## 复杂查询处理
支持以下逻辑组合:
• AND关系:"GPA≥3.5 且 年级=大三" → 同时满足
• OR关系:"校级 或 院级" → 满足其一即可
• 范围查询:"金额3000-5000" → BETWEEN 3000 AND 5000
• 排除条件:"不需要面试" → 其他条件 NOT LIKE "%面试%"
示例转换:
用户输入 → 结构化逻辑 → 表格引擎执行
"3000-5000元校级奖学金"
→ WHERE 类型="校级" AND 金额 BETWEEN 3000 AND 5000
→ 返回:校级一等奖(5000元)、院级优秀奖(3000元)
💡 实现建议:
• 在提示词中预定义常用筛选字段
• 对"不需要面试"等否定条件,提前在表格中添加"是否面试"字段
✨ 技巧3:生成对比分析结果
🎯 场景:用户需要决策支持
Q: "国家奖学金和校级一等奖哪个更适合我?GPA 3.7"
✅ 理想输出格式:
【对比分析】GPA 3.7 可申请方案
| 维度 | 国家奖学金 | 校级一等奖 | 你的匹配度 |
|------|-----------|-----------|-----------|
| 金额 | 8000元 | 5000元 | 💰 校级更易得 |
| GPA要求 | ≥3.8 ❌ | ≥3.5 ✅ | ✅ 你符合校级 |
| 年级要求 | 大二+ | 全年级 | ✅ 都符合 |
| 竞争程度 | 高(名额少)| 中 | 🎯 建议优先校级 |
| 申请截止 | 9月30日 | 10月15日 | ⏰ 校级时间更宽裕 |
【行动建议】
✅ 立即准备:校级一等奖申请材料
📅 后续关注:若下学期GPA提升至3.8+,可冲刺国家奖学金
🔧 提示词实现:
在Output Format中添加:
"当用户询问对比类问题时:
1. 提取对比维度(金额/条件/难度/时间)
2. 用表格并排展示关键差异
3. 结合用户画像给出个性化建议
4. 标注数据来源(如'根据奖学金数据库2025版')"
✨ 技巧4:处理聚合计算类问题
🎯 场景:需要统计/计算
Q: "所有奖学金的平均金额是多少?"
Q: "大二学生最多能拿多少奖学金?"
🔧 提示词增强:
## 聚合查询支持
支持以下计算类型:
• 基础统计:AVG(金额)、MAX(金额)、COUNT(名称)
• 条件聚合:SUM(金额) WHERE 年级=大二
• 分组统计:按"类型"分组,显示各类奖学金数量
示例:
Q: "大二学生最多能拿多少?"
→ 逻辑:SELECT MAX(金额) WHERE 大二 IN 申请年级
→ 结果:8000元(国家奖学金)
→ 补充:"注意:同一学年通常只能获得1项主要奖学金"
⚠️ 边界处理:
• 明确说明计算范围("仅统计表格中收录的奖学金")
• 提醒政策限制("实际申请以当年通知为准")
🔹 测试与调试:奖学金对比查询实战
🧪 测试问题设计(5个典型场景)
【场景1:单条件筛选】
Q: "GPA 3.4能申请哪些奖学金?"
✅ 预期:返回GPA最低≤3.4的奖学金列表
✅ 检查:是否排除GPA要求>3.4的选项
【场景2:多条件组合】
Q: "我是大三学生,GPA 3.9,有贫困认定,能申请什么?"
✅ 预期:交集筛选(GPA+年级+经济状况)
✅ 检查:是否优先推荐"励志奖学金"等助困型
【场景3:对比分析】
Q: "校级一等奖和企业冠名奖有什么区别?"
✅ 预期:并排对比金额/条件/申请流程
✅ 检查:是否突出关键差异(如"企业奖需面试")
【场景4:边界判断】
Q: "GPA正好3.5,能申请校级一等奖吗?"
✅ 预期:明确回答"可以"(≥包含等于)
✅ 检查:是否避免模糊表述"大概可以"
【场景5:无结果处理】
Q: "大一新生能申请国家奖学金吗?"
✅ 预期:明确告知"不能",并说明原因+替代方案
✅ 检查:是否推荐"新生奖学金"等可行选项
🔧 调试技巧:当回答不准确时
🔍 问题诊断流程:
1️⃣ 检查数据源:
• 表格中是否有相关记录?
• 字段值是否准确(如GPA最低是3.5还是3.6)?
2️⃣ 检查检索配置:
• 相似度阈值是否过高导致漏检?
• 是否启用了字段级索引?
3️⃣ 检查提示词:
• 是否明确要求"严格按表格数据回答"?
• 是否添加了"不确定时说明"的约束?
🛠️ 优化方案:
方案A:增强字段语义
• 在表格中添加"适用场景"列
例:"励志奖学金:适合家庭经济困难且成绩良好学生"
• 提升语义匹配准确率
方案B:在提示词中预定义业务规则
业务规则库
• 同一学年原则上不重复获得同类奖学金 • 国家奖学金优先级 > 校级 > 院级 • 申请截止前7天标注"即将截止"提醒
方案C:添加FAQ对(混合策略)
• 对高频问题,在知识库中添加"Q&A"文本对
• 表格负责精确查询,文本负责解释说明
💡 关键认知:表格知识库的优势是"精确",提示词的作用是"理解意图+格式化输出",二者结合才能发挥最大价值[[16]]。
📅 11:00-12:00|综合练习:奖学金问答
🔹 学习目标
- 独立完成奖学金场景的端到端测试
- 掌握评估结构化数据回答质量的量化标准
- 形成可复用的测试-优化工作流
- 输出标准化测试报告模板
🔹 10个奖学金问答题设计(含评估标准)
📋 测试题集与预期答案
【基础查询类】
1. Q: "国家奖学金多少钱?"
✅ 预期:准确返回"8000元",标注来源
📊 评估:准确性✅ 来源标注✅ 响应速度✅
2. Q: "有哪些奖学金不需要面试?"
✅ 预期:列出"其他条件"不含"面试"的奖学金
📊 评估:条件过滤✅ 结果完整✅
【条件筛选类】
3. Q: "我GPA 3.3,大二,能申请什么?"
✅ 预期:返回GPA≤3.3且包含大二的奖学金
📊 评估:多条件AND逻辑✅ 个性化✅
4. Q: "贫困生可以申请哪些奖学金?"
✅ 预期:识别"贫困生"→匹配"家庭经济困难认定"条件
📊 评估:语义理解✅ 业务规则应用✅
【对比分析类】
5. Q: "校级一等奖和励志奖学金哪个更容易申请?"
✅ 预期:对比GPA要求/附加条件/竞争程度
📊 评估:对比维度合理✅ 建议实用✅
6. Q: "金额在4000-6000元的奖学金有哪些?"
✅ 预期:范围查询,返回5000元档位的奖学金
📊 评估:数值范围处理✅ 结果排序✅
【边界与异常类】
7. Q: "GPA 4.0能申请所有奖学金吗?"
✅ 预期:说明"满足GPA条件,但还需符合年级/其他要求"
📊 评估:避免过度承诺✅ 规则完整性✅
8. Q: "奖学金申请截止日期是什么时候?"
✅ 预期:若表格含"截止时间"字段则返回;否则说明"请查询最新通知"
📊 评估:时效性处理✅ 边界声明✅
【聚合计算类】
9. Q: "所有奖学金的平均金额是多少?"
✅ 预期:计算并返回平均值(如"约4750元"),说明统计范围
📊 评估:计算准确✅ 范围说明✅
10. Q: "大二学生最多能获得多少奖学金?"
✅ 预期:返回符合条件的最高金额,并提醒"通常限获1项"
📊 评估:业务规则融合✅ 风险提示✅
🧪 测试执行与记录(25分钟)
📊 标准化测试记录表:
┌──┬────────────────────┬─────────┬─────────┬─────────┬─────────┐
│序│ 问题 │ 准确性 │ 完整性 │ 友好度 │ 优化建议│
├──┼────────────────────┼─────────┼─────────┼─────────┼─────────┤
│1 │ 国家奖学金金额 │ ✅ │ ✅ │ ✅ │ 无 │
├──┼────────────────────┼─────────┼─────────┼─────────┼─────────┤
│2 │ 不需要面试的奖学金 │ ⚠️ │ ❌ │ ✅ │ 补充 │
│ │ │ (漏1项)│ (缺说明)│ │ "面试"字段│
├──┼────────────────────┼─────────┼─────────┼─────────┼─────────┤
│3 │ GPA3.3大二申请 │ ✅ │ ✅ │ ⚠️ │ 增加 │
│ │ │ │ │(语气机械)│ 鼓励语 │
└──┴────────────────────┴─────────┴─────────┴─────────┴─────────┘
📈 量化评分标准(10分制):
• 准确性(4分):信息完全正确得4分,部分正确2分,错误0分
• 完整性(3分):覆盖所有匹配结果得3分,遗漏1项扣1分
• 友好度(2分):语气亲切+行动指引得2分,仅事实陈述得1分
• 创新性(1分):提供额外价值(如申请技巧)得1分
🎯 达标线:总分≥8分为"优秀",≥6分为"合格"
🚀 优化迭代实战(20分钟)
🔧 典型问题与解决方案:
问题1:条件筛选漏结果
现象:Q"GPA3.3可申请",只返回2项,实际有4项符合
诊断:表格中"GPA最低"字段有3.3和3.30两种格式,向量匹配未识别
方案:
• 数据层:统一数值格式(全部保留1位小数)
• 提示词层:添加"GPA比较时忽略末尾0"的指令
问题2:对比分析维度混乱
现象:Q"校级vs企业奖",回答堆砌文字,无清晰对比
方案:
• 在Output Format中强制要求表格输出
• 预定义对比维度模板:[金额, GPA要求, 附加条件, 截止时间]
问题3:业务规则未融合
现象:Q"能同时申请吗",AI回答"可以",但实际政策限1项
方案:
• 在提示词中添加"业务规则库"模块
• 关键规则加⚠️标注,要求AI必须遵守
✨ 奖学金场景特调技巧:
1️⃣ 个性化前缀:
"同学你好!根据你的GPA 3.6和大二身份,推荐以下奖学金👇"
2️⃣ 进度提醒:
对临近截止的奖学金,自动添加"🔥 申请截止:3天后"
3️⃣ 材料清单:
返回结果时附带"📋 准备材料:成绩单+推荐信+申请表"
4️⃣ 成功概率:
基于历史数据(如有)给出"✅ 匹配度高 / ⚠️ 竞争激烈"提示
📌 交付成果:
□ 10个问题测试记录表(含评分)
□ 优化前后对比截图(至少3组)
□ 个人总结:表格知识库使用的3个关键心得
🔹 常见问题与避坑指南
⚠️ 误区1:把表格当文本用
→ 正解:发挥表格的结构化优势,用字段筛选而非全文搜索
⚠️ 误区2:追求100%自动化
→ 正解:对"政策解释""特殊情况"等复杂问题,引导至人工渠道
⚠️ 误区3:忽略数据更新
→ 正解:建立奖学金数据月度核查机制,在提示词中标注"数据截至2026.02"
⚠️ 误区4:过度依赖AI计算
→ 正解:涉及金额/名额等关键数据,回答后添加"请以官方通知为准"
💡 最佳实践清单:
✅ 表格设计:字段原子化、类型标准化、注释显性化
✅ 提示词设计:明确查询逻辑、约束输出格式、融合业务规则
✅ 测试设计:覆盖单条件/多条件/边界/异常四类场景
✅ 迭代机制:每次优化只改1个点,记录AB测试效果
📋 上午培训成果检查清单
✅ 能力达成:
□ 能区分文本/表格知识库的适用场景
□ 能预处理符合规范的Excel奖学金数据
□ 能编写支持条件筛选/对比/聚合的提示词
□ 能设计覆盖多维度的测试问题集
□ 掌握"数据质量→检索配置→提示词→测试"的优化闭环
📊 交付物要求:
• 1个配置完成的奖学金表格知识库
• 1份优化后的表格查询提示词(含对比分析模板)
• 1份10题测试报告(含评分与优化记录)
• 1页个人心得(聚焦"结构化数据应用"关键点)
🎯 下午预告:
【个性化存储与用户记忆】
• Long-term Memory:记住用户GPA/专业/偏好
• 个性化推荐:基于历史对话的奖学金/课程建议
• 隐私保护:用户数据隔离与授权机制
• 实战:构建"我的奖学金管家"个性化模块
💬 讲师提示:表格知识库的核心价值是"让数据说话"。在奖学金场景中,学生最需要的是"我能不能申请"的明确判断,而非泛泛的介绍。始终围绕"降低决策成本"设计交互,你的智能体才能真正帮到师生[[23]]。
