第7天下午_综合项目实训
大约 19 分钟教学文档Python基础
第一天下午培训详解:知识库构建与应用
🎯 培训主题:让校园百事通"有知识、能检索"
📅 14:00-15:30|文本知识库的原理与创建
🔹 学习目标
- 理解RAG(检索增强生成)技术原理
- 掌握Coze知识库的创建流程与配置要点
- 学会处理《学生手册》等校园文档的分段策略
- 完成首个文本知识库的搭建
🔹 知识库工作原理深度解析
RAG技术核心机制
传统AI助手局限性:
❌ 知识截止于训练时间(如2024年)
❌ 无法获取学校特定信息
❌ 容易产生"幻觉"(编造信息)
RAG解决方案:
✅ 实时检索:用户提问 → 知识库检索相关片段 → 注入提示词 → AI生成回答
✅ 精准溯源:每个回答可追溯至具体文档段落
✅ 动态更新:知识库更新即时生效,无需重新训练
工作流程图示:
用户提问:"奖学金申请条件是什么?"
↓
[检索模块] 在知识库中搜索"奖学金""申请""条件"
↓
[召回Top3片段]
片段1:《学生手册》第5章-奖学金类型与金额
片段2:《学生手册》第5章-申请条件与流程
片段3:《奖学金管理办法》2025版-资格要求
↓
[增强提示词] 将检索片段+用户问题组合成新Prompt
↓
[大模型生成] 基于检索到的真实信息生成回答
↓
输出:"根据《学生手册》,奖学金申请需满足:1️⃣ GPA≥3.0..."
📊 Coze知识库类型对比
| 类型 | 适用场景 | 支持格式 | 校园百事通应用示例 |
|---|---|---|---|
| 文本知识库 | 规章制度、办事指南 | PDF/Word/TXT/Markdown | 学生手册、校历、考试规定 |
| 图片知识库 | 地图、建筑识别、流程图 | JPG/PNG | 校园地图、实验室分布图 |
| 结构化数据 | 课表、成绩、通讯录 | Excel/CSV | 课程时间表、教师联系方式 |
💡 本次培训重点:文本知识库+图片知识库,覆盖80%校园问答场景
🔹 实操步骤:创建《学生手册》知识库
步骤1️⃣:文档预处理(20分钟)
📁 准备材料:
• 《XX大学学生手册(2025版)》PDF
• 《学籍管理规定》《奖学金评定办法》等配套文件
🔧 预处理技巧:
✅ 格式转换:PDF → Word/TXT(便于编辑)
工具推荐:Adobe Acrobat / 在线转换工具
✅ 内容清洗:
• 删除页眉页脚、页码等干扰信息
• 统一标题层级(如"第一章"→"# 第一章")
• 修正OCR识别错误(如"1"误识别为"l")
✅ 分段策略(关键!):
❌ 错误做法:整本手册作为一个段落
后果:检索精度低,AI难以定位具体信息
✅ 推荐方案:按章节/条款分段
示例:
┌─────────────────────────────────────┐
│ 段落1:第三章 学籍管理 │
│ 第10条 入学与注册 │
│ 新生须持录取通知书在9月1-5日报到... │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 段落2:第三章 学籍管理 │
│ 第11条 学制与修业年限 │
│ 本科标准学制4年,最长修业年限6年... │
└─────────────────────────────────────┘
分段粒度建议:
• 每段200-500字(兼顾检索精度与上下文完整性)
• 重要条款单独成段(如奖学金条件、处分规定)
• 保留标题层级(便于AI理解结构)
步骤2️⃣:创建知识库(25分钟)
🎯 操作路径:
Coze平台 → 左侧导航"知识库" → 点击"创建知识库"
📋 配置详情:
┌─────────────────────────────────────────┐
│ 知识库名称:XX大学学生手册2025 │
│ 描述:包含学籍管理、奖惩制度、奖学金等 │
│ 核心规章制度,适用于在校生查询 │
│ │
│ 知识类型:☑ 文本 │
│ │
│ 上传方式: │
│ ☑ 直接上传文件(支持批量) │
│ ☑ 粘贴文本(适合快速测试) │
│ │
│ 分段设置: │
│ • 自动分段:按标题/段落自动识别 │
│ • 自定义分段:手动指定分隔符(如"##")│
│ 推荐:首次使用"自动分段",后续优化 │
│ │
│ 向量化模型: │
│ • Coze默认模型(中文优化) │
│ • 高级用户可选:BGE/M3E等专业模型 │
└─────────────────────────────────────────┘
✅ 上传后检查清单:
□ 文件状态显示"处理完成"(非"处理中")
□ 查看"分段预览",确认分段合理性
□ 修正明显错误(如标题与内容错位)
步骤3️⃣:关联智能体(15分钟)
🔗 绑定操作:
1. 进入"智慧校园助手"智能体编辑页
2. 找到"知识库"模块(通常在左侧第2个)
3. 点击"添加知识库" → 选择"XX大学学生手册2025"
4. 设置检索参数(初次使用默认值即可)
⚙️ 关键参数说明:
┌─────────────────────────────────────┐
│ 检索模式: │
│ • 语义检索(默认):理解问题意图 │
│ 例:"怎么申请奖学金" → 匹配"申请流程"│
│ • 关键词检索:精确匹配词汇 │
│ 适合:学号、课程代码等精确查询 │
│ 推荐:语义检索(覆盖90%场景) │
│ │
│ 召回数量(Top K): │
│ • 默认3-5条 │
│ • 复杂问题可增至8-10条 │
│ 注意:过多会稀释关键信息 │
│ │
│ 相似度阈值: │
│ • 默认0.6-0.7 │
│ • 调高(如0.8)→ 更严格,减少误检 │
│ • 调低(如0.5)→ 更宽松,增加召回 │
│ 建议:初期0.65,根据测试调整 │
└─────────────────────────────────────┘
🧪 快速测试:
在右侧预览窗口提问:
"奖学金有哪些类型?"
→ 观察是否引用《学生手册》相关内容
→ 检查回答是否标注来源(如"根据第5章第2条")
📚 技术扩展:Coze知识库使用向量数据库(如Milvus/Pinecone),将文本转换为向量嵌入(Embedding),通过余弦相似度计算实现语义检索[[12]][[18]]。
📅 15:30-16:30|文本知识库的测试与优化
🔹 学习目标
- 设计覆盖多场景的测试问题集
- 掌握评估回答质量的量化标准
- 学会通过调整分段和参数优化检索效果
- 建立知识库迭代优化机制
🔹 测试问题设计方法论
📝 10个校园常见问题设计(含答案预期)
🎯 问题设计原则:
• 覆盖度:涵盖不同章节(学籍/奖惩/奖学金/生活)
• 难度梯度:从简单事实查询到复杂流程咨询
• 表达方式:包含口语化、正式、模糊等多种问法
📋 测试题集:
【基础查询类】
1. Q: "图书馆周末开放时间是几点?"
预期:准确返回开放时间,标注来源章节
考察:事实性信息检索精度
2. Q: "本科生最长可以读几年?"
预期:返回"标准学制4年,最长修业年限6年"
考察:关键数字提取能力
【流程咨询类】
3. Q: "我想申请转专业,需要走什么流程?"
预期:分步骤说明(申请→审核→公示→办理)
考察:多步骤流程整合能力
4. Q: "学生证丢了怎么补办?"
预期:包含材料、地点、时间、费用四要素
考察:完整信息聚合能力
【条件判断类】
5. Q: "GPA 2.8能申请奖学金吗?"
预期:明确告知"不满足最低GPA 3.0要求"
考察:规则应用与数值比较
6. Q: "挂科几门会被退学?"
预期:引用具体条款(如"累计不及格课程≥15学分")
考察:精确条款定位
【模糊问题类】
7. Q: "最近有什么活动?"
预期:澄清问题("您是指学术讲座/社团活动/文体比赛?")
考察:意图澄清能力
8. Q: "宿舍有问题怎么办?"
预期:列举常见问题类型(设施报修/调换宿舍/矛盾调解)
考察:问题拆解与引导
【边界测试类】
9. Q: "帮我写一份奖学金申请书"
预期:拒绝代写,但提供模板或写作建议
考察:边界规则遵守
10. Q: "2027年的校历安排"
预期:说明"知识库仅包含2025-2026学年信息"
考察:时效性声明与知识边界
🧪 测试执行与记录(20分钟)
📊 建立测试记录表:
┌─────┬──────────────────┬──────────┬─────────┬──────────┐
│ 序号│ 问题 │ 回答准确性│ 来源标注│ 优化建议 │
├─────┼──────────────────┼──────────┼─────────┼──────────┤
│ 1 │ 图书馆开放时间 │ ✅ 准确 │ ✅ 有 │ 无 │
├───────────────────────┼──────────┼─────────┼──────────┤
│ 2 │ 最长修业年限 │ ✅ 准确 │ ❌ 无 │ 添加来源 │
├─────┼──────────────────┼──────────┼─────────┼──────────┤
│ 3 │ 转专业流程 │ ⚠️ 不完整 │ ✅ 有 │ 补充步骤 │
└─────┴──────────────────┴──────────┴─────────┴──────────┘
评估标准:
✅ 准确性:
• 完全正确:信息无误,覆盖核心要点
• 部分正确:主要信息正确,遗漏细节
• 错误/幻觉:信息错误或编造
✅ 来源标注:
• 明确引用:标注"根据《学生手册》第X章"
• 隐式引用:未标注但内容准确
• 无来源:无法追溯信息出处
✅ 响应质量:
• 结构化:分点说明,重点突出
• 可读性:语言流畅,适合目标用户
• 行动导向:提供明确下一步建议
🔹 优化策略实战
问题1:回答不完整
🔍 现象:
Q: "转专业需要哪些条件?"
AI回答:"需要提交申请并通过审核"(过于简略)
🔧 诊断:
• 知识库中信息分散在多个段落
• 检索只召回了1-2个片段,遗漏关键条件
🛠️ 解决方案:
方案A:增加召回数量
• Top K从3调至5-8
• 风险:可能引入无关信息
方案B:优化分段(推荐)
• 将"转专业条件""流程""时间节点"合并为一个完整段落
• 确保关键信息在同一上下文中
示例:
┌─────────────────────────────────────┐
│ # 转专业管理办法 │
│ │
│ 【申请条件】 │
│ 1. 大一第二学期末可申请 │
│ 2. GPA≥3.0,无违纪记录 │
│ 3. 符合转入专业特殊要求(如艺术类 │
│ 需通过专业测试) │
│ │
│ 【办理流程】 │
│ 1. 6月1-15日:教务系统在线申请 │
│ 2. 6月20日:转入院系面试 │
│ 3. 6月25日:公示结果 │
│ 4. 9月开学:办理学籍变更 │
└─────────────────────────────────────┘
方案C:添加FAQ对
• 在知识库中直接添加"Q: 转专业条件 A: ..."
• 适合高频问题的精确匹配
问题2:检索不到相关内容
🔍 现象:
Q: "休学最长能休多久?"
AI回答:"抱歉,我暂时不了解这个信息"
🔧 诊断:
• 知识库中有"休学"内容,但用词为"保留学籍"
• 语义相似度低,未被召回
🛠️ 解决方案:
方案A:添加同义词扩展
• 在段落开头添加:"休学(保留学籍、暂停学业)"
• 增加被检索命中的概率
方案B:调整相似度阈值
• 从0.65降至0.55
• 风险:可能召回不相关内容
方案C:在提示词中增强指令
• 在系统提示词中添加:
"当用户询问'休学''停学''保留学籍'时,
均指向《学籍管理规定》第X章内容"
问题3:回答过于冗长
🔍 现象:
Q: "图书馆几点关门?"
AI回答:(返回整段图书馆管理规定,500+字)
解决方案:
在系统提示词中添加格式约束:
回答规范
• 简短问题(如时间、地点):直接回答+1句补充 例:"图书馆工作日22:00闭馆,周末21:00闭馆。 期末周会延长至23:00,请关注图书馆公告。"
• 复杂问题(如流程、条件):分点说明,每点不超过2行
• 禁止:直接复制大段原文,需提炼核心信息
💡 优化原则:每次只调整1个参数(如Top K或阈值),记录前后对比效果,避免多变量同时变化导致无法定位原因[[20]]。
📅 16:30-17:30|图片知识库的应用
🔹 学习目标
- 理解多模态知识库的技术原理
- 掌握图片知识库的创建与标注方法
- 实现"看图问答"的校园场景应用
- 了解图片知识库的局限性
🔹 多模态RAG技术原理
🖼️ 图片知识库工作机制
传统文本检索:
问题 → 文本向量 → 匹配文本段落 → 生成回答
多模态检索(图片):
问题 → 文本向量 ─┐
├→ 跨模态匹配 → 返回相关图片+说明 → 生成回答
图片 → 视觉向量─┘
核心技术:
1. 视觉编码器(如CLIP/BLIP):将图片转换为向量
• 提取:场景、物体、文字、布局等特征
2. 跨模态对齐:
• 文本"图书馆"与图书馆图片的向量在空间中接近
• 即使图片中没有"图书馆"文字,也能被检索到
3. 图片理解:
• OCR:提取图片中的文字(如路牌、指示牌)
• 场景识别:判断是"教学楼""食堂""体育馆"
• 物体检测:识别"楼梯""电梯""出入口"
🔹 实操步骤:创建校园地图知识库
步骤1️⃣:图片准备与标注(20分钟)
📁 推荐图片类型:
┌─────────────────────────────────────┐
│ 1. 校园总地图(1张) │
│ • 标注:主要建筑、道路、出入口 │
│ • 用途:回答"XX楼在哪里" │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 2. 单体建筑平面图(5-10张) │
│ • 图书馆各楼层分布 │
│ • 教学楼教室分布 │
│ • 食堂窗口分布 │
│ • 用途:回答"图书馆3楼有什么" │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 3. 实景照片(10-20张) │
│ • 主要建筑外观(便于识别) │
│ • 标志性景观(校门、雕塑) │
│ • 用途:"这是哪栋楼?"(上传图片)│
└─────────────────────────────────────┘
🏷️ 图片标注(关键!):
Coze支持为图片添加描述文本,提升检索精度
示例标注:
图片:图书馆外观照片
标注:
"XX大学图书馆(主楼),位于校园中心广场北侧,
红色砖墙建筑,共5层。开放时间:8:00-22:00。
主要功能:藏书借阅、自习室、研讨室。"
图片:教学楼A座平面图
标注:
"教学楼A座1-3层平面图。
1层:大教室(101-120,容纳100人)
2层:中教室(201-230,容纳60人)
3层:小教室(301-350,容纳40人)+ 教师办公室"
💡 标注技巧:
✅ 包含:建筑名称、位置、功能、关键信息
✅ 使用自然语言,像向新生介绍一样
❌ 避免:仅标注"map1.jpg"等无意义名称
步骤2️⃣:创建图片知识库(15分钟)
🎯 操作路径:
知识库 → 创建知识库 → 选择"图片"类型
📋 配置要点:
┌─────────────────────────────────────┐
│ 知识库名称:XX大学校园地图与建筑 │
│ 描述:包含校园总图、建筑平面图、 │
│ 实景照片,支持位置查询与识别 │
│ │
│ 上传方式: │
│ • 批量上传图片(支持ZIP压缩包) │
│ • 逐张上传并添加标注(推荐) │
│ │
│ 视觉模型选择: │
│ • Coze默认多模态模型(CLIP) │
│ • 高级选项:GPT-4V/Kimi VL等 │
│ 推荐:默认模型(性价比高) │
└─────────────────────────────────────┘
✅ 上传后检查:
□ 图片清晰可辨(分辨率≥800×600)
□ 标注文本完整准确
□ 图片分类合理(可按"地图/平面图/实景"分组)
步骤3️⃣:测试图片问答(25分钟)
🧪 测试场景设计:
【场景1:位置查询】
Q: "图书馆在哪里?"
预期:返回校园地图中标注图书馆位置,并说明
"图书馆位于中心广场北侧,靠近东门"
Q: "从东门到教学楼A座怎么走?"
预期:结合地图描述路线
"从东门进入,沿主路直行200米,
左转后看到红色建筑即为教学楼A座"
【场景2:建筑识别】
Q: (上传一张教学楼照片)"这是哪栋楼?"
预期:通过视觉匹配识别建筑
"这是图书馆主楼,特征是红色砖墙和钟楼"
【场景3:设施查询】
Q: "图书馆3楼有什么?"
预期:基于平面图回答
"3楼有:
• 专业书籍阅览区(计算机、工程类)
• 研讨室6间(需预约)
• 打印复印区(东侧)"
【场景4:多模态混合】
Q: "我想找一个安静的自习地方,哪里比较好?"
预期:综合图片+文本知识
"推荐:
1️⃣ 图书馆4-5楼(人少安静,见图片)
2️⃣ 教学楼B座空教室(晚上20:00后)
避开:食堂二楼(人多嘈杂)"
🔧 调试技巧:
• 如果回答不准确:
→ 检查图片标注是否包含关键信息
→ 增加相似图片(如不同角度拍摄同一建筑)
• 如果检索不到:
→ 调整相似度阈值(图片检索默认0.5-0.6)
→ 在文本知识库中添加对应文字描述
⚠️ 局限性说明:
• 图片知识库不适合:
- 精确数值查询(如"图书馆有多少座位")
- 动态信息(如"今天图书馆人多吗")
- 需要推理的复杂问题
• 最佳实践:
- 图片+文本知识库联合使用
- 图片用于定位、识别、展示
- 文本用于规则、流程、详细说明
📚 技术扩展:Coze多模态能力基于CLIP(Contrastive Language-Image Pre-training)模型,实现了文本与图像的语义对齐,支持跨模态检索与理解[[15]][[22]]。
📅 17:30-18:00|第一天总结与答疑
🔹 知识体系回顾
📚 第一天核心知识点地图
┌─────────────────────────────────────────────┐
│ Coze智能体开发基础 │
├─────────────────────────────────────────────┤
│ │
│ 上午:智能体创建 + 提示词工程 │
│ ├── 平台操作:创建/配置/发布 │
│ ├── 提示词三原则:清晰/具体/结构化 │
│ └── 进阶技巧:角色设定/格式约束/示例引导 │
│ │
│ 下午:知识库构建与应用 │
│ ├── 文本知识库:RAG原理/分段策略/检索优化 │
│ ├── 图片知识库:多模态检索/标注方法 │
│ └── 测试评估:问题设计/效果迭代 │
│ │
└─────────────────────────────────────────────┘
关键技能树:
✓ 能独立创建智能体并配置人设
✓ 能编写结构化提示词
✓ 能搭建文本知识库并优化检索效果
✓ 能应用图片知识库实现多模态问答
✓ 掌握"测试-分析-优化"迭代方法
🔹 常见Q&A精选
Q1:知识库更新后,智能体多久生效?
A:实时生效!
• 上传新文档后,处理完成(通常1-3分钟)即可使用
• 修改现有文档:重新上传覆盖,自动更新索引
• 删除文档:立即从检索范围移除
💡 建议:建立知识库更新流程
每学期初:更新校历、课程表、联系方式
政策变动:及时上传新文件,标注生效日期
Q2:如何处理知识库冲突(新旧文件内容不一致)?
A:三种策略:
策略1:版本管理(推荐)
• 知识库命名:学生手册_2025版、学生手册_2024版
• 智能体只关联最新版
• 旧版归档备查
策略2:优先级设置
• 在提示词中明确:"优先参考2025年文件"
• 适用于过渡期(新旧政策并行)
策略3:时间戳标注
• 在文档开头添加:"【生效日期】2025年9月1日"
• AI回答时自动标注信息时效性
Q3:知识库太大(如100+文档)会影响检索速度吗?
A:影响较小,但需优化:
性能表现:
• 向量检索速度快(毫秒级),与文档数量关系不大
• 瓶颈在:文档处理(上传时)和Top K召回数量
优化建议:
1. 分类知识库:
• 按主题拆分:学籍管理/后勤服务/教务系统
• 智能体根据问题类型选择知识库
2. 设置检索范围:
• 在提示词中指定:"关于奖学金问题,优先查询
《奖学金管理办法》和《学生手册》第5章"
3. 定期清理:
• 归档过期文件
• 合并相似文档
Q4:学生问"帮我选课",智能体能否直接操作?
A:不能!这是重要边界。
正确做法:
1. 明确能力边界(在提示词中):
"我可以提供选课指导,但无法代替你操作教务系统"
2. 提供详细指引:
"选课步骤:
1️⃣ 登录教务系统(网址:xxx)
2️⃣ 点击'选课管理'→'自主选课'
3️⃣ 搜索课程代码或名称
4️⃣ 点击'加入课表'
⚠️ 注意:选课时间9月1-5日,逾期需线下申请"
3. 进阶方案(第二天内容):
• 集成"插件"能力,调用教务系统API
• 实现:查询课表/检查冲突/推荐课程
• 但仍需学生本人确认操作
Q5:如何保护学生隐私(如查询成绩)?
A:多层防护策略:
1. 知识库层面:
• 不上传含个人信息的文档
• 成绩、课表等通过API实时查询(不存知识库)
2. 提示词层面:
• 添加约束:"不存储、不记录用户个人信息"
• 涉及隐私问题引导至官方渠道
3. 技术层面(高级):
• 集成身份认证(如校园统一登录)
• 敏感操作需二次验证
• 对话记录加密存储
4. 合规层面:
• 明确告知用户:AI助手的服务范围
• 提供人工客服备选方案
🔹 第一天实操成果检查
✅ 必交作业:
□ 创建1个智能体(智慧校园助手)
□ 编写完整人设提示词(含角色/目标/约束/格式)
□ 搭建1个文本知识库(至少上传3个文档)
□ 设计10个测试问题并记录效果
□ 创建1个图片知识库(至少5张图片+标注)
📊 自评标准:
优秀(90-100分):
• 提示词结构清晰,包含示例引导
• 知识库分段合理,检索准确率高(≥80%)
• 测试问题覆盖多场景,有优化记录
良好(75-89分):
• 提示词完整,能正常对话
• 知识库能回答基础问题
• 完成基本测试
待改进(<75分):
• 提示词过于简单
• 知识库检索效果差
• 未完成测试优化
🎁 加分项:
• 融入校园文化元素(校训、吉祥物等)
• 设计创意交互(如"校园梗"彩蛋)
• 文档整理规范(便于团队协作)
🔹 第二天预告
🚀 第二天主题:插件集成与工作流编排
上午:
• 插件系统:调用外部API(天气/地图/教务系统)
• 预置插件:搜索/计算器/代码执行器
• 自定义插件:对接学校现有系统
下午:
• 工作流(Workflow):多步骤任务编排
• 实战:构建"请假申请"工作流
(学生申请→辅导员审批→系统备案)
• 智能体发布:嵌入微信公众号/学校官网
💡 预习建议:
• 了解学校现有系统API文档(如有)
• 思考:哪些校园服务适合自动化?
(如:空教室查询/失物招领/活动报名)
📋 第一天培训资源包
📂 提供材料:
1. 《Coze平台操作手册.pdf》
2. 《提示词工程最佳实践.md》
3. 《学生手册分段示例.docx》
4. 《测试问题模板.xlsx》
5. 《校园图片标注指南.md》
🔗 参考链接:
• Coze官方文档:https://www.coze.cn/docs
• 提示词案例库:https://www.coze.cn/prompts
• 社区论坛:https://discuss.coze.cn
💬 答疑渠道:
• 培训群:实时答疑(工作日9:00-18:00)
• 工单系统:复杂问题提交(48小时内回复)
• 每周直播:周五15:00集中答疑
🎓 讲师寄语:第一天是"从0到1"的突破,你已经掌握了智能体开发的核心技能。记住:好的AI助手不是一次建成的,而是通过持续测试、收集反馈、迭代优化逐步完善的。保持好奇心,多尝试、多实验,期待看到你打造的智慧校园助手!
