RAG场景下AI模型的5种分块策略
2025-08-14 11:31:14 1 举报
该作品围绕检索增强生成(RAG)场景中 AI 模型的文本分块需求,系统拆解 固定大小分块、语义分块、递归分块、基于文档结构分块、基于大语言模型(LLM)分块 5 类核心策略。通过流程示意图 + 简洁逻辑说明,清晰呈现从文档输入到分块输出的不同处理路径,比如固定大小分块的重叠切割、语义分块的余弦相似度判定聚合、递归分块的条件递归拆分等,帮助技术人员快速理解各类分块策略的适配场景与执行逻辑。
作者其他创作
大纲/内容
5) 基于LLM的分块
*如有需要,与递归分块合并
最终分块
标题
文档
引言
初始第二个分块
第 1 部分
最终第一个分块
第 2 部分
初始第一个分块
结论
持续添加新分段,直到余弦相似度大幅下降
对文档分段(句子或段落)
重叠
Artificial intelligence is
transforming technology
YES
and shaping the future.
1) 固定大小分块
大语言模型(LLM)
输入到 LLM
LLM 生成分块
分块2
分块1
4) 基于文档结构的分块
2) 语义分块
3) 递归分块
NO
对文档分段(段落或主题部分)
选择一个分段
进一步递归拆分
大小 > 分块大小限制?
RAG 场景下 AI 模型的5种分块策略
利用固有结构分块
分块3
分块4
分块5
0 条评论
下一页