基于LightRAG面向结构化领域文档的切分改进
2025-08-31 19:35:01 1 举报
基于LightRAG的面向结构化领域文档切分改进,旨在提升处理结构性文档的能力。该改进方案不仅优化了文档结构的理解与解析,还能更好地识别和切分文档中的关键信息区块。这为后续信息提取与数据整合提供了更为准确的基础。该方法特别适用于领域文档的自动化处理,如法律、财务报告等,这些领域对文档结构和准确信息提取的需求极高。
作者其他创作
大纲/内容
chunk_by_clause=True
ConstructionDocumentChunker
📑 通过chunk_document方法解析文档结构
include_hierarchy=True包含层级路径
<table>
改进的切分策略-层级切分
/upload
🔍 解析文档结构_parse_document_structure
HTML表格提取:_extract_html_table
创建常规分块按层级分块
文档结构解析构建层级树
分块策略
chunk_by_clause=True按条款分块
文档内容HashID
HTML/Markdown表格
separate_tables=True表格独立处理
Markdown表格:_extract_markdown_table
创建ConstructionChunk对象按条款分块
API
保存表格节点_save_table
|·····|
chunk_by_hierarchy=False
ISO时间戳
设置Chunk属性
数据类型
示例值
chunk_id
字符串
生成唯一标识符
content
文本内容
包含层级路径的内容
metadata
元数据
层级路径、节点类型
hierarchy_path
列表
[\"第一章\
node_type
枚举
text/table/clause等
LightRAG框架
标注MD
🔄 递归处理文本逐级解析章节、条款、内容
0 条评论
下一页