信息检索导论
2017-03-21 16:05:26 0 举报
AI智能生成
信息检索导论是一门介绍信息检索基本概念、原理和技术的课程。它旨在帮助学生了解如何高效地获取、组织和利用大量的信息资源。课程内容包括:信息检索的定义、分类、评价指标;信息检索系统的构成、工作原理和关键技术;信息检索模型和算法;文本处理和索引构建技术;查询处理和结果排序技术;用户界面设计和交互技术等。通过学习这门课程,学生可以掌握信息检索的基本理论和方法,为今后从事相关工作打下坚实的基础。
作者其他创作
大纲/内容
0-名词解释
001-亚线性时间
线性相当于1次方,亚线性就是0-1次,超线性就是1次方以上
2-词项词典及倒排记录表
1-文档分析及编码转换
1-字节序列转换成线性的字符序列
2-确定索引的文档单位
2-词项集合的确定
1-词条化
1-词条
to sleep perchance to dream中有5个词条
2-词条类
to sleep perchance to dream中有4个词条类,因为有2个to
3-词项
to sleep perchance to dream中有3个词项,因为to作为停用词被过滤
4-词项类
to sleep perchance to dream中有3个词项类
2-去除停用词
3-词项归一化
1-背景
2-定义
3-做法
1-等价类问题
1-隐式地建立等价类
2-同义词表
见第 9 章
2-重音及变音符号问题
3-大小写转换问题
将所有的字母都 转换成小写。
4-词干还原和词形归并
1-背景
2-定义
3-做法
1-词干还原算法
1-Porter 算法
2-Lovins 词干 还原工具
3-Paice/Husk
3-基于跳表的倒排记录表快速合并算法
1-背景
2-方法
1-最小文档频率优先
2-跳表
在每个根号(p)处放置跳表指针,有不错的效果,其中p是倒排表长度。
4-含位置信息的倒排记录表及短语查询
1-背景
2-思路
短语查询
3-做法
1-二元词索引
将文档中每个连接词对看成一个短语
1-普通二元词索引
2-扩展二元词索引
1-词条化
2-词性标注
3-模式匹配出扩展二元词
2-位置信息索引
文档中,两个词的位置和查询中两个词的位置是否一致(偏移距离)
1-KNN
3-混合索引
将1和2有效的合并
1-对某些查询短语索引只使用二元词索引
通过用户的访问行为日志统计得到,往往是高频常见查询
2-对其它短语查询则采用位置索引
3-进入部分后续词索引
对每个词项,有个后续词索引记录了它在文档中的下一个词项
3-词典及容错式检索
1-词典
1-数结构
2-哈希表
2-通配符查询
略……
3-拼写校正
1-拼写校正算法的基本原则
1-选择距离最近的一个正确拼写,要求查询之间有距离的概念
2-近邻度相近或相等时,选择更常见的那个
1、文档频率更多的更常见
2-用户查询更频繁的更常见
2-独立词项的拼写校正方法
1-基于编辑距离
2-基于K-Gram重合度
3-上下文敏感的拼写校正方法
对短语中的每个单词找到可能的拼写正确词,然后只保留文档集合或查询日志中的高频组合结果
4-基于发音的拼写校正方法
1-语音哈希
soundex算法
4-索引构建
待续……
5-索引压缩
待续……
6-文档评分、词项权重计算及向量空间模型
0 条评论
下一页