代码分析
2015-12-19 19:48:57 22 举报
这段代码是一个Python脚本,用于分析文本数据。它首先定义了一个名为`analyze_text`的函数,该函数接受一个字符串参数`text`。在函数内部,它使用正则表达式库(re)来查找所有匹配的单词和短语。然后,它将找到的单词和短语存储在一个字典中,其中键是单词或短语,值是它们在文本中出现的次数。最后,函数返回这个字典。 在主程序部分,代码首先从用户那里获取一段文本输入,然后调用`analyze_text`函数对其进行分析。分析完成后,代码将结果打印到屏幕上。
作者其他创作
大纲/内容
短语搜索
TopDocs
word2
词典/索引
搜索,只有在QueryParse时会用到分词器,其它诸如TermQuery的搜索都不需要
模糊查询
words3
NumericRangeQuery
文件2
StopAnalyzer
核心
文件1
文件10
Text Fragments
正向索引
Query
word3
索引模块
文件9
IndexSearcher
ChineseAnalyzer
StandrdAnalyzer
words2
FuzzyQuery
开发接口RESTfulAPI
索引存储文件
TermQuery
- Term term- TermContext perReaderTermState
+ TermQuery(Term t) class TermWeight extends Weight
会将大写转为小写
WhitespaceAnalyzer
文本分析模块
Analyzer
倒排表
TermRangeQuery
文件35
BooleanQuery
通过字符串搜索:搜索包含以指定字符串开头的项的文档
搜索模块
对特定项的搜索
QueryParser
通配符查询
外部调用
PhraseQuery
文件6
组合查询
倒排索引
IndexReader
在指定的数字范围内搜索
Query Object
特征代码3
文件3
WildardQuery
QueryParse
- float boost = 1.0F
PrefixQuery
word1
Directory
+ Weight createWeight()+ Query rewrite()
SimpleAnalyzer
Expression
特征代码1
而IndexSearcher则要简单得多。由于打开一个IndexReader需要较大的系统开销,因此最好是在所有搜索期间都重复使用同一个IndexReader实例,只有在必要的时候才建议打开新的IndexReader
在指定的项范围内搜索
特征代码2
IndexReader完成了打开所有索引文件和提供底层reader API等繁重的工作
0 条评论
下一页