Input Document/Query Text
Tokenizer
term是索引的基本单元
token/term set
字符流的修整. 比如将 复数变为单数,去掉某个标签Character filter 可以有0或多个
Character Filter
Token Filter
对分词的结果进行过滤. 比如stop token filter 会将 停词(the) 去除掉Token Filter 可以有0或多个
根据某个规则,对document进行分词. 比如用 whitesapce分词器的话,会将 \"I am a xxx\