wordwrap--粒度控制
2017-02-26 20:39:12 0 举报
在编程中,”wordwrap”通常指的是一种功能或函数,它用于控制文本的显示宽度。这个术语主要用于处理长字符串,特别是在需要将它们分割成多行以适应特定显示区域的情况下。例如,你可能有一个非常长的URL或者一个过长的电子邮件地址,你希望它们在显示时不会超出边界或者换行。在这种情况下,你就可以使用wordwrap函数来自动地将这些字符串分割成更小的部分。这种粒度控制可以帮助提高文本的可读性和美观性,同时也可以避免因为字符串过长而导致的错误或者问题。
作者其他创作
大纲/内容
复位wordwrap_data
结尾是后缀,加权15每个词,单字加权25每个词,单字加权15每个词,超过两个字减权5
紧密词组
如果各个词在停用词表里。term1左边能粘接term2两边能粘接term3右边能粘接
专名词最长截断
将抛弃词变为空格原地修改
wordseg分词子词组
拆分词典过滤
超过配置的权值
wordseg分词基本词
用基本词的组合逆向最长查出专名词典中的专名
基本词
查询人工切词
用基本词连接出二元紧密词典中的专名
超过100分,归一为100分,否则为0分
和基本词对齐,对齐过程中,保证专名不打断子词组;紧密词不打断专名和子词组。
第二个词命中后缀词,得分加上后缀词分值
旧粒度控制
新粒度控制
专名词组
前后两个词,命中二元gram,得分为0+gram窗口得分,否则为零分
重查词
得分乘以间隔系数/100得到紧密度得分
如果对齐的词有多个,取最长的那个;如果一样长,优先取子词组,然后取专名,然后取紧密词如果对齐的词有一个,取当前的这个;如果没有对齐的词,取基本词。
如果对齐的词有多个,取最长的那个;如果一样长,优先取子词组,然后取专名,然后取紧密词;如果对齐的词有一个,取当前的这个;如果没有对齐的词,取基本词。
wordseg分词词组
原串
用基本词连接出三元紧密词典中的专名
重查词典
重查词典命中
如果是三元共现,基础权重100 * gram/篇章次数结尾是后缀,加权15每个词,单字加权15每个词,超过两个字减权5
wordseg分词混排词
混排词组
如果是二元共现,基础权重100 * (+0-gram数 / (10窗口内共现数)结尾是后缀,加权15每个词,单字加权25每个词,单字加权15每个词,超过两个字减权5
如果各个词在停用词表里。term1左边能粘接term2右边能粘接
0 条评论
下一页