中台分词工艺
2019-09-03 11:39:50 0 举报
流程
作者其他创作
大纲/内容
数据中心schema:14095
数据拉取
1.按照
数据中心
定时拉取数据
线上数据
AI模型
Badcase数据集分支sent_goal :badcase
评测集流程
数据去重
上传报告
过滤不作处理
1.对拉取的数据去重2.对历史一个月上任务数据进行检索去重
自动挖掘
评测数据集分支sent_goal :eval
否
接入
1.先判断是否是分词数据2.判断是否是分词能力
业务方自动将数据流入导数据中心
数据分流
Badcase流程
抽样+评测
输出评测报告:按不同模型,不同场景排列组合1.统计召回率:模型准确的token数 / 模型token数2.统计准确率:模型准确率的token数 / 模型token数3.F1值统计方法:2*召回率*准确率 / (召回率 + 准确率)
UI评测集视图
是
0 条评论
下一页