搜索系统4大评价指标解析：如何衡量和提升搜索指标？思维导图模板

搜索引擎的 基本概念

基本名词

查询词：（query) 搜索框中输入的词

查询建议：

（SUG）输入搜索词后系统补充建议

目的让搜索引擎使用更方便。

搜索结果

搜索完成展示的结果文档

不同产品的结果的 展现不同方式

单列曝光：谷歌百度

双列曝光：淘宝京东小红书

搜索结果 数据名词

文档点击率

曝光：用户在搜索结果页上看到文档，就算曝光

文档点击：在曝光之后，用户点击文档进入文档的详情页。

文档点击率：= 文档点击总次数/文档曝光总次数。

查询词 点击率（有点比）

查询词点击：用户点击搜索结果页任意一篇文档，就算查询词点击。

查询词点击率（有点比）:查询词点击总次数/搜索总次数。

查询词首屏点击：用户点击搜索结果页首屏的任意一篇文档， 就算"查询词首屏点击"

查询词首屏点击率（首屏有点比）:查询词首屏点击总次数/搜索总次数。

文档点击率      VS 查询词点击率

文档点击率：= 文档点击总次数/文档曝光总次数。约10%左右

查询词点击率（有点比）:查询词点击总次数/搜索总次数。约70%左右

查询词首屏点击率（首屏有点比）:查询词首屏点击总次数/搜索总次数。  60%左右

搜索结果的数据指标中优先级： 查询词点击率（有点比）＞文档点击率

用户意图的直接反映： 查询词点击率是用户对搜索结果的兴趣程度的直接反映。 查询词的点击率高，说明对搜索结果感到满意，

搜索结果的相关性： 查询词点击率高通常表明搜索结果的相关性较好。

个性化和预测： 高查询词点击率可以帮助搜索引擎更好地理解用户的搜索习惯和偏好，进而提供更个性化的搜索结果和预测用户可能感兴趣的内容。

搜索的分类

垂搜：

针对某一个行业的搜索引擎 举例：电商搜索：淘宝，京东，拼多多。. 学术搜索：知网

特点：

垂搜的文档普遍是结构化的 容易根据文档属性标签做检索筛选。 举例： 电商：可以限定品牌，卖家，价格，颜色。 学术：可以限定关键词作者，期刊，年份。 本地生活：可以限定类目，商圈距离

垂搜用户的意图明确。  举例：大众点评用户搜索"寿司",目的是找寿司餐厅。

通搜

覆盖面广，不限于一个领域。(谷歌，百度、小红书、抖音)

特点

文档来源广，覆盖面大。(例：网页，视频，图片，商品 直播店铺。)

没有结构化，检索的难度大。

用户使用通搜的目的各不相同，较难判断用户意图。

搜索的 用户满 意度

相关性模型

召回、粗排、精排均需要计算相关性。

内容质量

EAT

可信赖（Trustworthiness）: 作者、⽹站的名声好坏。

专业性（Expertise）: 作者有专业资质，⽐如医⽣、记者等

权威性（Authoritativeness）: 作者、⽹站在领域内有影响⼒，不会被⽤户质疑。

your money or your life 金钱健康方面查询词， EAT 是排序的重要因⼦

Your money： • ⾦融理财（保险、投资、报税、贷款、转账）。 • 电商、购物。

Your life： • 医疗健康（诊断建议、⽤药建议、医院介绍、减肥）。 • 法律等严肃的主题（诉讼、移民、选举、离婚、收养）。 • 对⼈⽣有重⼤影响的主题（⾼考、择校、出国、就业）

文本质量

质量

⽂章的价值：⽂章是否清晰、全⾯，事实是否准确，信息是否有⽤。

作者的态度和⽔平：写作是否认真、写作的专业程度、写作的技巧。

标题党、图⽂不⼀致、虚假引流标签、堆砌关键词……

⽂章的意图

有益：分享有⽤的知识、攻略、亲⾝经历

有害：虚假信息、软广、散布仇恨、男⼥对⽴、发泄情绪。

图⽚质量（或视频质量）：分辨率、有无⽔印、是不是 截图、图⽚是否清晰、图⽚的美学……

内容质量不是⼀个分数， ⽽是很多分数，会在搜索排序 中⽤到。

对于每个⽂本质量分数，都有⼀个专门训练的模型。 模型：BERT 等 NLP 模型、CLIP 等多模态模型。 数据：制定分档规则，然后⼈⼯标注。

在⽂档发布、或被检索时，⽤模型打分，分数存⼊⽂档 画像。（搜索排序时直接读取⽂档画像。）

时效性

突发时效性

查询词涉及突发的新闻、热点事件。

如果查询词带有突发时效性，⽤户想看最近发布 的⽂档

识别⽅法： 以数据挖掘为主。

挖掘站内搜索量激增的查询词。

挖掘站内发布量激增的关键词。

爬取其他⽹站的热词。

⼀般时效性：

只看查询词字⾯就可以判断时效性意图的强弱。（无需知 道近期是否有⼤新闻。）

按需求强度分为 4 档：强、中、弱、无。

识别⽅法：BERT 等语义模型。

周期时效性

在每年特定时间表现为突发时效性，在其 他时间表现为无时效性

例：双⼗⼀、春晚⼩品、⾼考作⽂、奥斯卡。

可以不做任何处理。（当查询词表现出突发时效性时， 会被算法挖掘到。）

可以通过⼈⼯标注、数据挖掘识别周期时效性查询词。

个性化

考虑到不同⽤户有不同偏好， 搜索引擎可以根据⽤户特征 做排序（类似推荐系统）

查询词越宽泛（例如“头像”），就越需要个性化排序

精准的查询词（例如“权⼒的游戏龙妈头像” ）不需要个性化。

⽤预估点击率、交互率来衡量 ⽤户对⽂档的偏好。

相关且⾼质量的⽂档更容易被点击、点赞、收藏、转发。

即便是⾮个性化排序，也会⽤模型预估点击率和交互率，有助于 提升排序效果。

结合相关性、内容质量、时效性、个性化（预估点击率和 交互率）等因⼦对候选⽂档排序

搜索引擎 的评价指标

北极星指标

搜索渗透率 = Search DAU （搜索日活） / DAU。

提升搜索⽇活、 搜索渗透率的⽅法

搜索前- 进入搜索 建议页

目标：激发用户搜索兴趣，优化配置资源

方案 举例

内容：着重用户主要感兴趣的内容， 能在有限的空间内看到重点/感兴趣内容

氛围：增加搜索入口、优化资源位配置：搜索bar预埋词、 （搜索词结合用户喜好计算给出） Banner、热搜索词配置、多榜单配置、搜索框的视觉设计 突出重点内容：增加「火、新、上升」等标识， 营造实时火热的互动氛围。

搜索中- 开始搜索- 联想页

目标：细化搜索的内容类型，提高搜索内容的命中

方案 举例

内容：预设用户意图，展示符合用户 使用目的的内容来提高内容命中， 通过细化内容类型和降低用户认知 负荷来配合算法召回，进一步提高内容命中

展示：按产品调性及搜索频次，对高层级内容， 会增加图片/视频比例，增强视觉效果， 对低层级内容，降低视觉比重

搜索后- 搜索结束-结果页

目标：需结构化呈现内容结果，提高检索效率。

方案举例：

搜索排序策略不断调优：

展示： tab结构优化：高优先级内容为单独tab, 次优先级的可综合为tab  内容结构优化:首屏更准确地呈现用户想要的，在下滑过程中提高检索效率 信息层级优化:关键字飘红来提高文字层级

留存指标：

次 1 留、次 7 留、次 30 留

LT7 和 LT30 留存指标

单个策略不容易提升规模和留存

中间指标

⽤户的点击等⾏为， 反映搜索质量的好坏。

点击率  有点比

文档点击率: 搜索结果页上文档点击率 = 总点击数 / 总曝光数。

有点⽐（查询词点击率）：有点⽐ = 有点击的搜索次数 / 总搜索次数。

⾸屏有点⽐：点击发⽣在⾸屏，本次搜索算有点击。 ⾸屏有点⽐ ≤ 有点⽐

首点位置

⼀次搜索之后， 记录第⼀次点击发⽣的位置

如果没有点击，或者⾸点位置 ⼤于阈值 X，则⾸点位置取 X

主动换词率

如果⽤户搜到需要的结果，通常不会换查询词。

换词：⼀定时间间隔内， 搜的两个查询词相似， 则被认定为换词。

主动换词：没有找到满意的结果， 用户主动更换搜索词。 说明搜索结果不好

被动换词：⽐如搜索建议 “您是不是想搜权⼒的游戏”，⽤户 点击建议。说明搜索体验好

交互指标

⽤户点击⽂档进⼊详情页，可能会点赞、收藏、转发、关 注、评论。

交互通常表明⽤户对⽂档⾮常感兴趣（强度⼤于点击）， 因此可以作为中间指标

交互⾏为稀疏（每百次点击，只有 10 次点赞、2 次收藏）， 单个交互率波动很⼤，⽽且在 A/B 测试中不容易显著

取各种交互率的加权和作为总体交互指标，权重取决于交 互率与留存的关联强弱

A/B 测试，中间指标很容易显著。

人工体验评估

GSB指标

人工体验抽查新旧策略的结果

如果新策略更优，记作 Good (G)

如果两者持平，记作 Same (S)。

如果旧策略更优，记作 Bad (B)。

例：评 300 条查询词，GSB 为 50: 220: 30。

月度评估 DCG（Discounted Cumulative Gain）

每个⽉随机抽取⼀批搜索⽇志，对搜索结果进行评估 可以是⾃我对⽐，是否优于往期的 DCG。 可以与竞对对⽐，是否优于竞对的 DCG。

学习资料

 《设计复盘 | 搜索功能体验优化详解》    作者：OK欣   来源：公号 ASAK设计

《搜索引擎技术》作者：王树森  来源：bilibili 

《搜索功能全解析》作者：0479

搜索系统4大评价指标解析： 如何衡量和提升搜索指标？

搜索系统4大评价指标解析：如何衡量和提升搜索指标？