精排join
2017-03-01 14:45:26 0 举报
精排Join是一种用于数据库查询的重要技术,它允许我们将两个或更多的数据表根据某个共享的键值进行连接。通过这种方式,我们可以从多个表中获取信息,而不需要重复存储冗余的数据。精排Join通常比简单的”笛卡尔积”更高效,因为它只返回实际需要的匹配行,而不是所有可能的组合。此外,它还可以帮助减少数据的复杂性,提高查询的效率和准确性。在实际应用中,常见的精排Join类型包括内连接、外连接和全连接等。无论是在关系型数据库还是大数据处理中,精排Join都发挥着至关重要的作用。
作者其他创作
大纲/内容
后台曝光
生成智能指针结构体[避免复制开销]
多样性
3
1. UM;2. docID;
【guid,内容】无锁hash_map
单机内部用户guid的md5分桶1
1. 后台曝光的时候记录:用户和文章的特征状态4. 终端真实曝光/点击触发标记正负样本。
1. 位置
queryId1 + docId1
用户Profile
特征处理
5
queryId4 + docId4
queryId2+ docId2
Joiner
注意(样本选择): 1. 全局总曝光和总点击的ctr阈值控制;
确保点击一定要有曝光
样本join服务
插入
4
内存限制:采用总体queryId个数做限制,满了不允许插入
用户曝光
2
多队列多线程处理器
JOIN2
单机内部用户guid的md5分桶2
内容特征
长度
1
单机内部用户guid的md5分桶4
标记:上报过
终端真实曝光/点击
value压缩存储(snappy)
JOIN1
定时线程N
单机内部用户guid的md5分桶3
1. 特征id;2. 原始特征;
缓存:后台曝光时的特征
终端
定时清除
用户
具体框架
kafaka
按queryId块存储[hash_map]
...
一致性hash调用
用户画像
JOINn
queryId用于标记用户每一刷
日志服务
queryId3 + docId3
0 条评论
下一页