大数据面试题总结(附参考答案)
2023-03-03 17:21:22 1 举报
AI智能生成
登录查看完整内容
汇总大数据、推荐系统等面试题目,持续更新中......
作者其他创作
大纲/内容
子主题
Hadoop基础
HDFS部分
MapReduce部分
介绍下YARN
YARN有几个模块
YARN工作机制
YARN有什么优势,能解决什么问题?
YARN容错机制
YARN高可用
YARN调度器
YARN中Container是如何启动的?
YARN的改进之处,Hadoop3.x相对于Hadoop 2.x?
YARN监控
YARN部分
Hadoop面试题
Zookeeper面试题
Hive面试题
Flume面试题
Kafka面试题
HBase面试题
Spark面试题
Flink面试题
数仓面试题
数据库面试题
解析:快速帮助用户找到可能感兴趣的候选物品;减少排序模型的候选输入,降低系统RT。
召回分支的作用是什么?
解析:召回最直接的评估就是召回率,也就是召回集里正样本的比例;也可以不同的召回算法+同一个排序算法,还是用排序之后的AUC和RMSE来评估。
如何离线评价召回阶段各种模型算法的好坏?由于没有明确的召回预期值,所以无论rmse还是auc都不知道该怎么做?
解析:在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI。为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务。然后,我们通过精细调参,来改进模型直至性能不再提升。尽管这样做可以针对一个任务得到一个可接受得性能,但是我们可能忽略了一些信息,这些信息有助于在我们关心的指标上做得更好。具体来说,这些信息就是相关任务的监督数据。通过在相关任务间共享表示信息,我们的模型在原始任务上泛化性能更好。这种方法称为多任务学习(Multi-Task Learning)
简述Multi-task learning(MLT)多任务学习
特征选择的方法有哪些?
1.Dense特征组合
ID特征之间的组合
特征交叉(特征组合)方式有哪些?
传统的机器学习框架一般要求对稀疏特征进行ID化表征(从0开始紧凑编码),以此来保证训练的高效性。XDL则允许直接以原始的特征进行训练,大幅简化了特征工程的复杂度,极大地增加了全链路数据处理效率,这一特性在实时在线学习场景下显得更加有意义。
去ID化的稀疏特征学习
用户可以设置一个特征过滤的阈值,例如出现次数大于N次的特征才纳入模型训练,系统会自动的采用自动概率丢弃的算法进行特征选择,这样可以大幅降低无效超低频特征在模型中的空间占用。
实时特征频控
长周期的在线学习时,用户也可以通过打开过期特征淘汰功能,系统会自动的对影响力弱且长周期没有碰触到的特征参数进行自动淘汰。
过期特征淘汰
阿里最新开源的X-Deep Learning为Online Learning提供了哪些解决方案?
推荐系统面试题
大数据面试题
0 条评论
回复 删除
下一页