大数据面试题总结（附参考答案）思维导图模板

Hadoop面试题

Hadoop基础

子主题

HDFS部分

子主题

MapReduce部分

子主题

YARN部分

介绍下YARN

YARN有几个模块

YARN工作机制

YARN有什么优势，能解决什么问题?

YARN容错机制

YARN高可用

YARN调度器

YARN中Container是如何启动的?

YARN的改进之处，Hadoop3.x相对于Hadoop 2.x?

YARN监控

Zookeeper面试题

子主题

Hive面试题

子主题

Flume面试题

子主题

Kafka面试题

子主题

HBase面试题

子主题

Spark面试题

子主题

Flink面试题

子主题

数仓面试题

子主题

数据库面试题

子主题

推荐系统面试题

召回分支的作用是什么？

解析：快速帮助用户找到可能感兴趣的候选物品；减少排序模型的候选输入，降低系统RT。

如何离线评价召回阶段各种模型算法的好坏？由于没有明确的召回预期值，所以无论rmse还是auc都不知道该怎么做？

解析：召回最直接的评估就是召回率，也就是召回集里正样本的比例；也可以不同的召回算法+同一个排序算法，还是用排序之后的AUC和RMSE来评估。

简述Multi-task learning(MLT)多任务学习

解析：在机器学习中，我们通常关心优化某一特定指标，不管这个指标是一个标准值，还是企业KPI。为了达到这个目标，我们训练单一模型或多个模型集合来完成指定得任务。然后，我们通过精细调参，来改进模型直至性能不再提升。尽管这样做可以针对一个任务得到一个可接受得性能，但是我们可能忽略了一些信息，这些信息有助于在我们关心的指标上做得更好。具体来说，这些信息就是相关任务的监督数据。通过在相关任务间共享表示信息，我们的模型在原始任务上泛化性能更好。这种方法称为多任务学习（Multi-Task Learning）

特征选择的方法有哪些?

Filter:过滤法,按照发散性或者相关性对各个特征进行行行评分,设定阈值或者待选择阈值的个数,选择特征。 Wrapper:包装法,根据目目标函数(通常是预测效果评分),每次选择若干干特征,或者排除若干干特征。Embedded:嵌入入法,先使用用某些机器器学习的算法和模型进行行行训练,得到各个特征的权值系数,根据系数从大大到小小选择特征。类似于Filter方方法,但是是通过训练来确定特征的优劣。

特征交叉(特征组合)方式有哪些?

1.Dense特征组合

将一个特征与其本身或其他特征相乘(称为特征组合)(二阶或者高阶)；两个特征相除；对连续特征进行分桶,以分为多个区间分箱。

ID特征之间的组合

笛卡尔积:假如拥有一个特征A,A有两个可能值{A1,A2}。拥有一个特征B,存在{B1,B2}等可能值。然后,A&B之间的交叉特征如下:{(A1,B1),(A1,B2),(A2,B1),(A2,B2)},比如经纬度,一个更好地诠释好的交叉特征的实例是类似于(经度,纬度)。一个相同的经度对应了地图上很多的地方,纬度也是一样。但是一旦你将经度和纬度组合到一起,它们就代表了地理上特定的一块区域,区域中每一部分是拥有着类似的特性。

阿里最新开源的X-Deep Learning为Online Learning提供了哪些解决方案？

去ID化的稀疏特征学习

传统的机器学习框架一般要求对稀疏特征进行ID化表征（从0开始紧凑编码），以此来保证训练的高效性。XDL则允许直接以原始的特征进行训练，大幅简化了特征工程的复杂度，极大地增加了全链路数据处理效率，这一特性在实时在线学习场景下显得更加有意义。

实时特征频控

用户可以设置一个特征过滤的阈值，例如出现次数大于N次的特征才纳入模型训练，系统会自动的采用自动概率丢弃的算法进行特征选择，这样可以大幅降低无效超低频特征在模型中的空间占用。

过期特征淘汰

长周期的在线学习时，用户也可以通过打开过期特征淘汰功能，系统会自动的对影响力弱且长周期没有碰触到的特征参数进行自动淘汰。