A 0%
B 100%
C 0%到100
D 以上都不是
正确答案是: B
解析:
A 增加树的深度
B 增加学习率 (learning rate)
C 减少树的深度
D 减少树的数量
正确答案是:C
解析:
A 设C=1
B 设C=0
C 设C=无穷大
D 以上都不
正确答案是:C
解析:
A 1和 2
B 2 和 3
C 1, 2 和 3
D 以上都不是
正确答案是: B
解析:
A 基因序列数据集
B 电影浏览数据集
C 股票市场数据集
D 所有以上
正确答案是:D
解析:
A我们随机抽取一些样本, 在这些少量样本之上训练
B我们可以试用在线机器学习算法
C我们应用PCA算法降维, 减少特征数
D B 和 C
E A 和 B
F 以上所有
正确答案是:F
解析:
A 1 和 2
B 2, 3和4
C 1, 2和4
D All
正确答案是:D
解析:
A 2
B 1 and 2
C 1, 3 and 4
D 2 and 4
正确答案是:A
更多详情请参见《通俗理解kaggle比赛大杀器xgboost》:https://blog.csdn.net/v_JULY_v/article/details/81410574,循序渐进,先后理解:决策树、CBDT、xgboost。
解析:
A 正确的
B 错误的
正确答案是: B
解析:
A 1, 2 and 4
B 2 and 4
C 3 and 4
D 1 and 3
E 1, 3 and 4
正确答案是:A
解析:
A 7
B 30
C 35
D Can’t Say
正确答案是: B
解析:
A 单个模型之间有高相关性
B 单个模型之间有低相关性
C 在集成学习中使用“平均权重”而不是“投票”会比较好
D 单个模型都是用的一个算法
正确答案是: B
A 2 和 4
B 1 和 2
C3 和 4
D 1 和3
正确答案是: B
解析:
A 1
B 2
C 3
D 2和3
E 都错
正确答案是:E
解析:
A 2 和 4
B 2 和 3
C 1 和 3
D 1 和 4
正确答案是:C
解析:
A B
B A
C D
D C
E 都不是
正确答案是: B
解析:
A 是的,这说明这个模型的范化能力已经足以支持新的数据集合了
B 不对,依然后其他因素模型没有考虑到,比如噪音数据
正确答案是: B
A i > ii > iii > iv
B ii > iv > iii > i
C iv > i > ii > iii
D ii > iii > iv > i
正确答案是: B
解析:
A 1 和 4
B 1, 2 和 3
C 1,3 和 4
D 以上所有
正确答案是:C
解析:
A 1 和 2
B 1 和 3
C 2 和 4
D 以上都不是
正确答案是:D
解析:
A 1 和 3
B 1 和 3
C 1, 3 和 4
D 5
正确答案是:C,
解析:
A 1 和 2
B 2 和 3
C 1,2 和 3
D 以上都不是
正确答案是:D
解析:
A 1 and 3
B 1 and 2
C 1,2 and 3
D 1
正确答案是:C
解析:
A 对的
B 错的
正确答案是:A
A 他们经常不会过拟合
B 他们通常带有高偏差,所以其并不能解决复杂学习问题
C 他们通常会过拟合
正确答案是:C
解析:
A 1 和 2
B 2 和 3
C 1 和 3
D 1、2 和 3
正确答案是:D
解析:
A X_projected_PCA 在最近邻空间能得到解释
B X_projected_tSNE 在最近邻空间能得到解释
C 两个都在最近邻空间能得到解释
D 两个都不能在最近邻空间得到解释
正确答案是: B
解析:
A D1= C1, D2 < C2, D3 > C3
B D1 = C1, D2 > C2, D3 > C3
C D1 = C1, D2 > C2, D3 < C3
D D1 = C1, D2 < C2, D3 < C3
E D1 = C1, D2 = C2, D3 = C3
正确答案是:E
解析:
A 将数据转换成零均值
B 将数据转换成零中位数
C 无法做到
正确答案是:A
解析:
A 只有 1
B 只有 2
C 1 和 2
D 没有一个
正确答案是:A
解析:
A 根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式
C 用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女
正确答案是: B
解析:
A 能自动识别类的个数,随即挑选初始点为中心点计算
B 能自动识别类的个数,不是随即挑选初始点为中心点计算
C 不能自动识别类的个数,随即挑选初始点为中心点计算
D 不能自动识别类的个数,不是随即挑选初始点为中心点计算
正确答案是:C
解析:
A Accuracy:(TP+TN)/all
B F-value:2*recall*precision/(recall+precision)
C G-mean:sqrt(precision*recall)
D AUC:曲线下面积
正确答案是:A
解析:
A ⽤户年龄分布判断:少年、青年、中年、⽼年
B 医⽣给病⼈诊断发病类型
C 投递员分拣信件
D 消费者类型判断:⾼消费、⼀般消息、低消费
E 出⾏方式判断:步⾏、骑车、坐车
F 商家对商品分级
正确答案是:E
解析:
B 最大熵
C 卡方检验
D 最大似然比
正确答案是: B
解析:
A 正向最大匹配法
B 逆向最大匹配法
C 最少切分
D 条件随机场
正确答案是:D
解析:
A 图 1 中的特征
B 图 2 中的特征
C 图 3 中的特征
D 图 1、2 中的特征
E 图 2、3 中的特征
F 图 1、3 中的特征
正确答案是:D
解析:
A 随机误差项是一个期望值为0的随机变量
B 对于解释变量的所有观测值,随机误差项有相同的方差
C 随机误差项彼此相关
D 解释变量是确定性变量不是随机变量,与随机误差项之间相互独立
E 随机误差项服从正态分布
正确答案是:C
A 类型 1 通常称之为假正类,类型 2 通常称之为假负类
B类型 2 通常称之为假正类,类型 1 通常称之为假负类
C 类型 1 错误通常在其是正确的情况下拒绝假设而出现
正确答案是: B
解析:
A 增加 R-square
B 减少 R-square
正确答案是:A
解析:
A MA模型是同一个全通滤波器产生的
B MA模型在极点接近单位圆时,MA谱是一个深谷
C AR模型在零点接近单位圆时,AR谱是一个尖峰
D RMA谱既有尖峰又有深谷
正确答案是:D
MA模型滑动平均模型,模型参量法谱分析方法之一,也是现代谱估中常用的模型。 用MA模型法求信号谱估计的具体作法是:①选择MA模型,在输入是冲激函数或白噪声情况下,使其输出等于所研究的信号,至少应是对该信号一个好的近似。②利用已知的自相关函数或数据求MA模型的参数。③利用求出的模型参数估计该信号的功率谱。 AR 模型(auto regressive model)自回归模型,模型参量法高分辨率谱分析方法之一,也是现代谱估计中常用的模型。 用AR模型法求信具体作法是: ①选择AR模型,在输入是冲激函数或白噪声的情况下,使其输出等于所研究的信号,至少,应是对该信号的一个好的近似。 ②利用已知的自相关函数或数据求模型的参数。 ③利用求出的模型参数估计该信号的功率谱。 ARMA模型(auto regressive moving average model)自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。
A a
B b
C c
D d
正确答案是:A,您的选择是:D
解析:
A 卡方检验值
B 互信息
C 信息增益
D 主成分分析
正确答案是:D
解析:
A 估算
B 整例删除
C 变量删除
D 成对删除
正确答案是:D,您的选择是:D
解析:
A 最小最大损失准则
B 最小误判概率准则
C 最小损失准则
D N-P判决
正确答案是:A
解析:
A. 决策树的父节点更大
B 子节点的熵更大
C 两者相等
D 根据具体情况而定
正确答案是:D,您的选择是:A
解析:
A 平滑
B 去噪
C 随机插值
D 增加白噪音
正确答案是:A
解析:
A逻辑回归预测某事件发生的概率
B逻辑回归有较高的拟合效果
C逻辑回归回归系数的评估
D以上全选
正确答案是:D
解析:
A 正确
B 错误
A Word2Vec基于概率统计
B Word2Vec结果符合当前预料环境
C Word2Vec得到的都是语义上的同义词
D Word2Vec受限于训练语料的数量和质量
正确答案是:C,您的选择是:C
解析:
面试题:
1 overfitting怎么解决
overfitting就是过拟合, 其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集, 对训练集外的数据却不work, 这称之为泛化(generalization)性能不好。泛化性能是训练的效果评价中的首要目标,没有良好的泛化,就等于南辕北辙, 一切都是无用功。
过拟合是泛化的反面,好比乡下快活的刘姥姥进了大观园会各种不适应,但受过良好教育的林黛玉进贾府就不会大惊小怪。实际训练中, 降低过拟合的办法一般如下:
(1)正则化(Regularization)
L2正则化:目标函数中增加所有权重w参数的平方之和, 逼迫所有w尽可能趋向零但不为零. 因为过拟合的时候, 拟合函数需要顾忌每一个点, 最终形成的拟合函数波动很大, 在某些很小的区间里, 函数值的变化很剧烈, 也就是某些w非常大. 为此, L2正则化的加入就惩罚了权重变大的趋势.
L1正则化:目标函数中增加所有权重w参数的绝对值之和, 逼迫更多w为零(也就是变稀疏. L2因为其导数也趋0, 奔向零的速度不如L1给力了). 大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说,xi的大部分元素(也就是特征)都是和最终的输出yi没有关系或者不提供任何信息的,在最小化目标函数的时候考虑xi这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的特征权重反而会被考虑,从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些无用的特征,也就是把这些特征对应的权重置为0。
(2)随机失活(dropout) 在训练的运行的时候,让神经元以超参数p的概率被激活(也就是1-p的概率被设置为0), 每个w因此随机参与, 使得任意w都不是不可或缺的, 效果类似于数量巨大的模型集成。
(3)逐层归一化(batch normalization) 这个方法给每层的输出都做一次归一化(网络上相当于加了一个线性变换层), 使得下一层的输入接近高斯分布. 这个方法相当于下一层的w训练时避免了其输入以偏概全, 因而泛化效果非常好.