线性与非线性
线性:随机梯度下降,卷积函数
非线性:修正线性单元(Relu)
Dropout,Boosting,Bagging,Stacking,Mapping
Bagging和Dropout
Bagging能实现跟神经网络中Dropout类似的效果。
Dropout是将许多单独训练的子网络集成起来,某些权值是共享的。
Bagging是将许多单独训练的学习机集成起来;
Dropout和Bagging这两种方法都是把若干个分类器整合为一个分类器的方法,只是整合的方式不一样,最终得到不一样的效果,将不同的分类算法套入到此类算法框架中一定程度上会提高了原单一分类器的分类效果,但是也增大了计算量。
Bagging和Boosting的区别:
Boosting并不是单独训练的,而是按照有一定的顺序训练的,具有相互依赖关系。
1)样本选择上:
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
2)样例权重:
Bagging:使用均匀取样,每个样例的权重相等。
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
3)预测函数:
Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
4)并行计算:
Bagging:各个预测函数可以并行生成
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果
Stacking是通过两层学习机完成的学习。
处理过拟合的方法
Dropout;
调整超参数来最小化代价函数(cost functon)的技术:
网格搜索,随机搜索,贝叶斯(bayesian)优化,居于梯度的优化。
批规范化(Batch Normalization)的好处:
增加反向传播速度,避免梯度消失;
加速网络收敛;
减轻参数初始化的影响。
批规范化(Batch Normalization)不能处理过拟合,因为同一个数据在不同批中被归一化后的值会有差别,相当于做了数据增强(data augmentation)。