- 每轮迭代时,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间
- 预排序方法需要保存特征值,及特征排序后的索引结果,占用空间
- level-wise,在训练的时候哪怕新增的分裂点对loss增益没有提升也会先达到预定的层数
- 将连续的浮点特征离散成k个离散值,具体过程是首先确定对于每一个特征需要多少的桶bin,然后均分,将属于该桶的样本数据更新为bin的值,最后用直方图表示。在进行特征选择时,只需要根据直方图的离散值,遍历寻找最优的分割点
- 优点:时间开销由O(features)降低到O(bins)
- 缺点:很多数据精度被丢失,相当于用了正则
- 利用leaf-wise代替level-wise
- 每次从当前所有叶子中找到分裂增益最大(一般也是数据量最大)的一个叶子,然后分裂,如此循环
- 直方图做差加速
- 单边梯度采样 Gradient-based One-Side Sampling (GOSS):排除大部分小梯度的样本,仅用剩下的样本计算损失增益
- 互斥稀疏特征绑定Exclusive Feature Bundling (EFB):从减少特征角度,把尽可能互斥的特征进行合并,比如特征A[0,10],特征B[0,20],可以把B+10后与A合并,得到新特征A+B[0,30]