- 常见结构,CV里面用的比较多
- y=F(x)+x
- y=F(x)+indentity
*
x
- 防止梯度消失
- 恒等映射使得网络突破层数限制,避免网络退化
- 对输出的变化更敏感
- X=5;F(X)=5.1;F(X)=H(X)+X=>H(X)=0.1
- X=5;F(X)=5.2;F(X)=H(X)+X=>H(X)=0.2
- H(X)变换了100%,去掉相同的主体部分,从而突出微小的变化
- 我在做xdeepfm的输出层的时候做到了,因为当时做CIN的时候,我设置了layers为5层,担心层数过深造成网络退化,在output的时候加了残差网络
- Bert和Transform中attention部分残差网络用的比较频繁