举个例子,注意力机制在近年来是一个大热门。
其中,一种经典的注意力机制算法是Squeeze-and-Excitation Network,它通过一个小型的子网络,自动获得一组权重,对各个特征通道进行加权。
其他大部分的注意力机制算法,也都是特征加权的形式。
在数据含有较多噪声时,可以考虑把“特征加权”给换成“软阈值化”。软阈值化是信号降噪算法的常用步骤,其公式如下:

而且,软阈值化的梯度,要么为0,要么为1,这是和ReLU一样的,也有利于避免梯度消失和爆炸:

深度残差收缩网络就是一种“注意力机制”+“软阈值化”的深度学习方法。
不仅如此,深度残差收缩网络还设计了一个独特的子网络,来自动设置软阈值化所涉及的阈值。

最后,怎么写新论文呢?
——现在注意力机制方面的算法那么多,可以把它们的特征加权,更换成软阈值化的形式,说不定在强噪数据上的表现会有所提升。
参考文献:
- M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, 2020. https://ieeexplore.ieee.org/document/8850096
- Github https://github.com/zhao62/Deep-Residual-Shrinkage-Networks
评论留言