1、Sigmoid 函数#
表达式:
σ(x)=1+e−x1导数:
σ′(x)=σ(x)[1−σ(x)]特性:
- 输出区间:(0,1)
- 非线性,可微
- 在x→+∞时趋近于1,x→−∞时趋近于0
- 优点:将值压缩到(0,1)之间,适合做概率输出
- 缺点:容易出现梯度消失问题,导致深层网络训练困难
2、Softmax 函数#
表达式:
对于输入向量x=(x1,x2,…,xn),第i个输出:
Softmax(xi)=∑j=1nexjexi特性:
- 输出区间:(0,1),且所有输出元素和为1
- 多分类任务中常用作输出层激活函数
- 优点:可以将输出解释为概率分布
- 缺点:对输入的极端值敏感,容易导致梯度消失
3、ReLU (Rectified Linear Unit) 函数#
表达式:
ReLU(x)=max(0,x)导数:
ReLU′(x)={1,0,x>0x≤0特性:
- 输出区间:[0,+∞)
- 非线性,分段线性结构
- 优点:计算简单,高效;收敛速度快;缓解梯度消失问题
- 缺点:x≤0时梯度为0,神经元易“死亡”(dead neuron)
4、ELU (Exponential Linear Unit) 函数#
表达式:
ELU(x)={x,α(ex−1),x≥0x<0其中α为超参数,通常取α=1。
导数:
ELU′(x)={1,ELU(x)+α,x≥0x<0特性:
- 输出区间:(−α,+∞)
- 非线性,对负数有缓和作用
- 优点:缓解ReLU的“死亡神经元”问题,负值时有非零梯度
- 缺点:计算较ReLU稍复杂
5、Tanh (双曲正切) 函数#
表达式:
tanh(x)=ex+e−xex−e−x导数:
dxdtanh(x)=1−tanh2(x)特性:
- 输出区间:(−1,1)
- 非线性,可微
- x→+∞时趋近于1,x→−∞时趋近于-1
- 优点:输出均值为0,收敛速度快于Sigmoid
- 缺点:依然存在梯度消失问题