关于深度学习的说法正确的是哪个?( )
批规范化(batch normalization)是在不引入新参数的情况下保证每一层网络的输入具有相同的分布
与Sigmoid函数相比,Relu较不容易使网络产生梯度消失
梯度下降法实现简单,当目标函数是凸函数时,可基于二阶收敛快速到达目标值
用Sigmoid激活函数时,如果权重初始化较大或较小时,容易出现梯度饱和梯度消失,可选用Tanh函数改进
关于深度学习的说法正确的是哪个?( )
批规范化(batch normalization)是在不引入新参数的情况下保证每一层网络的输入具有相同的分布
与Sigmoid函数相比,Relu较不容易使网络产生梯度消失
梯度下降法实现简单,当目标函数是凸函数时,可基于二阶收敛快速到达目标值
用Sigmoid激活函数时,如果权重初始化较大或较小时,容易出现梯度饱和梯度消失,可选用Tanh函数改进