victory的博客

长安一片月,万户捣衣声

0%

前向传播和反向传播中使用的cache

the “cache” records values from the forward propagation units and sends it to the backward
propagation units because it is needed to compute the chain rule derivatives.(“cache”记录
来自正向传播单元的值并将其发送到反向传播单元,因为需要链式计算导数。)

sigmoid or tanh?

Sigmoid outputs a value between 0 and 1 which makes it a very good choice for binary classification.
You can classify as 0 if the output is less than 0.5 and classify as 1 if the output is more than 0.5.
It can be done with tanh as well but it is less convenient as the output is between -1 and 1.(Sigmoid
输出的值介于 0 和 1 之间,这使其成为二元分类的一个非常好的选择。 如果输出小于 0.5,则可以将其归类为 0,如果输出
大于 0.5,则归类为 1。 它也可以用 tanh 来完成,但是它不太方便,因为输出在
-1 和 1 之间。)

为什么需要非线性激活函数?

为什么神经网络需要非线性激活函数?如果使用线性激活函数(恒等激励函数),那么神经网络只是把输入线性组合
再输出。对于深度神经网络来说,如果使用了线性激活函数或者没有使用激活函数,那么无论你的神经网络有多少
层,它做的只是计算线性函数,这样的做法与直接去掉全部隐藏层无异。因此,必须通过非线性激活函数来引入非线性。