吴恩达深度学习
前向过程
xwb⎭⎬⎫⟹z=wTx+b⟹a=σ(z)⟹L(a,y)
反向过程
da[1]=dσ(z[1])dW[2]db[2]⎭⎬⎫⟸dz[2]=d(W[2]α[1]+b[2])⟸da[2]=dσ(z[2])⟸dL(a[2],y)
如果你要初始化成0,由于所有的隐含单元都是对称的,无论你运行梯度下降多久,他们一直计算同样的函数。这没有任何帮助

b没有这个对称的问题(叫做symmetry breaking problem,翻译过来叫 对称破坏问题),所以可以把 b 初始化为0

通常再乘上一个小的数,比如0.01,这样把它初始化为很小的随机数
选择一个较小的w的原因:让z值较小,不要在太两端的位置,便于梯度下降