吴恩达深度学习

神经网络的编程基础

大部分在 “机器学习” 笔记中写过了

可以反推：值和偏导数

反推值不难理解，反推导数的核心是 复合求导，即 $\frac{dy}{dx}=\frac{dy}{du}\cdot\frac{du}{dx}$

其中

\begin{align} \frac{dJ}{da}=&\frac{dJ}{du}\frac{du}{da}&&=3\times1~~~~~~=3\\ \frac{dJ}{db}=&\frac{dJ}{du}\frac{du}{db}=\frac{dJ}{dv}\frac{dv}{du}\frac{du}{db}&&=3\times1\times c=6\\ \frac{dJ}{dc}=&\frac{dJ}{du}\frac{du}{dc}=\frac{dJ}{dv}\frac{dv}{du}\frac{du}{dc}&&=3\times1\times b=9 \end{align}

03f5f96177ab15d5ead8298ba50300ac

计算图：\\ \begin{aligned} J(a,y)=&\frac 1m \sum\limits_{i}^{m}(L(a,y))\\ L(a,y)=&-y\log(a)-(1-y)\log(1-a)\\ a=&\sigma(z)=\frac1{1-e^z}\\ z=&w_1x_1+w_2x_2+b \end{aligned}\\~\\~\\ 一些中间变量：\\ \begin{aligned} da=\frac{dL}{da}=&(-\frac{y}{a}+\frac{(1-y)}{(1-a)}) ~~~~~~~~~~~~~~~~~~~~~~=\frac{a-y}{a(1-a)}\\ {dz}=\frac{dL}{dz}=&\frac{dL}{da}\frac{da}{dz}=\frac{a-y}{a(1-a)}\cdot a(1-a) = a-y \end{aligned}\\~\\~\\ 用于梯度下降的偏导数：\text{（该例子中每次下降都要遍历m次）}\\ \begin{aligned} d{{w}_{1}}=&\frac{dL}{dz}\frac{dz}{dw_1}=\frac{1}{m}\sum\limits_{i}^{m}{x_{1}^{(i)}}({{a}^{(i)}}-{{y}^{(i)}})\\ d{{w}_{2}}=&\frac{dL}{dz}\frac{dz}{dw_2}=\frac{1}{m}\sum\limits_{i}^{m}{x_{2}^{(i)}}({{a}^{(i)}}-{{y}^{(i)}})\\ db=&\frac{dL}{dz}\frac{dz}{db}~~~=\frac{1}{m}\sum\limits_{i}^{m}{~~~~~~({{a}^{(i)}}-{{y}^{(i)}})}\\ \end{aligned}

（翻译问题：Broadcast翻译成 “广播” 可能不太恰当，反而翻译成 “散布，传播” 会比较好理解）

是令一种能使Python运行得更快的技术（第一种是向量化）

首先是numpy广播机制

如果两个数组的后缘维度的轴长度相符或其中一方的轴长度为1，则认为它们是广播兼容的。广播会在缺失维度和轴长度为1的维度上进行。

例如：

总结一下broadcasting，可以看看下面的图：

这很灵活，但由于不会报错，若出错了也很难找到到问题所在

链接到当前文件 0

没有文件链接到当前文件