吴恩达机器学习

机器学习开发

开发过程（Development Process）

添加更多数据

数据增强（Data augmentation）

数据增强（Data Augmentation）：修改现有的 Training Example，来创建一个新的 Training Example

（英语Tips：注意 Augment 不要和 Argument 弄混）

比如对一个图像进行缩放旋转模糊变色噪波等操作，得到一个新图像

![image-20220913120334500](05.%20机器学习开发 .assets/image-20220913120334500.png)

除了图像识别，这也适用于语音识别，比如加不同的背景噪声（车声人声等）

另外一个小技巧是，尽量让新的数据和要预测的数据有关。
比如图像加噪点不要加太规律的噪点，你很难会对这样的数据进行处理，更好的方法是模拟纸质噪点等

数据合成（Data synthesis）

数据合成（Data synthesis）：使用人工数据输入来创建一个新的 Training Example

（英语Tips：syn，abbr.合成器。sym，abbr.符号）

比如合成一些不同艺术字的字体，合成机器认证的图等

![image-20220913121949397](05.%20机器学习开发 .assets/image-20220913121949397.png)

比如训练OCR算法

数据合成多用于计算机视觉，较少用于语音识别等其他应用

对系统使用的数据进行工程设计

AI = Code +Data

传统的以模型为中心的方法（Conventional model-centric approach）：Work in "Code"

以数据为中心的方法（Data-centric approach）：Work in "Data"

迁移学习（Transfer Learning）

原理与做法

迁移学习：从其他任务中使用数据（Transfer Learning：using data from a different task）

应用场景：例如你的手写识别数据集不够，而其他猫狗识别的数据集足够的情况下，用大数据集做训练。
或者直接用一些预训练的模型，如果你要重新训练可能要耗费数周时间

![image-20220913194416463](05.%20机器学习开发 .assets/image-20220913194416463.png)

有两种方案：

仅训练输出层的参数（时间更节省）
训练所有层的参数

为什么迁移学习的可行的？

如下图

![image-20220913194751324](05.%20机器学习开发 .assets/image-20220913194751324.png)

预训练（Pre-training）

通常的迁移学习步骤：

下载在具有相同输入类型的大型数据集上 **预训练（Pre-training）**的神经网络参数（例如：图像、音频、文字等）到你的模型里
或训练你自己的相关模型
在你自己的数据上进一步训练 (/微调) 网络

机器学习项目的完整周期

![image-20220913195540320](05.%20机器学习开发 .assets/image-20220913195540320.png)

部署应用

![image-20220913195652946](05.%20机器学习开发 .assets/image-20220913195652946.png)

公平、偏见、伦理道德（Fairness、Bias、Ethics）

你要保证你的模型是公平（Fair）的，没有偏见（Bias，这里不翻译成偏差）

比如机器学习历史上，出现了一些偏见：

歧视女性的雇佣工具
匹配黑皮人和犯罪嫌疑人的面部识别系统
有偏见的银行贷款批准
强化负面刻板印象的有毒影响

还存在不良的利用：

Deepfakes伪装奥巴马的讲话视频
通过优化算法接触传播有毒/煽动性言论。
为商业或政治目的生成虚假内容。使用ML制作有害产品，诈骗犯罪等
垃圾邮件和反垃圾邮件，欺诈与反欺诈

一些建议：

组建一个多元化的团队对可能出错的地方进行头脑风暴，重点关注对弱势群体可能造成的伤害
查阅有关你所在行业的标准/指引的文献
在部署前对系统进行可能的危害审计
制定缓解计划（如果适用），并在部署后监测可能的危害
例如，在道路上推出自动驾驶汽车之前，制定了缓解计划，以防出现意外

链接到当前文件 0

没有文件链接到当前文件

吴恩达机器学习

吴恩达机器学习

目录

机器学习开发

添加更多数据

数据增强（Data augmentation）

数据合成（Data synthesis）

迁移学习（Transfer Learning）

原理与做法

预训练（Pre-training）

机器学习项目的完整周期

机器学习项目的完整周期

部署应用

公平、偏见、伦理道德（Fairness、Bias、Ethics）