吴恩达机器学习
吴恩达机器学习
目录
机器学习开发
开发过程(Development Process)
添加更多数据
数据增强(Data augmentation)
数据增强(Data Augmentation):修改现有的 Training Example,来创建一个新的 Training Example
(英语Tips:注意 Augment 不要和 Argument 弄混)
比如对一个图像进行缩放旋转模糊变色噪波等操作,得到一个新图像

除了图像识别,这也适用于语音识别,比如加不同的背景噪声(车声人声等)
另外一个小技巧是,尽量让新的数据和要预测的数据有关。
比如图像加噪点不要加太规律的噪点,你很难会对这样的数据进行处理,更好的方法是模拟纸质噪点等
数据合成(Data synthesis)
数据合成(Data synthesis):使用人工数据输入来创建一个新的 Training Example
(英语Tips:syn,abbr.合成器。sym,abbr.符号)
比如合成一些不同艺术字的字体,合成机器认证的图等

比如训练OCR算法
数据合成多用于计算机视觉,较少用于语音识别等其他应用
对系统使用的数据进行工程设计
AI = Code +Data
传统的以模型为中心的方法(Conventional model-centric approach):Work in "Code"
以数据为中心的方法(Data-centric approach):Work in "Data"
迁移学习(Transfer Learning)
原理与做法
迁移学习:从其他任务中使用数据(Transfer Learning:using data from a different task)
应用场景:例如你的手写识别数据集不够,而其他猫狗识别的数据集足够的情况下,用大数据集做训练。
或者直接用一些预训练的模型,如果你要重新训练可能要耗费数周时间

有两种方案:
- 仅训练输出层的参数(时间更节省)
- 训练所有层的参数
为什么迁移学习的可行的?
如下图

预训练(Pre-training)
通常的迁移学习步骤:
- 下载在 具有相同输入类型的大型数据集上 **预训练(Pre-training)**的神经网络参数(例如:图像、音频、文字等)到你的模型里
或训练你自己的相关模型 - 在你自己的数据上进一步训练 (/微调) 网络
机器学习项目的完整周期
机器学习项目的完整周期

部署应用

公平、偏见、伦理道德(Fairness、Bias、Ethics)
你要保证你的模型是公平(Fair)的,没有偏见(Bias,这里不翻译成偏差)
比如机器学习历史上,出现了一些偏见:
- 歧视女性的雇佣工具
- 匹配黑皮人和犯罪嫌疑人的面部识别系统
- 有偏见的银行贷款批准
- 强化负面刻板印象的有毒影响
还存在不良的利用:
- Deepfakes伪装奥巴马的讲话视频
- 通过优化算法接触传播有毒/煽动性言论。
- 为商业或政治目的生成虚假内容。使用ML制作有害产品,诈骗犯罪等
- 垃圾邮件和反垃圾邮件,欺诈与反欺诈
一些建议:
- 组建一个多元化的团队 对可能出错的地方进行头脑风暴,重点关注对弱势群体可能造成的伤害
- 查阅有关你所在行业的标准/指引的文献
- 在部署前对系统进行可能的危害审计
- 制定缓解计划(如果适用),并在部署后监测可能的危害
例如,在道路上推出自动驾驶汽车之前,制定了缓解计划,以防出现意外