李沐老师实用机器学习学习笔记,数据I
1.1 课程介绍
工业界有很多机器学习的应用, 例如传统的制造业中,可以利用传感器,自动找出出现问题的设备
?️ 授课视频:
? 课件:
Syllabus – Practical Machine Learning
机器学习工作流:
- 定义问题: 找出最关键的问题,在一个项目中,最能产生效果的问题
- 数据:收集高质量的数据,需要考虑隐私问题
- 训练模型:模型现在越来越复杂,成本越来越高
- 部署模型:为了实时化
- 监控:要不断的监控,可能存在偏向性问题
机器学习的角色:
- 软件设计工程师: 开发维护数据流,模型训练和服务流
- 领域专家:有商业眼光,发现问题
- 数据科学家:全栈能力,数据挖掘,模型训练和部署
- 机器学习专家:模型定制化,模型调优
1.2 数据获取
外部数据集
数据集的三种类型:
- 学术数据集:干净,简单,但是选择不多,通常是小规模的
- 比赛数据集:接近于真实的机器学习应用。缺点是简单,数量少
- 原始数据:有更大的灵活性,但需要更多的预处理
生成数据集
- 使用GAN
- 仿真
- 数据增广