建立起做机器学习项目的范式,萃取出核心步骤,避免后面做项目没有明确的方向。
核心步骤:
1、明确自己想做什么样的项目,感兴趣的领域;
2、找到满足项目的数据集,开源的或者自建数据集;
- 数据集开源,有较多的研究者发表论文和代码;
- 数据集开源,但是小众,研究者研究较少,论文和开源代码较少;
- 没有开源数据集,需要自建数据集,满足项目需求;
3、阅读和数据集、项目相关的论文和代码,目的在于提炼出:
- 特征处理步骤;
- 算法步骤;
- 实验方法;
4、根据实验方法进行实验,实现两个目的:
- 对比不同的方法的指标;
- 针对实验过程发现的问题,提出改进思路,提高实验指标;
5、将改进思路的核心思想提炼出来,形成创新点成果,发表专利、或者论文等;
项目结构:
- config:存放配置文件目录,json文件格式,配置数据、算法模型、实验等;
- data:存放数据集;
- data_process:存放读取数据、初步处理数据、数据结构化的代码;
- example:存放参考的开源代码、相关示例;
- experiment:存放对比实验、消融实验、改进实验代码;
- feature_extract:存放提取、处理特征的目录;
- model:存放机器学习算法、深度学习算法、信号处理算法的目录;
- out:存放训练的模型文件、实验结果图;
法、信号处理算法的目录; - out:存放训练的模型文件、实验结果图;
- utils:工具文件,不包含在前面文件夹,但是又是用到的工具文件,例如可视化图结构等;