大家好,我是小一
新的一周又来了,从今天开始,会出一个新的系列《数分实验室》
实验室会介绍一些有内核、有科技的数据分析实战项目。
项目数据集、源代码都是公开的,非常适合想练手但是又没数据、没参考案例的同学
今天先热热身,分享几个之前看到的 数据分析入门项目
1、Airbnb
Airbnb出租数据分析,是一个入门级数分析项目
如果你还没有完整的做过一个数分项目,不妨试试这个
首先项目通过描述性和探索性分析,对每个变量的单维度、多维度表现进行对比和探索
后续针对特征提出了一些对未来决策有用的假设,用于辅助Airbnb提供更多的服务。
项目中使用了一些比较 常见的统计技术,例如:变量分类、频率分布表、直方图、中心趋势测量等。
也不难,基本学过数学的都会
房间类型的频率分布
价格和最小夜数的中心趋势
平均价格最高的10个小区分布
因为提供的数据中有经纬度字段,而通过经纬度来探索价格、最低住宿时间和房间类型,又是一个比较有效的策略
图形使用 ggplot2 创建,其实也可以使用其他的工具,例如:plotly、seaborn等
基于经纬度的地理分布
项目地址:
https://www.kaggle.com/code/upadorprofzs/understand-your-data-airbnb-reservations
2、Craigslist-EDA
Craigslist二手车销售数据分析,预测汽车价格是否被高估或低估。
数据里面包含了二手车的价格、状况、制造商、经纬度等一共18个字段。
在数据探索中,也是通过 常规的方法,例如:数据预处理、特征工程、特征提取和特征选择
特征变量的分布用到了散点图、密度图、箱型图等等
这种多子图的绘图方式比较好,大家可以多参考这种形式,能节省很多绘图时间
项目地址:
https://www.kaggle.com/code/nareshbhat/data-visualization-in-just-one-line-of-code/notebook
3、Craigslist-SWEETVIZ
如果说,上面对二手车销售数据分析你不满意,觉得比较复杂
那自动化数据探索工具就很有必要了解一下了
项目中用了 sweetviz 的 analyze 方法,一行代码直接出分析报告,真的很强大了
安装起来也比较简单
!pip install sweetviz
调用的时候直接两行代码完事:
report = sweetviz.analyze([train,'train'],target_feat='Survived')
report.show_html('report.html')
运行的结果是这样的:
在实际中,我们往往要花很多时间去清理脏数据,这个包其实就可以让你在清理数据之前,快速了解一下数据的情况,还是很省时省力的。
项目地址:
https://www.kaggle.com/code/nareshbhat/eda-within-snap-of-fingers?scriptVersionId=68900634
4、收尾
虽然我称之为入门,但是要实际研究下来,没个三五天,可能真的吃不透
但是如果能研究透了,后面遇到类似的项目,也是 一招鲜、吃遍天
今天就聊这么多吧,我是小一,我们下期见~