这几个数据分析项目,让我看到了什么才叫专业!!

news2024/12/23 22:42:44

大家好,我是小一

新的一周又来了,从今天开始,会出一个新的系列《数分实验室》

实验室会介绍一些有内核、有科技的数据分析实战项目。

项目数据集、源代码都是公开的,非常适合想练手但是又没数据、没参考案例的同学

今天先热热身,分享几个之前看到的 数据分析入门项目

1、Airbnb

Airbnb出租数据分析,是一个入门级数分析项目

如果你还没有完整的做过一个数分项目,不妨试试这个

首先项目通过描述性和探索性分析,对每个变量的单维度、多维度表现进行对比和探索

后续针对特征提出了一些对未来决策有用的假设,用于辅助Airbnb提供更多的服务。

项目中使用了一些比较 常见的统计技术,例如:变量分类、频率分布表、直方图、中心趋势测量等。

也不难,基本学过数学的都会

房间类型的频率分布

请添加图片描述

价格和最小夜数的中心趋势

请添加图片描述

平均价格最高的10个小区分布

请添加图片描述

因为提供的数据中有经纬度字段,而通过经纬度来探索价格、最低住宿时间和房间类型,又是一个比较有效的策略

图形使用 ggplot2 创建,其实也可以使用其他的工具,例如:plotly、seaborn等

基于经纬度的地理分布

请添加图片描述

请添加图片描述

项目地址:

https://www.kaggle.com/code/upadorprofzs/understand-your-data-airbnb-reservations

2、Craigslist-EDA

Craigslist二手车销售数据分析,预测汽车价格是否被高估或低估。

数据里面包含了二手车的价格、状况、制造商、经纬度等一共18个字段。

在数据探索中,也是通过 常规的方法,例如:数据预处理、特征工程、特征提取和特征选择

特征变量的分布用到了散点图、密度图、箱型图等等

这种多子图的绘图方式比较好,大家可以多参考这种形式,能节省很多绘图时间

请添加图片描述
请添加图片描述

项目地址:

https://www.kaggle.com/code/nareshbhat/data-visualization-in-just-one-line-of-code/notebook

3、Craigslist-SWEETVIZ

如果说,上面对二手车销售数据分析你不满意,觉得比较复杂

那自动化数据探索工具就很有必要了解一下了

项目中用了 sweetviz 的 analyze 方法,一行代码直接出分析报告,真的很强大了

安装起来也比较简单

!pip install sweetviz

调用的时候直接两行代码完事:

report = sweetviz.analyze([train,'train'],target_feat='Survived')
report.show_html('report.html')

运行的结果是这样的:

请添加图片描述

请添加图片描述
请添加图片描述

在实际中,我们往往要花很多时间去清理脏数据,这个包其实就可以让你在清理数据之前,快速了解一下数据的情况,还是很省时省力的。

项目地址:

https://www.kaggle.com/code/nareshbhat/eda-within-snap-of-fingers?scriptVersionId=68900634

4、收尾

虽然我称之为入门,但是要实际研究下来,没个三五天,可能真的吃不透

但是如果能研究透了,后面遇到类似的项目,也是 一招鲜、吃遍天

今天就聊这么多吧,我是小一,我们下期见~

原文链接:这几个数据分析项目,让我看到了什么才叫专业!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/46522.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ES的基础概念

1、ES是什么 Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包括了全文搜索功能,还可以进行以下工作:分布式实时文件存储&am…

6-1分支限界法

6-1分支限界法 1.分支限界法与回溯法的不同 (1)求解目标: 回溯法的求解目标是找出解空间树中满足约束条件的所有解(或一个最优解), 而分支限界法的求解目标则是找出满足约束条件的一个解(或最优解&#x…

组织机器学习代码

组织机器学习代码 从note本转移到 Python 脚本时组织代码。 Intuition 有组织的代码就是有可读的、可重现的、健壮的代码。您的团队、经理,最重要的是,您未来的自己,将感谢您为组织工作付出的最初努力。在本课中,将讨论如何将代码…

pytest测试框架入门1

pytest单元测试框架 单元测试是指在软件开发当中,针对软件的最小单位(函数,方法)进行正确性的检查测试 单元测试框架主要做什么 测试发现:从多个文件里面找到我们的测试用例测试执行:按照一定的顺序和规则…

初学者指南: 使用NumPy数组进行图像处理

这里写自定义目录标题初学者指南: 使用NumPy数组进行图像处理1、加载图像2、裁剪图像3、分离颜色4、转换5、灰度转换6、图像分割结语初学者指南: 使用NumPy数组进行图像处理 由于图像也可以被视为由数组组成,因此我们也可以使用NumPy执行不同的图像处理任务。在本文…

【Lilishop商城】No2-6.确定软件架构搭建五(本篇包括定时任务xxl-job)

仅涉及后端,全部目录看顶部专栏,代码、文档、接口路径在: 【Lilishop商城】记录一下B2B2C商城系统学习笔记~_清晨敲代码的博客-CSDN博客 全篇只介绍重点架构逻辑,具体编写看源代码就行,读起来也不复杂~ 谨慎&#xf…

如何配置一台适合oc渲染器的电脑?

众所周知,Octane 是最流行的渲染引擎之一。此外,Octane 是一个 GPU 渲染引擎,它使用一种计算最终生成的图片的方法,试图达到照片般的真实感。Octane 是一种利用 GPU 技术的无偏渲染引擎,非常接近物理精度。一台好的 PC…

计算机组成原理习题课第三章-2(唐朔飞)

计算机组成原理习题课第三章-2(唐朔飞) ✨欢迎关注🖱点赞🎀收藏⭐留言✒ 🔮本文由京与旧铺原创,csdn首发! 😘系列专栏:java学习 💻首发时间:&…

天宇优配|平台助企“抱团出海” “小而美”中觅“先机”

天津华图轿车物流有限公司一批二手新能源车从连云港装船发往阿联酋迪拜。(采访方针供图) 最近,一笔100.8万美元的出口信誉稳妥保单融资借款,被划到了天津华图轿车物流有限公司的账户上。正值客户“下单”高峰期,这笔及…

Three.js实例详解___旋转的精灵女孩(附完整代码和资源)(一)

Three.js实例详解___旋转的精灵女孩(附完整代码和资源)(一) 本文目录: 一、【旋转的精灵女孩】案例运行效果 二、Three.js简介 三、Three.js代码正常运行显示条件 (1)不载入任何纹理贴图的网页 (2&…

双十二蓝牙耳机啥牌子好?2022年度热销蓝牙耳机排名

这期双十二数码好物分享,工作室打算来跟大家说说蓝牙耳机这个话题,它已经成为出行必带的装备,上班族、学生党、游戏党都离不开蓝牙耳机。今年我们测评过数十款型号了,本期我们盘点了今年热销的蓝牙耳机排名,让大家直观…

【学习笔记】《Python深度学习》第五章:深度学习用于计算机视觉

文章目录1 卷积神经网络简介1.1 卷积运算1.2 最大池化运算2 在小型数据集上从头开始训练一个卷积神经网络2.1 下载数据2.2 构建网络2.3 数据预处理2.4 数据增强3 使用预训练的卷积神经网络3.1 特征提取3.2 微调模型3.3 小结4 卷积神经网络的可视化4.1 可视化中间激活4.2 可视化…

新手想开一个传奇该如何操作?开一个传奇必须掌握哪些知识要点

对于这个问题,近期问的人比较多,相比这也是热爱传奇这个游戏的朋友会问到的一个问题,因为喜欢玩这个游戏,也想要自己去开一个 经营一个 不管是电脑端也好 还是手机端也好,但是对于一些新手确实不知道该如何开始操作 从…

H3C opsf/rip/ftp/telent/nat/acl综合

实验拓扑 拓扑下载 https://sharewh2.xuexi365.com/share/84b85b32-acb7-4f62-a389-6188680a19f3?t3 图 1-1 注:如无特别说明,描述中的 R1 或 SW1 对应拓扑中设备名称末尾数字为 1 的设备,R2 或 SW2 对应拓扑中设备名称末尾数字为 2 的设备…

三天入门Redis【快速浏览版】

文章目录第一天1.1 Redis基础1.1.1 NoSql引入1.1.2 NoSql特点1.1.3 NoSql数据库1.1.4 Redis概述1.1.5 Redis文件的作用1.1.6 Redis相关介绍1.2 常用的五大类型及操作⭐️1.2.1 Redis键(key)1.2.2 库的一些操作1.2.3 Redis字符串1.2.4 Redis列表&#xff…

MATLAB数据导入

MATLAB数据导入 在编写一个程序时,经常需要从外部读入数据。MATLAB使用多种格式打开数据。本章将要介绍MATLAB中数据的导入。 MATLAB中导入数据的方式有两种,分别是在命令行通过代码把数据导进去和通过MATLAB的数据导入向导导入数据。本节将为大家介绍第…

ASCHIP_ISP Tool 工具 使用与更新

系列文章目录 ASCHIP-ISP Tool 版本1 2022 11 26ASCHIP-ISP Tool 版本1 使用说明 2022 11 26 软件介绍 对窗体进行初步配置,配置其大小与显示 一:软件介绍 ASCHIP_ISP Tool 工具是用于具有 ISP 功能型号类型的单片机进行 ISP 更新程序开发实验的配套上位…

Lint-staged自动修复格式错误及小结

文章目录一、背景二、Lint-staged2.1 简介2.2 修改package.json2.3 修改pre-commit2.4 测试三、小结3.1 代码格式规范3.2 Git提交规范一、背景 通过前面几节的介绍,目前想要提交代码,就要保证代码格式规范和提交信息格式规范,特别是pre-subm…

vue设置页面背景及背景图片

本地静态图片 <template><view class"max"><image src"../../static/bg.png" mode""></image></view> </template><script>export default {data() {return {}},methods: {}} </script><st…

JavaEE之Cookie 和 Session 的工作流程

文章目录前言Cookie 和 Session 的核心方法Cookie 和 Session 的工作流程总结前言 HTTP涉及到的键值对: query string请求/响应的headerCookie里的内容form表单提交的bofyjson格式的body服务器存储若干个sessionId和HttpSession对象每个HttpSession对象本身里面又可以保存多个…