大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。
本文主要介绍了Excel数据分析实战的第一课:Excel与数据分析实战。希望能对新手有所帮助。
文章目录
- 1. Excel与数据分析的关系
- 2. Excel数据格式简要介绍(选学)
1. Excel与数据分析的关系
数据分析是决策者或者研究人员必不可缺的重要工具。无论是对已有问题的分析总结还是对未来的预期与判断,都往往会用到不同的数据分析工具。
随着计算机的蓬勃发展,很多可用于数据分析的编程语言应运而生,比如Python、R、Julia等。但客观来说,对于没有编程经验的初学者还是具有不低的门槛。先不说别的,能否成功构建环境就是第一步,但也是难倒初学者的关键一步。那么我们能否使用现有的工具来实现数据分析的功能呢?
答案是肯定的。几乎所有初学者的电脑都搭配了微软的Office办公软件,而Excel正是Office的重要组成部分,它除了具有强大的计算功能以外,还具有数据统计分析的功能。因此,利用Excel来进行数据统计与分析,就显得非常方便而且有效率。
2. Excel数据格式简要介绍(选学)
从时间跨度上来说,Office 2003作为旧版本与新版本的一大分水岭。而对于Excel而言,Excel 2003保存后的文件后缀名为.xls,而Excel及其以后的版本保存的文件后缀名为.xlsx。那么它们两者之间到底具有什么样的区别呢?
从表面上来看,两者不就是名字之间有差异,那么它们的底层逻辑到底是哪里不同呢?.
在讲解这个问题之前,咱们先讲解一下二进制文件与文本文件之间的区别。简单的说,通过编辑器打开后,如果设置的编码方式是正确的,得到的就是文本内容;反之,通过任何编码方式得到的都是乱码则就是二进制文件。
而xlsx本质上来说是zip压缩包,比如我们使用UltraEdit打开一个xlsx文件,如下图所示,可以看到最开始的50 48在右边表示的明文内容为PK,而PK就是ZIP压缩包的文件头:
而xls文件最起始的二进制为D0 CF,需要注意的是右边的中文表示是不正确的,是由于它本质上表示的并不是中文,而用中文强行翻译成了邢?唷??。那么如何理解呢?举个简单的例子,比如英文单词good,非要翻译成古德,那必然是错误的。