做数据分析也有年头了,好的坏的工具都用过,推荐几个觉得很好用的,避坑必看!
PS:一般比较成熟的公司里,数据分析工具不只是满足业务分析和报表制作,像我现在给我们公司选型BI工具,是做全平台全方位的数据处理,外源数据更新、实时抽取、性能优化等等都是非常关注的点,所以Excel这种适合个人分析的就不推荐了,不适合专业的数据分析师。
- 数据存储层:Access、SQL Server、DB、Oracle等
- 数据处理层:Python、Hadoop
- 数据报表层:Finereport、简道云
- 数据展示层:Tableau、Powerbi、Finebi
一、数据存储层面
这一方面主要是数据库和数据仓库的一些知识点,企业要想做数字化转型,把原先的一些数据系统,如ERP、OA、CRM、Excel等,必须得进行数字打通,不然整个企业就相当于在进行烟囱式开发,数据东一块,西一块,根本不能成为体系。
具体的,就是一些数据库的使用,不要说这方面的知识不想学,有运维替你管着。
一个好的大数据体系,数据仓库和数据库、数据湖、数据集市的建立是非常重要的,建模的维度就决定了你后面分析的维度,如果维度不够全面与准确,那你的工具再好也就没有意义了。
二、数据处理层面
python、hadoop可以闪亮登场了,但是hadoop是一个非常复杂的平台,需要的技术很多,所以这里我们暂时不讨论。
使用Python的好处是自由度非常高,能够灵活运用模型和算法,并且从数据采集到数据清洗到数据分析,一种语言就可以全部搞定。
现在很多人都在说不学python会怎么怎么样,但其实不是这样,归根结底只是一个底层语言,需要混合使用。Python是有一定门槛的,而且学习的时间成本不低,往往一次分析需要花较多的时间,如果不是大型分析项目,有点大材小用。
但是对于大型的项目,尤其是涉及到数据挖掘类的建议用python。
还有一些可以数据抓取的工具,我就不说了,本质其实都差不多。
三、数据报表层面
可能提到报表,很多人脑子里的想法就是Excel,这其实是完全不对的,excel的短板是很明显的:
- Excel会导致企业信息化程度不够
- 数据口径不一致,浪费人力去核对
- 数据采集困难,更改不能实时显示数据
所以更推荐轻量级的数据报表工具,比如简道云就很适合做各种数据报表。
https://www.jiandaoyun.com
从数据的收集(在线表单),到各种审批流程的流转(流程表单),再到数据的分析和展示(仪表盘)都做的比较完善。企业日常办公和管理需求完全能够满足。
如果是有一些代码基础的技术人员,推荐使用Finereport,这里简单说下原因:
报表开发方面,FineReport比Excel更专业一些,因为它是一个纯Java开发的报表软件,相对于开源报表来说,它的功能都是封装好的,用户不需要编码直接就能用,而且它的界面设计风格和Excel类似,兼容Excel常用的公式,稍微会点Excel就能很快上手。
而且Finereport是作为企业级的报表平台应用,所以适合公司使用。
4、数据展现层面
我上一家公司用的是SAS,可现在流行R语言来训练模型,作为数据分析工具,今年已经没有采购SAS了预算了,预算都给大数据平台产品了。
你们以为的数据展现,可能就是所有数据都处理好了,然后直接生成可视化就行,其实远不是这样,那数据变动怎么办呢?数据量太大,宕机了怎么办呢?
所以一个实时的可视化工具就显得非常重要,我觉得Tableau、PowerBI、FineBI都是一个不错的选择。
(1)Tableau
Tableau我更倾向于将他定义为数据可视化工具,而不是数据分析工具,因为tableau的数据可视化能力确实非常强,他的交互式的可视化体验在业内是被人津津乐道,但是在数据建模和数据分析功能上,略输pbi与finebi一筹。
其实我用的是Tb prep+Tb desktop,因为tableau一直以来就被数据处理能力差而诟病,prep就是千呼万唤始出来的数据清洗工具,2018年才刚刚面世,主要是为了弥补tb在数据清洗工作上的欠缺,我用过一两次,接触的不深,风格还是一贯的tb清新风格,基本可以实现数据清洗、数据整理、数据合并等etl操作,但是理论上任何产品都需要一定的生长曲线,我相信tb prep也同样是如此,未来还有更大的空间可以优化。
另外就是prep+desktop两款工具协同工作的方式,太过于麻烦,这也算是tb的一大与生俱来的缺点。
此外Tableau是国外的工具,一是服务体系不够全,出了问题要解决很久,这是不能接受的;二是价格实在是太高,动不动就上百万。
(2)FineBI
所以我推荐FineBI,一款web级的敏捷数据工具,不仅直接拖拽就能生成可视化,而且还能做复杂报表,BI报表就是企业的新方向。
其实数据展现类的工具,靠不靠谱还得看引擎,FineBI引擎的两种模式可以支持大数据量分析,这一点我是非常推崇的:
- 抽取模式:提供基于索引的高效计算引擎,通过数据预加载,支撑前端快速数据分析,适用于实时性要求不高的分析。
- 实时模式:直接对接读取企业的数据库表进行分析,适用于对实时性要求较高的数据分析场景。
可视化能力嘛,比tableau弱一点,不过好处就是简单一点,很好上手:
(3)PowerBI
首先powerbi我将其定义为适合个人多联机的数据分析与挖掘工具。
PBI可以说是微软的一次偶然尝试和偶然的产品,在tableau出现之前,微软对于数据分析领域的布局其实非常简单,只有针对企业用户的sql server analysis service和excel里的power pivot,后来微软将这两个工具进行结合,开发出了Powerbi
所以与其说powerbi是微软开发出的数据分析工具,不如说是微软依靠对BI业务模型多年的研究总结后得出的一套解决方案,也就是DAX所代表的的数据分析理念。这一点与tableau提倡的理念是相反的。
Power的数据可视化能力怎么说呢,一言难尽吧,powerbi真的有种工科风,能力强悍但是颜值不高,可视化展现能力方面,PoweBI内置的图表种类相对较少,例如一些常用的玫瑰图,多层饼图,词云图,热力地图,流向地图等都不支持(需要进行市场图表拓展下载使用).图形属性方面还算丰富,可以由用户自定义进行图表样式属性的设置调节。
最后,永远要记住,不要太过于依赖于工具,使用好工具的基础一定是你拥有扎实的知识基础,如果你连数据分析是什么?怎么做数据分析这些都不懂,那说实话,选择再好的工具也没什么用。
如果你有幸看到这里了,那么再给大家推荐一些学习数据分析的书籍和课程,都整理在这篇回答里了:
如何培养真正的数据分析思维?附实践案例
以上。