探索数据的奥秘:一份深入浅出的数据分析入门指南

news2025/2/24 3:30:11

数据分析

书籍推荐

入门读物
  • 深入浅出数据分析
  • 啤酒与尿布
  • 数据之美
  • 数学之美
数据分析
  • Scipy and Numpy
  • Python for Data Analysis
  • Bad Data Handbook
  • 集体智慧编程
  • Machine Learning in Action
  • 机器学习实战
  • Building Machine Learning Systems with Python
  • 数据挖掘导论
  • Machine Learning for Hackers
专业读物
  • Introduction to Semi-Supervised Learning
  • Learning to Rank for Information Retrieval
  • Learning to Rank for Information Retrieval and Natural Language Process
  • 推荐系统实战
  • Graphical Models, Exponential Families and Variational Inference
  • Natural Language Processing with Python

机器学习教材

  • The Elements of Statistical Learning
  • 统计学习基础
  • 统计学习方法
  • Machine Learning(Kevin Murrphy)
  • Machine Learning: An Algorithmic Perspective
  • Pattern Recognition And Machine Learning
  • Bayesian Reasoning and Machine Learning
  • Probabilistic Graphical Models
  • Convex Optimization

数据网站

  • Monthly Bulletin of Statistics Online:数据来源顾名思义,来自各个国家统计局和组织
  • World Development Indicators:世界银行的数据
  • CIA world factbook: 中央情报局收集的数据
  • IPUMS: 普查数据的集成网站
  • ICPSR: Umich的数据中心收集的数据集
  • Kaggle:竞赛网站

量化

  • 语言要求:
    • 效率语言:C,C++, Java
      • 快,编程复杂度高,维护难
      • 不支持向量计算
    • 胶水语言:Python, Ruby
      • 实现简单,编程复杂度高,维护相对简单,支持向量运算
    • 科学类语言:Matlab, R, S
      • 支持向量计算
      • 快速验证想法
    • Alpha演算类语言:Lisp, Clojure
    • 查询类语言:SQL, Q

数据分析,数据挖掘,数据统计,OLAP之间的关系

  • 数据分析:用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。此方向更偏产品一些,极大的依赖分析经验和对数据的敏感度。
    • 代表人物:
      • Justin Cutroni: http://cutroni.com/blog/
      • Joegh:http://webdataanalysis.net/
      • 宋星: http://www.chinawebanalytics.cn/
      • 蓝鲸:http://bluewhale.cc/
  • 数据挖掘:据挖掘主要是面向决策,从海量数据中挖掘不为人知、无法直观得出的结论。例如内容推荐、相关度计算等。此工作更注重数据内在联系,数据仓库组建,分析系统开发,挖掘算法设计,甚至很多时候要亲力而为的从ETL开始处理原始数据,因此对计算机水平有较高要求。一般广度上不及数据分析,但深度上更为深入。使用工具除海量数据库如Oracle,分布式计算Hadoop,C++,Java,Python等编程语言外,也有可能会用到第三方挖掘工具如Weka。更偏向于技术
    • 代表人物:
      • Jeff Hammerbacher,编写《数据之美》
      • 探索推荐引擎内部的秘密
  • 数据统计:注于建模及统计分析,通过概率、统计、离散等数学知识建立合理模型,充分发掘数据内容。例如用回归分析,充分利用网站历史数据,进行评估、预测、反向预测、发掘因素。利用贝叶斯方法建立模型来进行机器学习、聚类、垃圾邮件过滤等。常用工具如:SAS,R,SPSS,更偏向于数学,在互联网,金融,医疗领域应用广泛
  • OLAP:建立数据系统的方法,核心思想就是建立多维度的数据立方体,以维度(Dimension)和度量(Measure)为基本概念,辅以元数据,实现可以钻取、切片、切块、旋转等灵活、系统、直观的数据展现。严格使用OLAP的一般都是些制造业、零售业等相对传统的行业,作为BI的延伸,对公司决策提供有力支撑

统计学分析-Python VS R

R主要在学术界流行,python(numpy scipy)在工程方便比较实用。

  • 性能:
    • R处理文本文件很慢
    • python很容易变得更快,pypy,cython,或者直接ctypes挂C库
  • 并行计算:
    • R v15 之后有了自带的parallel包,使用挺轻松的
    • Python有multiprocessing,可以共享数据
  • 学习曲线:
    • R一开始还是很容易上手的,查到基本的命令,如果要自己写算法、优化性能的时候,学习难度陡增。
    • Python-挺好学的,丰富的包供使用
  • 画图:
    • R自带的那些工具就挺好用,ggplot这种非常优美的得力工具
    • python 有matplotlib比R自带的好一些些,界面基于QT,跨平台支持
  • IDE:
    • Rstudio非常不错,提供类matlab环境
    • Python:Vscode,Pycharm
  • 建议:
    • 如果只是处理(小)数据的,用R
    • 要自己搞个算法、处理大数据、计算量大的,用python

值得推荐的R语言的书

初学者入门
  • R in Action
  • The Art of_R Programming
  • learning R
统计进阶
  • A Handbook of Statistical Analyses Using R
  • Modern Applied Statistics With S
科学计算
  • Introduction to Scientific Programming and Simulation Using R
数据挖掘
  • Data Mining with R Learning with Case Studies
  • Machine Learning for Hackers
  • An Introduction to Statistical Learning
数据绘图
  • ggplot2 Elegant Graphics for Data Analysis
  • R Graphics Cookbook
参考手册
  • R Cookbook
  • R in a Nutshell
高级编程
  • R Programming for Bioinformatics
  • software for data analysis programming with R
  • Advanced R programming

Python应学习的包

  • Pandas
  • Numpy
  • Scipy
  • Matplotlib
  • Scikit Learn

大数据如何处理

  • UC Berkeley Course Lectures: Analyzing Big Data With Twitter

  • 第一、分解数据:需要根据具体情况分析,可以把大CSV原始数据拆解成每年每个月的(以yyyyMM.csv的格式储存),那子文件的数据量就可以降一到两个数量级,这样就可以用Matlab来处理,同时也间接完成了索引的工作。

  • 第二、如果数据实在是非常巨型(100GB+),我建议采用非关系型数据库(MonoDB等)来处理

  • 海量数据分成两块,一是系统建设技术,二,海量数据应用。

    • 系统建设技术:现在主流的技术是HADOOP,主要基于mapreduce的分布式框架。
    • 海量数据应用:主要是数据挖掘和机器算法。

    6piCU.png

数据分析师的主要工作有哪些?发展前景如何?需要掌握哪些相关知识?

  • 商业智能:商业智能=商业+智能

    • 首先是商业检验智能技术。商业目标以及商务流程,限定了你能选用的分析方法。
    • 其次是智能技术指导商业行为。业务人员不懂技术,技术人员不懂业务。

    6pj60.png

  • 数据和数据仓库

    • 数据是数据分析的基础,数据库是数据的承载,数据仓库是有主题的数据库。
    • 数据质量又可以分成两大块,“脏”数据的处理和数据来源口径的追溯。garbage in garbage out。
    • 报表:首先是确定报表的目的,这样才能定下报表是清单级还是汇总级;其次选择字段。再次是对字段做维度聚类,并做重要性排序。
  • 数据挖掘:BI=图表+数据挖掘的理解

  • 算法:

    • 程序=数据结构+算法
    • 要成为一名高级分析师,那肯定得有一定深度的研究。知道针对特定的数据集,选用什么样的算法,如何抽取样本,抽取多大量的样本(样本出问题,整个项目都完蛋),算法适用条件是什么,比如线性回归的:独立性、常方差、正态性,怎么理解,哪些必须满足。
    • 二是客户问到一些问题,知道如何去解释,比如用决策树计算出来的得分,为什么很多样本得分是一样的?客户细分中,有没有算法可以使得同一个客户细分至两个不同的客户群
    • 三是你能写出针对特定问题的算法,现实中许多问题拥有其他问题一样的共性,也有它自己的个性,某些时候针对个性的东西越强,分析效果越好,这就需要你手写算法解决。
    • 级的数据分析师,算法与数据结构的知识必不可少。搜索,排序,树,图之所以经典,是因为它们简单有效而且通用。
  • 统计学与其中的分析逻辑问题:

    • 经常发现两样事物是互为因果互相加强的,“事物有普遍联系”和“作用与反作用”的哲学原理。
  • 商业:

    • 菲利普科特勒《市场营销》
    • 斯蒂芬鲁宾斯的《管理学》
  • 增值知识:

    • 分析师宽广的知识面必不可少,没事看看心理学、历史、地理、人口统计学(demography),浏览一下知乎,FT中文网。
  • 数据信息图:

    • http://infosthetics.com/
    • http://flowingdata.com/
    • http://visual.ly/
  • 资料:

    • http://radar.oreilly.com/
    • http://www.businessinsider.com
  • 报告:

    • http://vdisk.weibo.com/s/2YJeC

商业智能,是利用计算机对数据大量快速处理的特点,对众多商业数据做图与表的展现分析,并通过统计学的方法对数据进行智能学习和挖掘,辅助商业决策。商业智能的优势就在于它对海量数据的处理,以及可规则化逻辑化(这点部分继承了数学的DNA),这些杂乱的数据让人去处理和挖掘有用信息,基本是不可能的。

数据挖掘的系统教程是怎样的,包含哪些教材

  • Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining.
  • Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques.
  • Mining of Massive Dataset, by Anand Rajaraman and Jeff Ullman ( Derived from Stanford CS345)
  • Programming Collective Intelligence, by Toby Segaran, August 2007.
  • Beautiful Data by Toby Segaran, Jeff Hammerbacher
  • The Text Mining Handbook by R. Feldman and J. Sanger
  • Web Data Mining by Bing Liu
  • The Elements of Statistical Learning (统计学习基础) by Trevor Hastie etc
  • 有志于专门深入数据挖掘的某个细分领域,最好直接读相关的survey论文,和最新的直接看各大数据挖掘相关会议论文即可 ( KDD/SIGMOD/VLDB/ICDE/WSDM/ICDM etc)
  • 《数据挖掘概念与技术》,作者:[加]Jiawei Han/Micheline Kamber 译: 范明/孟小峰 等
  • 《数据挖掘导论》,作者: [美]Pang-Ning Tan,Michael Steinbach,Vipin Kumar 著
  • 数据挖掘技术——市场营销、销售与客户关系管理领域应用》作者: (美)贝瑞
  • 《实用多元统计分析》

国内外与信息可视化相关的专业博客、论坛、社区有哪些?

博客

  • http://eagereyes.org
  • http://flowingdata.com
  • http://www.mcwetboy.net/maproom
  • http://www.liesdamnedlies.com/visualization/
  • http://www.informationisbeautiful.net/
  • http://infosthetics.com/
  • http://indiemaps.com/blog/
  • http://graphjam.memebase.com/
  • http://fivethirtyeight.blogs.nytimes.com/
  • http://well-formed-data.net/
  • http://www.visualcomplexity.com/vc/

可视化

  • http://www.biostat.wisc.edu/%7Ekbroman/topten_worstgraphs/
  • http://www.improving-visualisation.org/case-studies
  • http://infovis.cs.vt.edu/cs5764/lectures/Lies.ppt
  • http://sfew.websitetoolbox.com/
  • http://colorusage.arc.nasa.gov/issues.php
  • http://www.webdesignerdepot.com/2009/06/50-great-examples-of-data-visualization/
  • http://old.siggraph.org/publications/newsletter/v33n3/contributions/davis.html
  • http://www.math.yorku.ca/SCS/Gallery/
  • http://www.infovis-wiki.net/

实际应用

  • http://www.nytimes.com/2010/09/13/technology/13roadkill.html
  • http://www.dailymail.co.uk/home/moslive/article-1272921/Ten-greatest-maps-changed-world.html
  • http://www.nytimes.com/2009/11/19/opinion/19silver.html
  • http://www.nytimes.com/2010/05/28/nyregion/28map.html
  • http://www.nzherald.co.nz/building-construction/news/article.cfm?c_id=24&objectid=10671930
  • http://wholemeal.co.nz/%7Emalc/darfield-earthquake-timeline/
  • http://projects.nytimes.com/census/2010/explorer
  • http://www.nytimes.com/2010/05/02/magazine/02self-measurement-t.html
  • http://i.imgur.com/hmGgW.gif
  • http://www.nytimes.com/2010/04/27/world/27powerpoint.html
  • http://jec.senate.gov/republicans/public/index.cfm?p=CommitteeNews&ContentRecord_id=bb302d88-3d0d-4424-8e33-3c5d2578c2b0
  • http://faculty.uoit.ca/collins/research/index.html
  • http://www.chrisharrison.net/projects/visualization.html
  • http://bits.blogs.nytimes.com/2009/12/17/a-day-in-the-life-of-nytimescom/
  • http://www.style.org/
  • http://www.nytimes.com/2008/08/31/technology/31novel.html

数据集

  • http://snap.stanford.edu/data/index.html
  • http://ngrams.googlelabs.com/datasets
  • http://archive.ics.uci.edu/ml/
  • http://kdd.ics.uci.edu/
  • http://www.graphics.stanford.edu/courses/cs448b-04-winter/online_databases.html

论坛

  • http://processing.org/- processing
  • http://processingjs.org/- processing.js
  • http://www.vischeck.com/

数据分析师和数据科学家有何区别?

  • Data Scientists往往可以独立完成一条龙的完整分析过程:从数据提取,整合、并进行分层,进行统计或其他复杂的分析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具
  • 偏向于data reseacher的有,多见于大型IT企业,百度大脑的data scientist们多属于这一类型,他们搞的是比较前沿的深度学习,平常会读大量paper可能自己也会发
  • 偏向于data creative的有,各种企业都会储备,会ETL,懂模型、懂行业,会展示沟通,比较能够创造直接的价值
  • 偏向于data developer的也有但是很少,他们不懂模型,只要给他们算法公式,他们就能用编程语言帮你实现,实现算法是重要的技能,但是这种不懂模型不懂行业的,现在大多企业都不太会给这样的人data scientist的title
  • data reseacher:发明/改进模型算法然后给R写package的
  • data creative:用R作分析的
  • data developer:觉得R太简单不屑于用的+偶尔帮data reseacher给R写package的
  • 一个理想的data scientist应该是data developer、data creative、data researcher、data businessperson的结合,Ta往往能够领导一个没有被清晰定义的问题的回答过程,在这期间,data scientist对于完整分析过程的把控能力能够帮助Ta主导项目的方向,整合各方资源,data scientist并不一定需要亲身参与到技术开发过程中,但是Ta知道什么样背景的人能够胜任这些工作,知道怎样组建适当的团队,也知道什么样的模型或分析方法能够适用,它们的优缺点都是什么,怎样改进,必要时懂得去查找学术界最新的研究成果并转化;以及知道老板想要什么,始终牢牢把握问题的核心,及时纠偏。最后,把这一套回答此类问题的方法流程化,以应付以后出现类似问题。

综上所述,data scientist应该是data developer, data creative, data researcher、data businessperson的结合,但又高于这四者,关键就在于Ta对于整个数据分析闭环的把控能力。有清晰定义的、循规蹈矩的Routine work不是data scientist的专长,data scientist的专长在于formulate、quantify未清晰定义的问题,data science这个领域本来就有协作性,靠一个人单打独斗肯定不行,但只有data scientist这样的“通才”才有能力领导那四种“专才”去解决棘手的问题。

R中重要的一些命令或包

  • CRAN - Package xkcd把你的图绘制成xkcd http://xkcd.com
  • CRAN - Package magrittr向前管道操作符以及其他一些操作符的别名
  • CRAN - Package knitr自动化报告生成
  • CRAN - Package functional函数编程的时候会用到
  • CRAN - Package Rcpp R和cpp能这么方便地结合
  • Slidify 用markdown做出漂亮的slides

大数据计算框架除了MapReduce还有哪些?

  • 面向内存迭代运算的spark,专门针对流式计算的storm等
  • 更高级的Hive和PIG

相关课程

  • CS236_DGM
  • CS228_PGM
  • CS221_AI
  • CS229_ML
  • CS230_DL
  • CS224n_NLP
  • CS231n_CNN
  • CS234_RL

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1391652.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LLM:Scaling Laws for Neural Language Models (上)

论文:https://arxiv.org/pdf/2001.08361.pdf 发表:2020 摘要1:损失与模型大小、数据集大小以及训练所用计算量成比例,其中一些趋势跨越了七个量级以上。 2:网络宽度或深度等其他架构细节在很大范围内影响较小。3&…

两道有挑战的问题(算法村第九关黄金挑战)

将有序数组转换为二叉搜索树 108. 将有序数组转换为二叉搜索树 - 力扣(LeetCode) 给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 高度平衡 二叉搜索树。 高度平衡 二叉树是一棵满足「每个节点的左右两个…

rust跟我学五:是否安装双系统

图为RUST吉祥物 大家好,我是get_local_info作者带剑书生,这里用一篇文章讲解get_local_info是怎么得到检测双系统的。 首先,先要了解get_local_info是什么? get_local_info是一个获取linux系统信息的rust三方库,并提供一些常用功能,目前版本0.2.4。详细介绍地址:[我的Ru…

【JVM】常用命令

一、前言 Java虚拟机(JVM)是Java程序运行的基础设施,它负责将Java字节码转换为本地机器代码并执行。在开发过程中,我们经常需要使用一些命令来监控和管理JVM的性能和状态。本文将详细介绍6个常用的JVM命令:jps、jstat…

C语言——编译和链接

(图片由AI生成) 0.前言 C语言是最受欢迎的编程语言之一,以其接近硬件的能力和高效性而闻名。理解C语言的编译和链接过程对于深入了解其运行原理至关重要。本文将详细介绍C语言的翻译环境和运行环境,重点关注编译和链接的各个阶段…

含并行连结的网络(GoogLeNet)

目录 1.GoogLeNet 2.代码 1.GoogLeNet inception不改变高宽,只改变通道数。GoogLeNet也大量使用1*1卷积,把它当作全连接用。 V3耗内存比较多,计算比较慢,但是精度比较准确。 2.代码 import torch from torch import nn from t…

未来的NAS:连接您的数字生活

未来的NAS:连接您的数字生活 引言 网络附加存储(Network Attached Storage,简称NAS)是一种通过网络连接的存储设备,用于集中存储和共享数据。传统的NAS设备通常包含一个或多个硬盘驱动器,可以通过局域网连…

2024.1.14每日一题

LeetCode 83.删除排序链表中的重复元素 83. 删除排序链表中的重复元素 - 力扣(LeetCode) 题目描述 给定一个已排序的链表的头 head , 删除所有重复的元素,使每个元素只出现一次 。返回 已排序的链表 。 示例 1: 输…

.NET 8.0 发布到 IIS

如何在IIS(Internet信息服务)上发布ASP.NET Core 8? 在本文中,我假设您的 Windows Server IIS 上已经有一个应用程序池。 按照步骤了解在 IIS 环境下发布 ASP.NET Core 8 应用程序的技巧。 您需要设置代码以支持 IIS 并将项目配…

我的年终总结2023

As a DBA 从2023年初开始,我就给自己定下了23年的主要任务——学习PostgreSQL数据库。虽然没有定下细致的计划,但总体的目标是把PG的一些基础知识学完。后来发现我想简单了,学习PG的成本比我想象的多的多,导致23年这个目标没有完…

前端踩坑之——antDesignVue的upload组件

本地启动时控制台会报404,放到服务器上控制台会报405(多发一个请求) 原因:upLoad有默认的上传事件 解决:阻止默认事件即可 beforeUpload Hook function which will be executed before uploading. Uploading will be stopped with false or …

修复uni-simple-router@2.0.7版本query参数null的bug

问题:query参数为null或者为空时,插件内部参数校验问题导致的会报错:TypeError: Cannot convert undefined or null to object at Function.keys 源码修改如下: 通过打补丁的方式修复query参数类型校验问题 1. 安装patch-packag…

Git项目分支管理规范

一、分支管理 创建项目时,会针对不同环境创建两个常设分支(也可以算主分支,永久不会删除) master:生产环境的稳定分支,生产环境基于该分支构建。仅用来发布新版本,除了从release测试分支或 hotfix-*Bug修复分支进行m…

风丘电动汽车高压测试方案 助您高效应对车辆试验难题

针对电动汽车道路试验的要求,风丘科技携手德国IPETRONIK共同推出了电动汽车高压测试方案。电动汽车测试通常有两种测量手段:第一种是测量模拟量信号,包括电压、电流、温度和高压;第二种是使用数据记录仪或CAN卡从车辆总线读取数据…

飞凌嵌入式这2款核心板已完成“矿鸿OS”适配,矿企伙伴看过来

近日,飞凌嵌入式FETA40i-C和FETMX6ULL-S两款核心板成功完成“矿鸿OS”的系统适配,嵌入式核心板与“矿鸿”操作系统的结合与应用,将进一步推动煤矿行业的数字化、智能化进程。 矿鸿OS(矿山鸿蒙系统)是华为和国家能源集团…

明胶清灰除杂技术,明胶清灰除杂树脂T-42MP

Tulsimer T-42MP明胶等清灰除杂用大孔吸附净化树脂 明胶是一种水溶性非均相的分子量蛋白质混合物。它不以单质的形式存在于自然界中,只有通过控制水解胶原蛋白来得到,它存在于动物的皮肤,肌腱,韧带,骨骼中。广泛应用于…

2024年AMC8历年真题练一练和答案详解(10),以及全真模拟题

六分成长继续为您分享AMC8历年真题,最后两天通过高质量的真题来体会快速思考、做对题目的策略。 题目从575道在线题库(来自于往年真题)中抽取5道题,每道题目均会标记出自年份和当年度的序号,并附上详细解析。【使用六…

day20【LeetCode力扣】142.环形链表Ⅱ

day20【LeetCode力扣】142.环形链表Ⅱ 1.题目描述 给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了…

几内亚ECTN是什么?怎么办理?建议收藏!

几内亚ECTN是什么?怎么办理?建议收藏! 一、去往几内亚的货物,从六月一日开始强制实施ECTN制度,取消原来并行的ENS制度。如若货物到港前没申请ECTN,几内亚海关将会强行扣货。 ECTN是英文:ELECTR…

Js-web APIs(一)

目录 Web API 基本认知 • 作用和分类 • 什么是DOM • DOM树 • DOM对象(重要) 获取DOM对象 • 根据CSS选择器来获取DOM元素 (重点) 1.选择匹配的第一个元素 2.选择匹配的多个元素 • 其他获取DOM元素方法(了解) 操作元素内容 • 对象.innerT…