什么是大数据?在互联网技术快速发展的今天,大量日常生活和经营活动中产生的数据都已经信息化。我们产生的数据量相比以前有了爆炸式的增长,传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!
因此,大数据就是:(1)有海量的数据;(2)有对海量数据进行挖掘的需求;(3)有对海量数据进行挖掘的软件工具。
大数据有哪些应用场景?举两个例子,(1)电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型运算,电商网站就可以对用户进行个性化商品推荐;(2)精准广告推送系统:基于海量的互联网用户数据,统计分析,进行用户画像,就可以为广告主进行有针对性精准的广告投放。
如何入门学习大数据?对于在校学生来说,可以按照从编程语言、操作系统、机器学习到大数据平台来分步骤系统学习。对于职场人士,学习大数据要从岗位任务入手。当前大数据产业链上,岗位的划分通常分为三类,其一是大数据开发,其二是大数据分析,其三是大数据运维。职场人士首先要了解自己的工作任务,再制定学习计划。
在产业领域,通常采用商用的大数据平台。你在学习时要先了解技术平台的结构和API。商用大数据平台往往都有比较完善的技术描述文档,也会有很多案例可以学习,这些都会帮助你提升学习效率。
当然,你也可以通过在线MOOC课程,系统地学习一下大数据。加州大学圣地亚哥分校的6门大数据专项课程在MOOC平台评价很高,已有几十万人注册学习。你可以学到:(1)大数据建模和管理系统;(2)大数据集成和处理;(3)基于大数据的机器学习;(4)大数据的图形分析;(5)使用大数据工具和方法来构建一个大数据生态系统。你可以在MOOC学习平台免费注册学习。
1. 大数据导论
你想入门学习大数据吗?这个课程将帮助你了解为什么大数据时代会到来,以及大数据、应用程序和系统背后的术语和核心概念。Hadoop是最常见的框架之一,它使得大数据分析变得更容易、更容易访问,增加了数据改变世界的潜力。
课程为期3周,每周4-7小时。课程主要内容包括:(1)什么让数据成为“大数据”?这些大数据来自哪里?(2)大数据的特征和可扩展性;(3)数据科学:从大数据中获取价值;(4)大数据系统和编程的基础;(5)开始使用Hadoop:Hadoop和MapReduce的细节。
2. 大数据建模和管理系统
在确定了要分析的大数据后,如何使用大数据解决方案收集、存储和组织数据?你将体验到各种适合每种数据类型的数据类型和管理工具。(1)识别出不同的数据元素;(2)设计一个大数据基础设施规划和信息系统;(3)选择适合于数据特征的数据模型;(4)为一家在线游戏公司设计一个大数据信息系统。
课程为期6周,每周2-3小时。课程主要内容包括:(1)介绍大数据建模与管理技术;(2) 大数据建模,包括向量空间模型、图形数据模型等;(3)用数据模型处理多种不同类型的数据格式;(4)大数据管理:管理大数据需要一种不同的数据库管理系统;(5)为一个在线游戏设计一个大数据管理系统。
3. 大数据集成与处理
你不需要任何编程经验,只需要安装应用程序和使用虚拟机来完成任务。你将学习:(1)从示例数据库和大数据管理系统中检索数据;(2)描述数据管理操作与大数据处理模式之间的联系;(3)在Hadoop和Spark平台上执行大数据集成和处理。
课程为期6周,每周2-4小时。课程主要内容包括:(1)介绍大数据集成和处理;(2)数据检索和关系查询;(3)NoSQL数据检索、数据聚合和处理数据框架;(4)介绍拆分和数据处理器等数据集成工具;(5)大数据管道和工作流,以及大数据的处理和分析;(6)使用Spark进行大数据分析;(7)通过Spark和MongoDB分析推特数据。
4. 基于大数据的机器学习
这个课程帮助你探索、分析和利用数据的机器学习技术,你将学到(1)使用机器学习设计一种利用数据的方法;(2)应用机器学习技术探索和准备可供建模的数据;(3)确定机器学习的类型以便应用适当的技术;(4)使用开源工具构建从数据中学习的模型;(5)利用Spark可伸缩机器学习算法分析大数据。
课程为期5周,每周3-6小时。课程主要内容包括:(1)介绍基于大数据的机器学习;(2)通过汇总统计数据进行数据探索;(3)数据准备、特征选择和处理 KNIME和SparK中缺失的值;(4)建立和应用一个分类模型和分类算法;(5)机器学习模型的评估;(6)回归、聚类分析和关联分析。
5. 大数据的图形分析
图形分析是一个快速增长的领域。你将从这个课程学习大数据图形分析,包括学习建模、存储、检索和分析图形结构数据的新方法。你将能够将问题建模到图形数据库中,并以可伸缩的方式对图形执行分析任务。
课程为期5周,每周3-4小时。课程主要内容包括:(1)应用图形的核心数学属性创建一个图形,确定对图表分析的类型;(2)图形的属性和分析技术;(3)演示使用Neo4j的查询语言Cypher,在各种图形网络上执行广泛的分析;(4)图形分析的计算平台和图形数据管理。
6. 大数据 - 毕业项目
在这个大数据毕业项目中,你将使用前面课程中学到的工具和方法来构建一个大数据生态系统。你将从游戏“捕捉粉色火烈鸟”大量的用户正中,分析一个模拟大数据的数据集。在最后一周,你将展示如何将它们结合在一起,以创建引人入胜、引人注目的报告和幻灯片演示。
课程为期6周,每周3-5小时。课程主要内容包括:(1)模拟在线游戏的大数据 ;(2)通过探索和准备进入大数据分析应用程序的数据来处理模拟游戏的数据;(3) 使用KNIME进行数据分类;(4)用Spark做了一些集群;(5)使用Neo4j捕捉粉红火烈鸟的模拟聊天数据,分析玩家的聊天行为,以寻找改进游戏的方法;(6)提交和展示你的报告。
如果你想了解更多课程信息,请在评论区留言。