实验 目的 | 熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用; 了解大数据处理的基本流程; 熟悉数据预处理方法; 熟悉在不同类型数据库之间进行数据相互导入导出; 熟悉使用R语言进行可视化分析; 熟悉使用Elipse编写Java程序操作HBase数据库。 |
实验条件 | OS:Ubuntu16.04 Hadoop Hive |
实验 内容 | 熟悉Hive数据仓库的使用 熟悉使用HiveQL进行数据分析 |
实验 过程 | 数据准备与预处理 :这一部分上次实验已经完成这次就不展示 启动hadoop 查询数据: Hive数据分析: 操作hive, 简单查询分析 根据用户行为分析 看在2014-12-11购买商品的用户 查询在2014-12-11有多少用户点击了该店 某个地区用户当天浏览网站的次数 导入数据 select * from scan;(显示结果) |
实验 总结 | 本实验使用Hive建立数据仓库,并使用HiveSQL对商品销售数据进行分析。通过本实验可以学习把本地数据集上传到数据仓库Hive中,并在Hive上创建数据库和外部表和使用HiveQL进行数据分析。 其中大部分问题都还是比较简单的,查询语句也比较直观,唯一的问题就是导入数据库的时候需要自己构建结构比较繁琐。 |