NoSQL数据库原理与应用综合项目——起始篇

news2024/9/24 5:31:18

NoSQL数据库原理与应用综合项目——起始篇

文章目录

  • NoSQL数据库原理与应用综合项目——起始篇
    • 0、 写在前面
    • 1、项目说明
      • 1.1 项目背景
      • 1.2 项目功能
    • 2、数据集和数据预处理
      • 2.1 数据集
      • 2.2 数据预处理
        • 2.2.1 图书出版日期字段的处理
        • 2.2.2 添加id字段
        • 2.2.3 价格字段的处理
        • 2.2.4 打折字段的处理
        • 2.2.5 最终数据


在这里插入图片描述


0、 写在前面

  • Windos版本:Windows10
  • Linux版本:Ubuntu Kylin 16.04
  • JDK版本:Java8
  • Hadoop版本:Hadoop-2.7.1
  • HBase版本:HBase-1.1.5
  • Zookeepr版本:使用HBase自带的ZK
  • Redis版本:Redis-3.2.7
  • MongoDB版本:MongoDB-3.2.7
  • Neo4j版本:Neo4j-3.2.7 Community
  • IDE:IDEA 2020.2.3
  • IDE:Pycharm 2021.1.3

1、项目说明

1.1 项目背景

书籍是学习生活中必不可少的一部分,本次项目利用不同类型的书籍数据,包括小说、社会科学、计算机、文学、科普百科五个不同种类,经过统计分析了解不同类型书籍的各个维度。

1.2 项目功能

本次项目实现对Hbase、Redis、MongoDB、Neo4j等NoSQL数据库的增删改查操作,并使用MongoDB对书籍数据进行基本的统计分析。

2、数据集和数据预处理

2.1 数据集

数据来源

使用后裔采集器爬取工具,对中图网爬取多种类别图书数据信息。

数据量

13518条

数据字段说明

字段名字段类型字段描述
idintID编号
typevarchar(10)书籍类型
namevarchar(255)书籍名称
authorvarchar(100)作者
pricevarchar(6)价格
discountvarchar(10)折数
pub_timevarchar(20)出版日期
pricingvarchar(20)原始价格
publishervarchar(20)出版社
crawler_timedatetime数据爬取时间

原始数据展示

在这里插入图片描述

2.2 数据预处理

数据预处理阶段,本项目是先将爬取的数据直接导入到MySQL(Windows10环境下),接着通过使用SQL语句,对原始数据进行处理。

2.2.1 图书出版日期字段的处理

  • 处理目的:

爬取的pub_time字段均为日期后面存在“ /”这种字符的情况。因此,需要提前处理为正确的出版日期。

  • 具体处理过程:

处理前:pub_time字段均为日期后面存在“ /”这种字符的情况如下图所示:

在这里插入图片描述

使用SQL语句直接处理:

update tb_book set pub_time = replace(pub_time, '  /', '');
  • 处理结果:

处理后pub_time字段均为正确的出版日期,如下图所示:

在这里插入图片描述

2.2.2 添加id字段

  • 处理目的:

增加id字段作为主键,以便数据更加直观。

  • 具体处理过程:

直接在MySQL(Windows10环境下)中执行下面的SQL语句,并将id字段设置为主键且设置为自增模式。

alter table tb_book add id int(6);

在这里插入图片描述

  • 处理结果:

处理后,id字段已经添加成功,如下图所示:

在这里插入图片描述

2.2.3 价格字段的处理

  • 处理目的:

对于原价字段pricing和打折后的价格字段price,均含有“¥”字符,为方便下文中的分析,此处对于这两个字段都删除掉“¥”字符,只剩下数字即可。此种情况如下图所示:

在这里插入图片描述

  • 具体处理过程:

使用SQL语句直接处理:

update tb_book set price = replace(price, '¥', '');
update tb_book set pricing = replace(pricing, '¥', '');
  • 处理结果:

在这里插入图片描述

2.2.4 打折字段的处理

  • 处理目的:

爬取的数据中,打折字段discount均含有“()”字符,为方便获取打折力度以及下文的分析,对于此种情况,直接删除带“()”字符。此种情况如下图所示:

在这里插入图片描述

  • 具体处理过程:

SQL语句:
update tb_book set discount = replace(discount, ‘(’, ‘’);
update tb_book set discount = replace(discount, ‘)’, ‘’);

  • 处理结果:

在这里插入图片描述

2.2.5 最终数据

前20条数据

在这里插入图片描述

预处理完之后将数据上传到HDFS和本地

结束!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/79078.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt接入微信

背景 chatgpt是一个有趣的、聪明的AI机器人。很多人希望可以把这个机器人接入微信群聊里面。 介绍 本项目,使用python制作了一个微信群聊机器人。 微信群聊机器人群聊里面,被艾特后,会基于被艾特的内容,发送对应的文本。可以使…

CVE-2019-15107 webmin RCE漏洞复现

今天继续给大家介绍渗透测试相关知识,本文主要内容是CVE-2019-15107 webadmin RCE漏洞复现。 免责声明: 本文所介绍的内容仅做学习交流使用,严禁利用文中技术进行非法行为,否则造成一切严重后果自负! 再次强调&#xf…

【测绘程序设计】——椭球面弧长计算

椭球面弧长计算主要指——①根据纬度计算子午线弧长(B→X);②由子午线弧长求大地纬度(X→B)。它们主要用在高斯投影之中。本文分享了测绘程序设计——椭球面弧长计算(C#版与Python版),相关源代码(绝对完整,直接运行)及使用示例如下。 目录 Part.Ⅰ 使用示例Chap.Ⅰ …

redis基础

redis是一个基于内存的Key-Value数据库 1.基于内存存储,读写性能高 2.适合存储热点数据(热点商品、咨询、新闻) 3.NoSQL,不仅仅是SQL,泛指关系数据库 关系型数据库 Mysql Oracle DB2 SQLServer 非关系型数据…

参数化集成测试

我们在开发项目的过程中遇到了复杂的业务需求,测试同学没有办法帮我们覆盖每一个场景;或者是我们自己在做代码功能升级、技改,而不是业务需求的时候,可能没有测试资源帮我们做测试,那这个时候就需要依靠自己的单元测试…

数据结构之树相关概念的知识铺垫

文章目录前言1.树的相关介绍2. 树的表示3.二叉树概念及结构4.二叉树的性质5.二叉树相关概念练习6.总结前言 之前对数组结构中线性结构进行了相关的介绍,本文将开始对非线性结构进行相关的介绍,首先介绍的是树,会围绕树的相关概念进行初步的简…

记住这三个方法,让你的钱越花越多

小狗钱钱 关于作者 本书作者博多•舍费尔,是德国著名的投资 家、企业家、演说家以及畅销书作家。他 人生中曾出现过严重的财务危机,但他凭 着自己的努力,重新获得了财务自甶。这 段经历让他产生了和更多人分享理财知识 的想法,《…

玩以太坊链上项目的必备技能(类型-映射类型-Solidity之旅四)

映射(Mapping) 说到映射(Mapping),有过其它编程语言经验的您,对这是再熟悉不过了。Solidity 中的映射(Mapping) 与Java的Map、Go里的Map以及javascript的JSON等众多编程语言中的Map…

考虑柔性负荷的综合能源系统低碳经济优化调度【考虑碳交易机制】(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜…

【大数据入门核心技术-ElasticSearch】(一)ElasticSearch介绍

目录 一、什么是Elasticsearch? 二、核心概念 1.倒排索引(Inverted Index) 2.节点 & 集群(Node & Cluster) 3.索引(Index) 4.文档(Document) 5.类型(type…

游戏开发50课 性能优化8

4.2 渲染状态优化 4.2.1 状态缓存 在引擎侧&#xff0c;可以使用状态缓存减少渲染管线的切换。伪代码&#xff1a; class RenderStateCache { public:void InitRenderStates();{for (RenderStateType tRenderStateType.begin; t<RenderStateType.end; i){_renderStateCac…

[附源码]计算机毕业设计基于微信小程序的网络办公系统Springboot程序

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

微服务框架 SpringCloud微服务架构 微服务保护 31 限流规则 31.3 流控模式【链路】

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式&#xff0c;系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 微服务保护 文章目录微服务框架微服务保护31 限流规则31.3 流控模式【链路】31.3.1 流控模式 - 链路31.3.2 举个栗子31.3.3 总结31 限流规则…

Vite + Vue3 + Electron 创建打包桌面程序、实现进程通信

目录 1. Electron 介绍 2. 使用 Vite 构建 Electron 项目 2.1 创建 Vite 应用&#xff0c;安装 Electron 依赖 2.2 在 vite.config.ts 中&#xff0c;配置 Electron 入口文件 2.3 编写 electron / index.ts 2.3.1 app、BrowserWindow 2.3.2 使用 win.loadURL 加载窗口 /…

Autosar MCAL-GTM之TOM

文章目录前言定时器输出模块&#xff08;TOM&#xff09;TOM产生PWM的原理TOM中断中断使能中断模式中断映射CFG中TOM通道配置TOM Channel EnableTomChDisableOnTgcTriggerTOM Channel EnableTOM Channel OutputTomChOutputDisableOnTgcTrigTomChannelOutputControlTomChannelOu…

【项目_05】tabcontrol的搭建及回显、使用keep-alive缓存页面、移动端适配 | 基于Vue3全家桶

&#x1f4ad;&#x1f4ad; ✨&#xff1a;tabcontrol的搭建及回显、使用keep-alive缓存页面   &#x1f49f;&#xff1a;东非不开森的主页   &#x1f49c;: 总不能还没努力就向生活妥协吧&#x1f49c;&#x1f49c;   &#x1f338;: 如有错误或不足之处&#xff0c;希…

【双向ConvLSTM Network:遥感融合】

D2TNet: A ConvLSTM Network With Dual-Direction Transfer for Pan-Sharpening &#xff08;D2TNet: 双向传输的卷积长短期记忆递归神经网络用于泛锐化&#xff09; 本文提出了一种高效的具有双向传输的卷积长短期记忆递归神经网络&#xff08;convolutional long short-ter…

Java Agent 探针技术

Java 中的 Agent 技术可以让我们无侵入性的去进行代理&#xff0c;最常用于程序调试、热部署、性能诊断分析等场景&#xff0c;现如今比较火热的分布式链路追踪项目Skywalking&#xff0c;就是通过探针技术去捕获日志&#xff0c;将数据上报OAP观察分析平台。 Java Agent 技术简…

Socket编程实现TCP、UDP样例

文章目录一.Socket简介二.Socket实现TCPTCP通信简介使用对象及方法简介代码实现服务端代码客户端代码三.Socket实现UDPUDP通信简介UDP程序的使用步骤代码实现服务端代码客户端代码一.Socket简介 socket套接字是通信的基石&#xff0c;是支持TCP/IP协议的路通信的基本操作单元.…

私企招聘:思特威社会招聘

关于我们 思特威&#xff08;上海&#xff09;电子科技股份有限公司 SmartSens Technology &#xff08;股票简称&#xff1a;思特威&#xff0c;股票代码&#xff1a;688213&#xff09;是一家从事CMOS图像传感器芯片产品研发、设计和销售的高新技术企业&#xff0c;总部设立…