文章目录
- 一、什么是云计算
- 1. IaaS:基础设施即服务
- 2. SaaS:软件即服务
- 3. PaaS:平台即服务
- 二、大数据与云计算关系
- 三、什么是MongoDB
- 四、大数据与MongoDB
- 五、MongoDB特点
- 六、安装MongoDB
- 七、重要进程介绍
- 7.1 mongod进程
- 7.2 mongo进程
- 7.3 其他进程
- 7.3.1 mongodump重建数据库
- 7.3.2 mongoexport导出数据
- 7.3.3 mongoimport导入数据
- 7.3.4 mongos分片操作
- 7.3.5 mongofiles操作分布式文件存储系统
- 7.3.6 mongostat展示运行中mongod实例的状态工具
- 7.3.7 mongotop分析MongoDB实例花在读写数据上时间跟踪方法
- 八、适合业务
- 8.1 Web应用程序
- 8.2 缓存系统
- 8.3 日志分析系统
一、什么是云计算
云计算的定义有多种说法,对于到底什么是云计算,我们至少可以找到100种解释。目前广为接受的是美国国家标准与技术研究院定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互,本质上就是虚拟化技术的延伸,以服务的形式提供客户。
按照服务的形式,目前主要有如下3种形式的云计算:
1. IaaS:基础设施即服务
laaS ( Infrastructure-as-a-Service):基础设施即服务。
消费者通过Internet 可以从完善的计算机基础设施获得服务,例如硬件服务器租用。
2. SaaS:软件即服务
SaaS ( Software-as-a-Service);软件即服务。
它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web 的软件,来管理企业经营活动。例如:阳光云服务器。
3. PaaS:平台即服务
PaaS ( Platform-as-a- Service ):平台即服务。
PaaS 实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是PaaS的出现可以加快SaaS 的发展,尤其是加快 SaaS应用的开发速度,例如软件的个性化定制开发。
二、大数据与云计算关系
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理,也就说大数据就像做饭用的一堆原材料,云计算就像做饭用的工具。云计算解决了大数据的运算工具问题
,而对大数据的存储我们需要相应的云存储工具。云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用或分布式文件系统等功能,将网络中大量的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。所以云存储是一个以数据存储和管理为核心的云计算系统,本书介绍的MongoDB就可以当作一个云存储系统使用。
三、什么是MongoDB
数据库排名
MongoDB是一个可扩展、开源、表结构自由、用C++语言编写且面向文档的数据库,旨在为Web应用程序提供高性能、高可用性且易扩展的数据存储解决方案。
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富、最像关系数据库的 NoSQL 数据库;它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,可以实现类似关系数据里单表查询的绝大部分功能
而且还支持对数据建立索引。
MongoDB只通过6年时间就将公司市值发展到12亿美元,其成果相当于著名开源公司Red Hat 20年的发展。MongoDB的成功之路,一大部分归功于Web开发者。作为一个面向文档数据库
,在许多场景下它都优于RDBMS,同时还可以获得非常高的读写性能。此外,动态、灵活的模式更可以让用户在商用服务器上轻松地进行横向扩展。
四、大数据与MongoDB
MongoDB这样的数据库可以支撑很多大数据系统,它不仅可以作为一个实时的可操作的大数据存储系统,也能在离线大数据分析系统中使用。
MongoDB 公司提供的产品和服务能让使用者担更少的风险、花更少的精力提供更好的生产系统产品。事实上,MongoDB天生就是为云计算而生的,其原生的可扩展架构,通过启用分片和水平扩展,能提供云存储所需的技术;此外,它的自动管理被称为“副本集”的冗余服务器,以保持数据的可用性和完整性。MongoDB目前已经成为多家领先的云计算供应商,其中包括亚马逊网络服务、微软和SoftLayer等。
MongoDB还支持Google提出的 MapReduce并行编程模式,为大数据的分析提供了强有力的保障。MongoDB同时提供了与Hadoop 的接口,与其他第三方数据分析工具完美结合。
- MongoDB是一个面向文档的数据库,不支持关系数据库中的
join操作
和事务
。 - MongoDB用集合的概念代替了关系数据库中的表,用最小逻辑单元文档代替关系数据库中的行。
- MongoDB的集合结构是动态的,没有必要像关系数据库一样插入数据前先定义表结构,而且可以随时增加、修改、删除组成文档的字段。
MongoDB支持当前所有主流编程语言的客户端驱动,使用方便,应用广泛,非常适合文档管理系统的应用、移动APP应用、游戏开发、电子商务应用、分析决策系统、归档和日志系统等应用。MongoDB支持所有主流平台的安装,但在32位的平台上部署时会有所限制,这是由它采用内存映射数据文件机制决定的,生产环境中最好部署在64位平台上。
五、MongoDB特点
关系数据库中最基本的单元是行,而MongoDB中最基本存储单元是document,典型结构如下所示:
{
"_id" : ObjectId("51e0c391820fdb628ad4635a"),
"author" : { "name" : "Jordan" , "email" : "Jordan@123.com" ),
"postcontent" : "jordan is the god of basketball",
"comments" : [
{ "user" : "xiaoming","text" :"great player" },
{ "user" : "xiaoliang","text" : "nice action" }
]
}
MongoDB用集合的概念代替了关系数据库中的表,用最小逻辑单元文档代替关系数据库中的行。
它用与JSON格式类似的键值对来存储(在 MongoDB中叫 BSON对象),其中值的数据类型有常见的字符串、数字、日期,还可以是BSON对象、数组以及数组的元素,也可以是BSON对象,通过这种嵌套的方式,使 MongoDB的数据类型变得相当丰富。
MongoDB与传统关系数据库还有一个重大区别就是:可扩展的表结构。也就是说collection(表)中的document(一行记录)所拥有的字段(列)是可以变化的,下面文档对象document(一行记录)比上面列出的文档对象document(一行记录)多一个time字段,但它们可以共存在同一个collection(表)中。
MongoDB 公司提供的产品和服务能让使用者担更少的风险、花更少的精力提供更好的生产系统产品。MongoDB天生就是为云计算而生的,其原生的可扩展架构,通过启用分片和水平扩展,能提供云存储所需的技术;它的自动管理被称为“副本集”的冗余服务器,以保持数据的可用性和完整性。MongoDB目前已经成为多家领先的云计算供应商,其中包括亚马逊网络服务、微软和SoftLayer等。
{
"_id" : ObjectId("51e0c391820fdb628ad4635a"),
"author" : { "name" : "Jordan" , "email" : "Jordan@123.com" ),
"postcontent" : "jordan is the god of basketball",
"comments" : [
{ "user" : "xiaoming","text" :"great player" },
{ "user" : "xiaoliang","text" : "nice action" }
],
"time":"2013-07-13"
}
- MongoDB查询语句不是按照SQL 的标准来开发的,它围绕JSON这种特殊格式的文档型存储模型开发了一套自己的查询体系,这就是现在非常流行的NoSQL体系。
- 关系数据库中常用的 SQL 语句在 MongoDB中都有对应的解决方案。
- MongoDB不支持JOIN语句,传统关系数据库中JOIN操作可能会产生笛卡尔积的虚拟表,消耗较多系统资源。
- MongoDB的文档对象集合collection可以是任何结构,我们可以通过设计较好的数据模型尽量避开这样的操作需求。
- 如果真的需要从多个collection(表)中检索数据,那我们可以通过多次查询得到。
在关系数据库中经常用到的 group by 等分组聚集函数,在 MongoDB中也有,而且MongoDB提供了更加强大的 MapReduce方案(GOOGLE提出的并行编程),为海量数据的统计、分析提供了便利。
-
MongoDB支持
日志功能Journaling
,对数据库的增、删、改操作会记录在日志文件中。MongoDB每100ms将内存中的数据刷到磁盘上,如果意外停机,在数据库重新启动时,MongoDB能通过Journaling日志功能恢复。 -
MongoDB支持
复制集Replset
,一个复制集在生产环境中最少需要3台独立的机器(测试的时候为了方便可能都部署在一台机器上),一台作主节点(primary),一台作次节点(secondary),一台作仲裁节点(只负责选出主节点),备份、自动故障转移,这些特性都是复制集支持的。 -
MongoDB支持
自动分片sharding
,分片的功能实现海量数据的分布式存储,分片通常与复制集配合起来使用,实现读写分离、负载均衡,当然如何选择片键是实现分片功能的关键。如何实现读写分离我们后面会详细分析。
总之,MongoDB 最吸引人的地方应该就是自由的表结构、MapReduce、分片、复制集,通过这些功能实现海量数据的存储、高效地读写以及数据的分析。
六、安装MongoDB
一般指的是运行MongoDB服务器端的进程mongod。
解压后,在bin目录下,我们可以看到一个名为mongod.exe的可执行程序,这个就是服务器端进程对应的程序。
-
下载链接:
https://www.mongodb.com/try/download/community
-
MongoDB启动时需要指定数据文件所在的目录,所以先要建立一个保存数据文件的目录:
D:\mongodb-win32-i386-2.6.3\test_single_instance\data
-
MongoDB启动时也可以指定一个日志文件:
D:\mongodb-win32-i386-2.6.3\test_single_instance\logs\123.log
-
MongoDB通过以下命令就可以启动:
> mongod --config E:\MongoDB-win32-i386-2.6.3\test_single_instance\123.conf
七、重要进程介绍
7.1 mongod进程
Mongod.exe为启动此数据库实例进程对应的可执行文件,是整个 MongoDB中最核心的内容,负责数据库的创建、删除等各项管理工作,运行在服务器端为客户端提供监听,相当于MySQL数据库中的 mysqld进程。
启动数据库实例会用到以下命令:
>mongod --config E:\MongoDB-win32-i386-2.6.3\test_single_instance\123.conf
配置文件123.conf
内容如下所示:
dbpath = E:\MongoDB-win32-i386-2.6.3\test_single_instance\data
logpath = E:\MongoDB-win32-i386-2.6.3\test_single_instance\logs\123.log
journal = true
port = 50000
auth = true
dbpath
为数据库文件存储路径;logpath
为数据库实例启动、运行、错误日志文件;journal
启动数据库实例的日志功能,数据库宕机后重启时依赖它恢复;port
数据库实例的服务监听端口;auth
启动数据库实例的权限控制功能。
其他可选参数可以通过mongod-help查看。
7.2 mongo进程
mongo是一个与mongod进程进行交互的JavaScript Shell进程,它提供了一些交互的接口函数用于系统管理员对数据库系统进行管理,如下面命令所示:
>mongo --port 50000-username xxx-password xxx-authenticationDatabase admin
- 参数
port
为mongod进程监听的端口 - 参数
username
为连接数据库的用户名 - 参数
password
为连接数据库的密码 - 参数
authenticationDatabase
为要连接的数据库
7.3 其他进程
7.3.1 mongodump重建数据库
mongodump提供了一种从mongod
实例上创建 BSON dump文件的方法,mongorestore能够利用这些dump文件重建数据库,更多可选参数可通过mongodump-help查看。
常用命令格式如下: mongodump --port 50000 --db eshop --out e:\bak
参数:
- –port表示mongod实例监听端口
- –db表示数据库名称
- –out表示备份文件保存目录
7.3.2 mongoexport导出数据
mongoexport是一个将 MongoDB数据库实例中的数据导出来生产JSON或CSV文件的工具,常用命令格式如下:
mongoexport --port 50000 --db eshop --collection goods --out e:\goods.json
7.3.3 mongoimport导入数据
mongoimport是一个将JSON或CSV文件内容导入到MongoDB实例中的工具,常用命令格式如下:
mongoimport --port 50000 --db eshop --collection goods --file e:lgoods.json
7.3.4 mongos分片操作
mongos是一个在分片中用到的进程。所有应用程序端的查询操作都会先由它分析,然后将查询定位到具体某一个分片上,它的作用与mongod类似,客户端的mongo与它连接。
7.3.5 mongofiles操作分布式文件存储系统
mongofiles提供了一个操作MongoDB分布式文件存储系统的命令行接口,常用命令如下:
mongofiles --port 40009 --db mydocs --local D:/算法导论学习资料.pdf put algorithm.introduction.pdf
它表示将本地文件 D:\算法导论学习资料.pdf上传到数据库mydoc中保存。
7.3.6 mongostat展示运行中mongod实例的状态工具
mongostat提供了一个展示当前正在运行的 mongod 实例的状态工具,相当于UNIX/Linux上的文件系统工具vmstat,但是它提供的数据只与运行着的mongod或mongos的实例相关。
7.3.7 mongotop分析MongoDB实例花在读写数据上时间跟踪方法
mongotop提供了一个分析 MongoDB 实例花在读写数据上的时间的跟踪方法。它提供的统计数据在每一个collection(表)级别上。
八、适合业务
8.1 Web应用程序
Web应用是一种基于BS模式的程序,业务的特点是读写请求都比较高,早期系统的数据量可能很少,但是发展到一定程度后数据量会暴增,这就需要数据存储架构能够适应业务的扩展。
传统的关系数据库表结构都是固定的,增加一个业务或者横向扩展数据库都会带来巨大的工作量。MongoDB支持无固定结构的表模型,因此很容易增加或减少表中的字段,适应业务的变化;
MongoDB本身就支持分片集群,很容易实现水平扩展,将数据分散到集群中的各个片上,提高了系统的存储容量和读写吞吐量。
Web应用程序还有一个特点就是“热数据”读并发很高,也就是说最新的数据被请求的次数会最多。为了提供读的性能,在传统的关系数据将中会采用其他的缓存技术来将这部分数据放在内存中,而 MongoDB本身就支持这一点,它是通过内存映射数据文件来实现的。它会维护一个工作集,将最热的数据放在内存中,不需要其他技术的协助,这为系统开发提供了简便性,如图1-3所示。
8.2 缓存系统
MongoDB使用场景是与关系数据库搭配使用,作为关系数据库的缓存前端。
目前缓存技术有很多种,最常见的就是使用memcached,但是这些缓存系统都有个缺点,就是支持的数据类型有限,查询语句也有限,只能保存少量的数据且不能持久化。
8.3 日志分析系统
这类系统的特点是数据量大,允许部分数据丢失,不会影响整个系统的可靠性。
以前将日志直接保存到操作系统的文件上,我们需要用其他工具打开日志文件或编写工具读日志进行分析,这样的话对于大量的日志查询会比较困难。
如果用MongoDB 数据库来保存这些日志:
- 一来可以利用分片集群使日志系统的容量海量大
- 二来使用MongoDB特有的查询语句能够快速找到某条日志记录。
最重要的是MongoDB支持聚集分析甚至MapReduce的能力,为大数据的分析和决策提供了强有力的支持。