Ceph中对象读写请求的顺序性和并发控制

news2024/11/24 11:57:37

分布式系统中经常需要考虑对象(或者记录、文件、数据块等)的读写顺序以及并发访问问题。通常来说,如果两个对象没有共享的资源,就可以进行并发的访问;如果有共享的部分,就需要对这部分资源进行加锁。而对于同一个对象的并发读写(尤其是并发写更新时),就需要注意顺序性以及并发访问的控制,以免数据错乱。本文主要针对ceph中对象读写的顺序及并发性保证机制进行介绍。

1. PG的概念

ceph中引入PG(Placement Group)的概念,这是一个逻辑上的组,通过crush算法映射到一组OSD上,每个PG里包含完整的副本关系,比如3个数据副本分布到一个PG里的3个不同的OSD上。下面引用ceph论文中的一张图就可以比较直观的理解了。将文件按照指定的对象大小分割成多个对象,每个对象根据hash映射到某个PG,然后再根据crush算法映射到后端的某几个OSD上:

ceph-chapter13-1

2. 不同对象的并发控制

不同的对象有可能落到同一个PG里,ceph实现里,再OSD的处理线程中就会给PG加锁,一直到queue_transactions里把事务放到journal的队列里(以filestore为例)才释放PG的锁。从这里可以看出,对于同一个PG里的不同对象,是通过PG锁来进行并发的控制,好在这个过程中没有涉及到对象的IO,不会太影响效率;对于不同PG的对象,就可以直接进行并发访问。

void OSD::ShardedOpWQ::_process(uint32_t thread_index, heartbeat_handle_d *hb ) {
	...

	(item.first)->lock_suspend_timeout(tp_handle);

	...

	(item.first)->unlock();
}

3. 同一个对象的并发顺序控制

从上面的介绍可以得知,同一个对象的访问也会受到PG锁的限制,但这是在OSD的处理逻辑里。对于同一个对象的访问,要考虑的情况比较复杂。从用户使用场景上来说,有两种使用方式。比如:

1) 一个client情况,客户端对同一个对象的更新处理逻辑是串行的,要等前一次写请求完成,再进行后一次的读取或者写更新;

2) 多个client对同一个对象的并发访问,这样的应用场景类似于NFS,目前的分布式系统里很少能做到,涉及到多个client同时更新带来的数据一致性问题,一般需要集群文件系统的支持;

对于多client的场景,ceph的rbd也是不能保证的,cephfs或许可以(没深入研究过,待取证)。因此,这里主要以单client访问ceph rbd块设备的场景进行阐述,看一个极端的例子:同一个client先后发送了2次对同一个对象的异步写请求。以这个例子展开进行说明。

3.1 tcp消息的顺序性保证

了解tcp的都知道,tcp使用序号来保证消息的顺序。发送方每次发送数据时,tcp就给每个数据包分配一个序列号,并且在一个特定的时间内等待接收主机对分配的这个序列号进行确认,如果发送方在一个特定时间内没有收到接收方的确认,则发送放会重传此数据包。接收方利用序号对接收的数据进行确认,以便检测对方发送的数据是否有丢失或者乱序等,接收方一旦收到已经顺序化的数据,它就将这些数据按正确的顺序重组成数据流并传递到应用层进行处理。注意: tcp的序号时用来保证同一个tcp连接上消息的顺序性。

3.2 ceph消息层的顺序性保证

ceph的消息有个seq序号,以simple消息模型为例,Pipe里有3个序号:in_seq、in_seq_acked、out_seq。

  • in_seq是对于Reader来说,已经收到的消息的序号

  • in_seq_acked表示成功处理并应答的消息序号,接收端收到发送端的消息并处理完成后将ack成功发到发送端后设置的;

  • out_seq是发送端生成的,一般新建一个连接时随机生成一个序号,然后后续的消息发送时out_seq递增赋值给消息的序号m->seq。

注: 参看Pipe::reader()与Pipe::writer()函数

ceph-chapter13-2

当网络异常导致tcp连接中断后,会调用Pipe::fault()进行处理,就是关闭socket,调用requeue_sent把没有收到ack的消息重新放入out_q队列头(放在头部以便于可以优先处理),而且out_seq会递减,后续会不断尝试重新建立连接。这样再重新建立连接重发的消息所带的seq还是跟之前的一样。

因为发送端连接异常调用Pipe::fault()里会关闭socket,进行tcp的连接关闭处理,在接收端继续读的时候读到0认为tcp_read失败,因此也会调用Pipe::fault()从而调用shutdown_socket去关闭socket。因此对于连接异常断开后再重新建立连接的情况,in_seq也不会接着之前的序号,仍然是取决于发送端生成的out_seq。因而可以保证消息的顺序。

3.3 pg层顺序保证及对象锁机制

从消息队列里取消息进行处理时,osd端处理op是划分为多个shard,然后每个shard可以配置多个线程,PG按照取模的方式映射到不同的shard里。另外OSD在处理PG时,从消息队列里取出的时候就对PG加了写锁的,而且是在请求下发到store后端才释放的锁,所以消息队列里过来的消息有序后,在OSD端PG这一层处理时也是有序的。

对某个对象进行写时会在对象上进行加锁操作ondisk_write_lock(),对某个对象的读请求会先在对象上进行加锁操作ondisk_read_lock()。这两个操作是互斥的,当一个对象有写操作还在进行时,尝试ondisk_read_lock()会一直等着;同样的,当一个对象正在进行读操作时,尝试ondisk_write_lock()时,也是会等。两者加锁解锁的地方如下图所示:读数据的过程中是持有锁的;写请求要等数据写到底层文件系统(文件系统缓存里)才释放锁,这样后续对这个对象的读可以直接从文件系统缓存里读到(或者数据刷到磁盘上后从磁盘上读取)。

ceph-chapter13-3

注意: 这里的两个锁操作限制的是同一个对象上的读和写的并发,对于(不同对象的)读和读、写和写的并发没有控制。对于同一个对象的两个读请求理论上来说不会出问题(实际上不会同时发生,因为先加了PG锁),可是对于同一个对象上的两个写请求会不会造成数据错乱呢?不要忘了,在进入do_op()之前就已经加了PG锁,而且是请求都下发到store层才释放的PG锁,因此同一个对象的2个写请求,是不会并发进入PG层处理的,必定是按照顺序前一个写请求经过PG层的处理后,到达store层进行处理(由另外的线程来进行),然后后一个写请求才会进入PG层处理后下发到store层。所以同一个对象上的读写请求,一定是按照顺序在PG层进行处理。那么问题来了,同一个对象的2次写请求到了store层处理的时候也是有顺序上的保证吗?

3.4 store层顺序保证

ceph的store层支持各种存储后端,以插件化的形式来管理,以filestore为例来进行说明。filestore有几种写的方式,这里以filestore journal writeahead为例。写请求到达filestore后(入口是FileStore::queue_transactions()),会生成OpSequencer(如果这个PG之前已经生成过了,就直接获取,每个PG有一个osr,类型为ObjectStore::Sequencer,osr->p就是指向OpSequencer),OpSequencer就是用来保证PG内op操作的顺序的,后面会介绍具体怎么使用。

对于封装了写请求的事务(每个op都有一个seq序号,递增的),按照顺序会先放到completions,再放到writeq里后(writeq队尾),通知write_thread去处理。在write_thread中使用aio异步将事务写到journal里,并将IO信息放到aio_queue,然后使用write_finish_cond通知write_finish_thread进行处理。在write_finish_thread里对于已经完成的IO,会根据完成的op的seq序号按序放到journal的finisher队列里(因为aio并不保证顺序,因此采用op的seq序号来保证完成后处理的顺序),如果某个op之前的op还未完成,那么这个op会等到它之前的op都完成后才一起放到finisher队列里。参看如下代码:

int FileStore::queue_transactions(Sequencer *posr, vector<Transaction>& tls,
				  TrackedOpRef osd_op,
				  ThreadPool::TPHandle *handle)
{
	...

	OpSequencer *osr;
	assert(posr);
	if (posr->p) {
		osr = static_cast<OpSequencer *>(posr->p.get());
		dout(5) << "queue_transactions existing " << osr << " " << *osr << dendl;
	} else {
		osr = new OpSequencer(next_osr_id.inc());
		osr->set_cct(g_ceph_context);
		osr->parent = posr;
		posr->p = osr;
		dout(5) << "queue_transactions new " << osr << " " << *osr << dendl;
	}

	...

	if (journal && journal->is_writeable() && !m_filestore_journal_trailing) {
		...

		uint64_t op_num = submit_manager.op_submit_start();
    	o->op = op_num;

		if (m_filestore_journal_parallel) {
			dout(5) << "queue_transactions (parallel) " << o->op << " " << o->tls << dendl;
		
			_op_journal_transactions(tbl, orig_len, o->op, ondisk, osd_op);
		
			// queue inside submit_manager op submission lock
			queue_op(osr, o);
		} else if (m_filestore_journal_writeahead) {
			dout(5) << "queue_transactions (writeahead) " << o->op << " " << o->tls << dendl;
		
			osr->queue_journal(o->op);
		
			_op_journal_transactions(tbl, orig_len, o->op,
				new C_JournaledAhead(this, osr, o, ondisk),
				osd_op);

		} else {
			assert(0);
		}
		submit_manager.op_submit_finish(op_num);

		...
	}

	...
}

void FileJournal::submit_entry(uint64_t seq, bufferlist& e, uint32_t orig_len,
			       Context *oncommit, TrackedOpRef osd_op)
{
	...

	completions.push_back(
		completion_item(
			seq, oncommit, ceph_clock_now(g_ceph_context), osd_op));

	if (writeq.empty())
		writeq_cond.Signal();

	writeq.push_back(write_item(seq, e, orig_len, osd_op));
}

void FileJournal::write_thread_entry()
{
	...

	#ifdef HAVE_LIBAIO
		if (aio)
			do_aio_write(bl);
		else
			do_write(bl);
	#else
		do_write(bl);
	#endif

	...
}

在journal的finisher处理函数里,会将op按序放到OpSequencer的队列里,并且会放到FileStore::op_wq的队列中,FileStore::OpWQ线程池调用FileStore::_do_op(),先osr->apply_lock.Lock()进行加锁操作,然后会从队列中取op进行处理(调用osr->peek_queue(),并没有dequeue),然后进行写数据到Filesystem的操作完成后,在FileStore::_finish_op()里才会osr->dequeue(),并osr->apply_lock.Unlock()。即通过OpSequencer来控制同一个PG内写IO到filesystem的并发,但是对于不同PG的写IO是可以在OpWQ的线程池里并发处理的。

总的来说,FileStore里先通过op的seq来控制持久化写到journal的顺序性,然后再通过OpSequencer来保证写数据到文件系统的顺序性,并且整个处理过程中都是通过FIFO来确保出入队列的顺序。由此可见,同一个对象的2次写请求按照顺序进入到FileStore里进行处理,也是按照先后顺序处理完成的。

在BlueStore里也有OpSequencer这个机制,比如BlueStore里是通过OpSequencer来保证某个请求之前的请求还没有处理完成之前,后面的请求就不会处理。因此对于同一个对象的两个写请求会按照顺序进行处理,而且对于一个对象的读请求,如果这个对象还有未完成的写请求在处理,那么会等到写处理完成才能读取。

3.5 primary发到replica的请求顺序

有了消息层的顺序性,以及primary处理上的顺序性,再将请求发给replica的时候也是有序的(即对同一个对象的两次写),replica端收到的两次写的顺序跟primary的两次写的顺序是一样的(由同一个tcp连接上的顺序性和ceph消息层的顺序性保证),这样replica端在进行处理时,到osd以及后续store层的处理也是保序的。这样就不会出现primary跟replica上对于同一个对象的两次写会乱序导致不一致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/979355.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Sentinel1.8.6集成nacos

代码&#xff1a;https://gitee.com/gsls200808/sentinel-dashboard-nacos jar包&#xff1a;https://gitee.com/gsls200808/sentinel-dashboard-nacos/releases/tag/v1.8.6.0 代码如果看不到可能需要登录。 官方参考文档&#xff1a; 动态规则扩展 alibaba/Sentinel Wiki…

【动态规划——最长公共子串】

动态规划——最长公共子串 题目链接 https://www.nowcoder.com/practice/98dc82c094e043ccb7e0570e5342dd1b?tpId37&tqId21298&rp1&ru/exam/oj/ta&qru/exam/oj/ta&sourceUrl%2Fexam%2Foj%2Fta%3FjudgeStatus%3D3%26page%3D2%26pageSize%3D50%26search%3…

day 49 | 647. 回文子串 ● 516.最长回文子序列

647. 回文子串 dp含义&#xff1a;dp如果是表示i-j的序列中回文子串的个数的话&#xff0c;当新来一个后只能判定出来是整体的回文&#xff0c;内部的无法判断&#xff0c;所以用bool表示整体比较恰当。 递推公式&#xff1a;由于i&#xff0c;j是由i1,j-1决定的&#xff0c;所…

【自学开发之旅】Flask-回顾--对象拆分-蓝图(二)

url-统一资源定位符-不同的url对应不同的资源 作为服务端&#xff0c;url和视图函数的映射关系就是路由。 定义传递参数的方式&#xff1a; 1.创建动态url app.route("/login2/<username>/<passwd>") def login2(username, passwd):if username "…

2.4.3 【MySQL】设置系统变量

2.4.3.1 通过启动选项设置 大部分的系统变量都可以通过启动服务器时传送启动选项的方式来进行设置。如何填写启动选项就是下面两种方式&#xff1a; 通过命令行添加启动选项。 在启动服务器程序时用这个命令&#xff1a; mysqld --default-storage-engineMyISAM --max-conn…

八、任务状态

1、任务状态简介 (1)任务状态可以简单的分为运行和非运行。 (2)非运行状态可以细分为&#xff1a;阻塞状态、暂停状态、就绪状态。 2、阻塞状态(Blocked) (1)举例说明&#xff1a;在日常生活的例子中&#xff0c;母亲在电脑前跟同事沟通时&#xff0c;如果同事一直没回复&a…

.bat定时调用jar包,稳定FTP传输文件,并生成日志Log

需求&#xff1a;每天整点需要将虚拟机1上的文件拷贝到虚拟机2上&#xff0c;具体的FTP传输代码&#xff08;Java&#xff09;可以看上一篇笔记。但文件传输不一定及时&#xff0c;即10点的数据可能10:05才到&#xff0c;因此程序需要尽可能地多执行&#xff0c;这样才能保住数…

【C++ 学习 ⑳】- 详解二叉搜索树

目录 一、概念 二、实现 2.1 - BST.h 2.2 - test.cpp 三、应用 四、性能分析 一、概念 二叉搜索树&#xff08;BST&#xff0c;Binary Search Tree&#xff09;&#xff0c;又称二叉排序树或二叉查找树。 二叉搜索树是一棵二叉树&#xff0c;可以为空&#xff1b;如果不…

Langchain使用之 - 文本分割Splitter

Langchain提供了多种文本分割器&#xff0c;包括CharacterTextSplitter(),MarkdownHeaderTextSplitter(),RecursiveCharacterTextSplitter()等&#xff0c;各种Splitter的作用如下图所示&#xff1a; TextSplitter 下面的代码是使用RecursiveCharacterTextSplitter对一段文字进…

vue-tour新手指导,点击按钮,进行提示,再次点击按钮,提示隐藏,点击下一步,弹框显示

先看效果图 main.js中引入vue-tour import VueTour from vue-tour require(vue-tour/dist/vue-tour.css) Vue.use(VueTour)建一个登录页面 点击导航助手按钮&#xff0c;开始提示 <el-button type"primary" plain click"startTour">导航助…

手写Spring:第9章-Aware感知容器对象

文章目录 一、目标&#xff1a;Aware感知容器对象二、设计&#xff1a;Aware感知容器对象三、实现&#xff1a;Aware感知容器对象3.1 工程结构3.2 Spring感知接口类图3.3 定义标记接口和容器感知类3.3.1 定义标记接口3.3.2 对象工厂感知接口3.3.3 类加载感知接口3.3.4 对象名称…

智慧排水监测系统:实时监测城市排水情况

中国智慧城市概念最初由住建部提出&#xff0c;随着智慧城市建设的广泛实践&#xff0c;对其认知也在不断深入与变化。2014年&#xff0c;国家发改委从数字化与技术角度认为:智慧城市是运用物联网、云计算、大数据、空间地理信息集成等新一代信息技术&#xff0c;促进城市规划、…

实现SSE的textevent-stream是什么?和applicationoctet-stream有什么区别?

WEB通讯技术。前端实现SSE长连接&#xff0c;nodejsexpress搭建简单服务器&#xff0c;进行接口调试&#xff0c;通过curl请求数据 点击上面的地址是可以了解轮询和长轮询以及websocket等通信模式&#xff0c;一些基础概念和速成技能&#xff0c;这篇来接着详细聊聊text/event…

电影《孤注一掷》引发观众思考网络安全

近日上映的电影《孤注一掷》深刻地揭示了境外网络诈骗的全产业链&#xff0c;上万起真实诈骗案例为素材&#xff0c;让观众近距离感受这一犯罪行为的阴谋与可怕。影片呈现了从诈骗策划到资金流转的每一个环节&#xff0c;引发了观众的强烈好奇和观看欲望。这种真实性让观众对网…

MITSUBISHI A1SJ51T64电源单元

电源供应&#xff1a;A1SJ51T64 电源单元通常用于为MITSUBISHI PLC系统提供稳定的电源&#xff0c;以确保系统正常运行。 电源输入&#xff1a;它通常支持广泛的电源输入范围&#xff0c;以适应不同地区的电源标准。 电源输出&#xff1a;A1SJ51T64 电源单元通常提供多个电源…

【C++基础】6、常量

文章目录 【 1、常量的分类 】1.1 整型常量1.2 浮点常量1.3 字符常量1.4 字符串常量1.5 布尔常量 【 2、常量的定义 】2.1 #define 预处理器2.2 const 关键字 常量 是固定值&#xff0c;在程序执行期间不会改变。这些固定的值&#xff0c;又叫做字面量。常量可以是任何的基本数…

22行 手写实现promise

面试题 const MyPromise()>{}const myPromise new MyPromise((resolve) > {setTimeout(() > { resolve(hellow world) }, 2000)})myPromise.then((res) > {console.log(res)return "00"}) 手写promise&#xff0c;面试了一个面试题&#xff0c;promise…

【管理运筹学】第 7 章 | 图与网络分析(1,图论背景以及基本概念、术语、矩阵表示)

文章目录 引言一、图与网络的基本知识1.1 图与网络的基本概念1.1.1 图的定义1.1.2 图中相关术语1.1.3 一些特殊图类1.1.4 图的运算 1.2 图的矩阵表示1.2.1 邻接矩阵1.2.2 可达矩阵1.2.3 关联矩阵1.2.4 权矩阵 写在最后 引言 按照正常进度应该学习动态规划了&#xff0c;但我想…

Java/Lombok Slf4j日志配置输出到文件中

1、概述 新项目需要增加日志需求&#xff0c;所以网上找了下日志配置&#xff0c;需求是将日志保存到指定文件中。网上找了下文章&#xff0c;发现没有特别完整的文章&#xff0c;下面自己整理下。 1、Java日志概述 对于一个应用程序来说日志记录是必不可少的一部分。线上问题…

每日刷题(回溯法经典问题之子集)

食用指南&#xff1a;本文为作者刷题中认为有必要记录的题目 前置知识&#xff1a;回溯法经典问题之组合 ♈️今日夜电波&#xff1a;想着你—郭顶 1:09 ━━━━━━️&#x1f49f;──────── 4:15 …