seqkit 两种拆分方法的比较

news2024/12/24 2:14:37

 seqkit拆分fastq,fasta等文件有两种方式:split和split2, 二者的逻辑并不一样。

split 是将原文件拆分,写满第一个文件,再写第二个文件

split2是将原文件的内容,挨个写到各个拆分文件里面去?

比如原文件有10条记录,拆成五份:

按split拆,第一个文件就是(1,2),第二个文件就是(3,4)。。。

按split2拆,第一个文件就是(1,5),第二个文件就是(2,6)。。。

原作者沈伟描述:split2里,类似玩扑克牌的时候,挨个给玩家发牌的顺序。

split2Cmd.Flags().IntP("by-part", "p", 0, "split sequences into N parts with the round robin distribution")

斗地主的情况下,

如果按split方式发牌,就是给第一个人发17张,然后再给第二个人发17张,第三个人是最后17张。这样会很多炸弹。

如果按split2方式发牌,就是每人每次发一张牌,不断重复这个过程,就是所谓的round robin distribution。

如果像让拆分的子文件保留原文件的顺序,则用split更合适。

如果不在乎顺序,更注重拆分速度,则用split2更合适。

因为split2的速度是split的5倍

可以随便拿一个fasta文件测试一下两种拆分方式的速度和拆分后的文件内容顺序

#split

#!/bin/sh
#$ -S /bin/sh
echo -n "split mask.fa: "; date +%Y-%m-%d%t%H:%M:%S
seqkit split --force --by-part 20 --threads 6 ./mask.fa --out-file mask.fa --out-dir mask_split
echo -n "End: "; date +%Y-%m-%d%t%H:%M:%S

#split2

#!/bin/sh
#$ -S /bin/sh
echo -n "split2 mask.fa: "; date +%Y-%m-%d%t%H:%M:%S
seqkit split2 --force --by-part 20 --threads 6 ./mask.fa --out-file mask.fa --out-dir mask_split2
echo -n "End: "; date +%Y-%m-%d%t%H:%M:%S

拆分的分数不能超过1000

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/652639.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

拓尔微技术干货 | get 5个知识点,了解细分驱动技术

本期我们对步进电机驱动原理、五线的步进电机和四线的步进电机、2-2相励磁和1-2相励磁、步进电机驱动的优化方案、拓尔微TMI8150B细分驱动技术的原理进行详细的介绍,共分为5个知识点,全是技术干货,赶紧get下来~ ✔get 1:步进电机…

datax安装部署使用 windows

Datax在win10中的安装_windows安装datax_JMzz的博客-CSDN博客 DataX/userGuid.md at master alibaba/DataX GitHub 环境准备: 1.JDK(1.8以上,推荐1.8) 2.①Python(推荐Python2.7.X) ②Python(Python3.X.X的可以下载下面的安装包替换) python3.0需…

Docker安装——CentOS7.6(详细版)

ps:docker官网 在 CentOS 上安装 Docker 引擎 |官方文档 () 一、确定版本(必须是7以上版本) cat /etc/redhat-release 二、卸载旧版本(或者之前装过,没有安装过就不用管了) (root用…

OpenCV 项目开发实战--实现填充图像中的孔( Python / C++ ) 代码实现

文末附分别基于C++和python实现的相关测试代码下载链接 图 1. 左:原始的图像。中心:阈值和倒置。右:孔被填充。 在本教程中,我们将学习如何填充二值图像中的孔洞。考虑图 1 中左侧的图像。假设我们想要找到一个将硬币与背景分开的二进制掩码,如右图所示。在本教程中,包含…

2.0C++继承

C继承概述 C 中的继承是指一个类可以从另一个类中继承属性和方法,这个被继承的类称为基类或父类,继承它的类称为派生类或子类。 C三种继承 1、公有继承 public 在公有继承中,基类的公有成员和保护成员都可以被派生类访问,而基…

【ROS】ROS2导航Nav2:简介、安装、测试效果、错误处理

1、简介 在ROS2中自动导航使用Nav2来实现。 Nav2 使用几个独立的模块化服务,通过 ROS 2接口(例如动作服务器或服务)与行为树 (BT) 通信。 Nav2 输入包括:TF转换、一个地图源、一个行为树 (BT) XML 文件和相关的传感器数据源; Nav…

【数字图像处理】2.几何变换

目录 2.1 仿射变换(二维) 2.2 投影变换(三维) 2.3 极坐标变换 2.3.1 将笛卡尔坐标转化为极坐标 2.3.2 将极坐标转换为笛卡尔坐标 2.3.3 利用极坐标变换对图像进行变换 几何变换:放大、缩小、旋转等,改…

[游戏开发]Unity中随机位置_在圆/椭圆/三角形/多边形/内随机一个点

[ 目录 ] 0. 前言1. 矩形内随机2. 圆形内随机3. 三角形内随机4. 多边形内随机(1)多边形分割为三角形(2)三角形面积计算(3)数据缓存(4)按权重随机(5)实现随机 …

理论【8】TCPUDP彻底搞懂了吗?

1 概述 对于TCP协议和UDP协议,大家应该都有所耳闻。TCP协议和UDP协议都工作在传输层,他们的目标都是在应用之间传输数据。我们常用的网络通信,比如浏览网页、查看邮件、电话通信等,都是通过这两种协议来进行数据传输的。 2 TCP…

面试---如何发现Redis热点Key,有哪些解决方案?

目录 热点问题概述热点问题的危害常见解决方案阿里云数据库解热点之道热点key的处理两种方案对比总结 热点问题概述 产生原因 热点问题产生的原因大致有以下两种: 用户消费的数据远大于生产的数据(热卖商品、热点新闻、热点评论、明星直播)…

【AI绘画】本地部署Stable Diffusion Web UI

近几年AI发展迅猛,今年更是大爆发,除了爆火的大模型ChatGPT以外,AI绘画也有很大的进步,目前,Stable Diffusion图像生成效果相当惊人,可以生成逼真的人像、风景、物品图片,还可以将图片转换为不同…

提示学习soft prompt浅尝,启发了p-tuing

一、前言 在高质量标注数据稀缺的工业界来说,少样本学习或者零样本学习的方法特别受欢迎,后面出现过一些少样本和零样本的方法,例如对比学习和prompt等,主流prompt的工作分为离散型和连续型模板。离散型主要还是插入bert特殊的tok…

分享AI绘画的方法

曾经,在一个神奇的编程国度里,住着一个名叫小花的程序员。小花喜欢创造和探索新奇的技术,她有一个惊人的能力:她能够根据文字生成相应的图片。这项技术让她成为了这个国度里的传奇人物。人们纷纷向她寻求帮助,希望能够…

flutter:网络请求、json数据转为Model

参考 老孟 flutter: 网络请求-dio http http 是一个可组合,基于Future的库,用于HTTP请求。该软件包包含高级功能和类,可轻松使用HTTP资源。它是多平台的,并且支持移动设备,台式机和浏览器。此软件包为官…

STM32F1x固件库函数学习笔记(一)

文章目录 一、基础知识1、什么是STM322、STM32诞生背景3、STM32分类4、STM32F1X系列命名规则5、STM32F103C8T6最小系统 二、STM32固件库1、初始固件库(1)51单片机的寄存器(2)STC8A通过库函数方式实现LED闪烁(3&#xf…

Spark入门(二)

2.3 Standalone模式 Standalone模式是Spark自带的资源调度引擎,构建一个由Master Worker构成的Spark集群,Spark运行在集群中。 这个Standalone区别于Hadoop的。这里的Standalone是指只用Spark来搭建一个集群,不需要借助其他框架。 2.3.1集…

充能书单|618,买什么都不如买知识!

前言 “IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台,致力于帮助读者在广义的IT领域里,掌握更专业、更实用的知识与技能,快速提升职场竞争力。 点击蓝色微信名可快速关注我们。 一年一度的618又到啦!今年的618就不要乱买…

【Linux】MySQL数据库 (二)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 MySQL数据库 数据表高级操作克隆表,将数据表的数据记录生成到新的表中清空表,删除表内的所有数据创建临时表创建外键约束,保证数据的完整性…

【计算机网络】第一章 概述(下)

文章目录 第一章 概述1.5 计算机网络的性能指标1.5.1 速率1.5.2 带宽1.5.3 吞吐量1.5.4 时延 1.6 计算机网络体系结构1.6.1 常见的体系结构1.6.2 分层的必要性1.6.4 体系结构中的专用术语 1.8 习题 第一章 概述 1.5 计算机网络的性能指标 常用的 计算机网络 的性能指标有以下 …

ECC算法学习(一)算法公式

ECC 一、ECC简介优缺点运用 二、算法理论基础1. 椭圆曲线的加法2. 椭圆曲线的二倍运算3. 同余运算4. 有限域5. 乘法逆元 三、算法公式1、有限域的负元2、有限域的加法, P Q P Q PQ3. 斜率计算(PQ即要计算P点切线,需要求导)4. 椭…