生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

news2024/11/27 17:01:46

大多数现代测序技术产生的3 '端和5 '端质量降低的reads,这两个区域错误地calling base会对组装、下游生物信息学分析造成影响。sickle使用滑动窗口沿着质量和长度阈值,根据质量是否低于阈值来修剪reads的3 '端, 根据质量是否超过阈值来修剪reads的5 '端,还可以根据长度阈值丢弃reads。

sickle支持三种类型测序的质量值:Illumina、Solexa和 Sanger。

sickle修剪转录组测序fastq 5’和3’ reads 实例

# 后台下载SRR3498212.sra
nohup prefetch SRR3498212 &

# 拆分sra为fastq
fastq-dump SRR3498212

# -f 输出fastq文件
# -t fastq测序碱基数据类型
# -o 输出修剪后fastq文件
# -q 质量阈值
# -l 长度阈值
sickle se -f SRR3498212.fastq -t sanger \
-o trimmed_SRR3498212.fastq -q 35 -l 45

# FastQ records kept: 34475799
# FastQ records discarded: 8018698

1. sickle安装

# 下载zip安装包
wget https://github.com/najoshi/sickle/archive/refs/tags/v1.33.zip

# 解压
unzip v1.33.zip 	

# 编译
cd sickle-1.33 && make

# 加入环境变量
echo 'export PATH=/path/sickle-1.33/:$PATH' >> ~/.basbrc
source ~/.bashrc

# 查看帮助
sickle -h

sick文件

sickle帮助信息

2. 单端测序数据修剪

sickle se获取一个输入单端fastq文件,并输出一个修剪后的fastq文件。 它还可以选择更改长度和质量用于微调的阈值,以及禁用5 '微调和启用N碱基截短序列。
sickle se

# -t 指定输入fastq质量类型为illumina  
sickle se -f input_file.fastq -t illumina  -o trimmed_output_file.fastq

# -q 指定质量阈值为33, -l 指定长度阈值为40
sickle se -f input_file.fastq -t illumina -o trimmed_output_file.fastq -q 33 -l 40

# -x 不进行5'端修剪reads, -x 第一个N碱基位置修剪序列
sickle se -f input_file.fastq -t illumina -o trimmed_output_file.fastq -x -n

# -g 输出.gz fastq文件
sickle se -t sanger -g -f input_file.fastq -o trimmed_output_file.fastq.gz

3. 双端测序数据修剪

sickle pe可以使用两种类型的输入进行操作。 首先,可以将两个双端文件作为输入,并输出两个修剪后的双端文件以及“singles”文件。 第二种形式以单个reads的组合输入文件。

“singles”文件包含正向或反向通过筛选器的reads方向。通过选项(-M), 可生成一个交错输出文件,其中任何未通过的reads过滤器将输出为一个FastQ记录与一个单一的“N”(其质量值是基于质量类型的最低可能值)。 可以更改长度以及用于修剪的质量阈值,以及禁用5 '-修剪, 允许用N碱基截短序列。
sickle pe

# -o 输出修剪的fastq1, -p 输出修剪会的fastq2, -s 输出singles文件
sickle pe -f input_file1.fastq -r input_file2.fastq -t illumina \
-o trimmed_output_file1.fastq -p trimmed_output_file2.fastq \
-s trimmed_singles_file.fastq

# 加入修剪质量和长度阈值
sickle pe -f input_file1.fastq -r input_file2.fastq -t illumina \
-o trimmed_output_file1.fastq -p trimmed_output_file2.fastq \
-s trimmed_singles_file.fastq -q 12 -l 15

# 加入N碱基修剪
sickle pe -f input_file1.fastq -r input_file2.fastq -t illumina \
-o trimmed_output_file1.fastq -p trimmed_output_file2.fastq \
-s trimmed_singles_file.fastq -n

# -c 单个组合的fastq文件作为输出
sickle pe -c combo.fastq -t sanger -m combo_trimmed.fastq \
-s trimmed_singles_file.fastq -n


sickle pe -t sanger -g -f input_file1.fastq -r input_file2.fastq \
-o trimmed_output_file1.fastq.gz -p trimmed_output_file2.fastq.gz \
-s trimmed_singles_file.fastq.gz

sickle pe -c combo.fastq -t sanger -M combo_trimmed_all.fastq

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1804746.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最快的开源UDP传输工具:Kcptun

Kcptun:极速网络隧道,让数据传输飞起来!- 精选真开源,释放新价值。 概览 kcptun 是一个轻量级、高性能的TCP/UDP网络加速工具,由xtaci开发并托管在GitHub上。它通过使用kcp协议,为网络数据传输提供了一个快…

Django redirect()函数实现页面重定向

1,通过路由反向解析进行重定向 1.1 添加视图函数 myshop/app2/views.py from django.http import HttpResponse from django.shortcuts import render from django.urls import reverse def index(request):return HttpResponse("app2 的index")# 反向…

QField如何打开工程或数据文件

Field有个文件选择器,允许从本地设备打开工程。如果想从云端打开文件,请参阅 QFieldCloud 。 注意:请注意,卸载QField时,应用程序文件夹将被删除,而更新则不会。 导入并打开本地工程 QField界面 当转到 …

Unity DOTS技术(十五) 物理系统

要解决性能的瓶颈问题,在DOTS中我们将不再使用Unity自带的物理组件. 下面来分享一下在DOTS中当如何使用物理插件. 一.导入插件 在使用DOTS系创建的实体我们会发现,游戏物体无法受物理系统影响进行运动.于是我们需要添加物理系统插件. 1.打开Package Manager > 搜索插件Uni…

【NI国产替代】产线综测仪,高速高精度测量的示波器模块与任意波形发生器模块,多样化 DUT 供电;高精度万用表模块

Xilinx ZYNQ-7000 系列 FPGA 控制模块多样化 DUT 供电;高精度万用表模块高速高精度测量的示波器模块与任意波形发生器模块可选配射频开关与音频信号源和音频分析仪模块可快速部署的测试平台软件,支持测试计划导入、开发、执行管理具有良好的扩展性&#…

1.2-自然语言的分布式表示-基于计数的方法

本篇笔记对应的视频链接为: 3-基于计数的方法表示单词-将文字转换成编号的预处理工作_哔哩哔哩_bilibili;4-基于计数的方法表示单词-使用共现矩阵进行单词的分布式表示_哔哩哔哩_bilibili;5-基于计数的方法表示单词-单词之间相似度计算_哔哩哔…

超详解——python数字和运算_——小白篇

目录 1.的位运算 2. 常用内置函数/模块 math模块: random模块: decimal模块: 3.内置函数: 总结: 1.的位运算 位运算是对整数在内存中的二进制表示进行操作。Python支持以下常见的位运算符: 按位与&…

openh264 场景变化检测算法源码分析

文件位置 openh264/codec/processing/scenechangedetection/SceneChangeDetection.cppopenh264/codec/processing/scenechangedetection/SceneChangeDetection.h 代码流程 说明: 通过代码流程分析,当METHOD_SCENE_CHANGE_DETECTION_SCREEN场景类型为时…

git 的基本操作 Master and branch的版本合并 @ VS 1019

前言: 在VS 2019有git 的可视化管理,但,感觉微软其实就是在git上包了一层。版本冲突后,还是要靠git 的命令行代码搞。本文记录了一次,branch和master的版本合并的过程。作为,后续的参考。 【注意,这个是一…

相机标定中一些细节--畸变模型和参数

张正友标定方法做相机标定的主要过程是先估计每张图片的单应性矩阵,然后通过这一系列的单应性矩阵估计出内外参数初值,最后再考虑畸变模型的加入进行非线性优化。同时优化内参、外参和畸变参使得重投影误差最小。 镜头的畸变表现出来的非线性关系&#…

处理异常不再困难-try-catch-finally和throw语句详解

哈喽,各位小伙伴们,你们好呀,我是喵手。运营社区:C站/掘金/腾讯云;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一…

《软件定义安全》之三:用软件定义的理念做安全

第3章 用软件定义的理念做安全 1.不进则退,传统安全回到“石器时代” 1.1 企业业务和IT基础设施的变化 随着企业办公环境变得便利,以及对降低成本的天然需求,企业始终追求IT集成设施的性价比、灵活性、稳定性和开放性。而云计算、移动办公…

《软件定义安全》之二:SDN/NFV环境中的安全问题

第2章 SDN/NFV环境中的安全问题 1.架构安全 SDN强调了控制平面的集中化,从架构上颠覆了原有的网络管理,所以SDN的架构安全就是首先要解决的问题。例如,SDN实现中网络控制器相关的安全问题。 1.1 SDN架构的安全综述 从网络安全的角度&…

算法训练营day04

一、24. 两两交换链表中的节点 题目链接:https://leetcode.cn/problems/swap-nodes-in-pairs/description/ 文章讲解:https://programmercarl.com/0024.%E4%B8%A4%E4%B8%A4%E4%BA%A4%E6%8D%A2%E9%93%BE%E8%A1%A8%E4%B8%AD%E7%9A%84%E8%8A%82%E7%82%B9.h…

运维实用小脚本,登录即自动显示系统信息

今天给大家安利一个超级实用的Linux小技巧,让你每次登录终端时都能感受到满满的科技感和效率爆棚! 你是否厌倦了每次手动检查系统状态,像内存使用、CPU负载这些繁琐操作?别担心,一个小调整,让这一切自动化…

当我拿到百度文心智能体大赛top1后,我又开发了...

目录 一、写在前面 二、代码助手 三、关于智能体 四、写在后面 一、写在前面 在不久前结束的文心智能体大赛(第一期)中,我有幸凭借一款名为恋爱助手的智能体斩获了大赛的桂冠。这个成绩,既是对我努力的认可,也是对…

YOLOv8_obb的训练、验证、预测及导出[旋转目标检测实践篇]

1.旋转目标检测数据集划分和配置 从上面得到的images和labels数据还不能够直接训练,需要按照一定的比例划分训练集和验证集,并按照下面的结构来存放数据,划分代码如下所示,该部分内容和YOLOv8的训练、验证、预测及导出[目标检测实践篇]_yolov8训练测试验证-CSDN博客是重复的…

linux本地搭建apt源

使用apt-mirror搭建 1.安装 apt-get install apt-mirror2.编辑配置文件 vi /etc/apt/mirror.list修改下载目录 set_base_path 后面改为下载镜像的目录,同时删除前面#号 添加同步的源,建议用国内的,速度快,我这里用的阿里云的镜…

调查显示各公司在 IT 安全培训方面存在差距

网络安全提供商 Hornetsecurity 最近进行的一项调查显示,许多组织的 IT 安全培训存在严重缺陷。 这项调查是在伦敦举行的 Infosecurity Europe 2024 期间发布的,调查发现 26% 的组织没有为其最终用户提供任何 IT 安全培训。 这些调查结果来自世界各地的…