拟南芥中基因家族序列的提取

news2024/12/28 3:41:12

1.拟南芥基因组数据的下载

phytozome 是一个收录植物基因组数据的网站,数据整理比较规范,已 经提供了去除可变剪切的 cds 和 protein 序列文件。只有 gff3 文件需要 过滤处理

2. 对拟南芥的注释文件gff3文件进行ID处理,最终得到以下4个文件

基因组文件:Ath.genome.fasta

基因注释文件:Ath_final.gff3 cds

序列文件:Ath.cds.fasta

蛋白序列文件:Ath.pep.fasta

3.从拟南芥数据库 geneFamily 中下载我们关注的基因家族信息

手动将列表信息复制粘贴至notepad++软件中并保存

然后查阅拟南芥的基因组Ath_genome.fasta文件发现其gene_id全是大写字母,而上述的存在大小写,需将其全部转换成大写ID

awk 命令

然后说说 awk 命令(文本三剑客之一),你可以使用它的 toupper 和 tolower 选项来进行相同的操作。同样是上例,脚本中的命令可以使用以下方式代替执行:

$ cat SPL_Ath.list | awk '{print toupper($0)}' >> SPL_Ath.idlist
$cat SPL_Ath.idlist

AT2G47070
AT1G27370
AT1G27360
AT3G60030
AT5G50570
AT1G20980
AT3G57920
AT1G76580
AT5G43270
AT2G33810
AT1G53160
AT3G15270
AT1G69170
AT5G18830
AT1G02065
AT2G42200

上边是将字符转换为大写字符,下边则是相反操作,转换为小写字符:

$ cat SPL_Ath.list | awk '{print tolower($0)}' >> test2.list

4. 基于SPL_Ath.idlist的ID信息去蛋白质序列文件提取对应的氨基酸序列

##首先安装seqtk软件
conda install -y seqtk
##再利用subseq选项根据id列表提取对应的序列
seqtk subseq Ath.pep.fasta SPL_Ath.idlist > SPL_Ath.pep.fasta

出现错误,没有提取序列成功;查阅一看发现是目标序列的ID"AT2G47070"和拟南芥蛋白质序列的ID"ATCG00500.1”(从Phytozome网站下载的)名称不一致

查阅发现从Emsembl网站下载的才是和自己的ID命名格式相同

 

##利用subseq选项根据id列表提取对应的序列
seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa SPL_Ath.idlist > SPL_Ath.pep.fasta
##利用sed命令配合正则表达式

cat test1.fasta | sed  's/.*gene:\(.*\) transcript:.*/>\1/p' |less -S

##保存结果

cat test1.fasta | sed  's/.*gene:\(.*\) transcript:.*/>\1/p' > pep.fasata

ID替换成基因的id

 

seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa SPL_Ath.idlist > SPL_Ath.pep.fasta

利用seqtk命令进行序列的提取 

 

参考来源:

在Linux命令行内直接进行大小写转换 | 良许Linux教程网 (lxlinux.net)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2049207.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度解析:.secret勒索病毒如何加密你的数据并勒索赎金

引言: 在当今这个数字化、信息化的时代,网络安全已成为一个不容忽视的重要议题。随着互联网的普及和技术的飞速发展,我们的生活、工作乃至整个社会的运转都越来越依赖于各种计算机系统和网络。然而,这种高度依赖也为我们带来了前…

硬件面试经典 100 题(51~70 题)

51、请列举您知道的覆铜板厂家。 生益、建滔。 52、示波器铭牌一般都会标识两个参数,比如泰克 TDS1002B 示波器标识的 60MHz 和 1GS/s,请解释这两个参数的含义。 60MHz 是指示波器的带宽,即正常可以测量 60MHz 频率以下的信号。 1GS/s 是指示…

鲲鹏920s 32核处理器linpack性能调优

1、BIOS参数调优 BIOS选项 设置值 Power Policy Performance Stream Write Mode Allocate share LLC CPU Prefetching Configuration Enabled Custom Refresh Rate 64ms Die Interleaving Disabled NUMA Enable SSBS Support Disabled 2、benchmark参数调优 主…

vue项目将px转成其他单位,如rem、cqw,postcss-pxtorem的使用

安装插件 新建配置文件.postcssrc.js // module.exports { // "plugins": { // "postcss-pxtorem": { // rootValue: 1,//必须和rem的初始值一致 // propList: [*], // // selectorBlackList: [ // // ant…

计算函数(c语言)

1.描述 //小乐乐学会了自定义函数,BoBo老师给他出了个问题,根据以下公式计算m的值。 // //其中 max3函数为计算三个数的最大值,如: max3(1, 2, 3) 返回结果为3。 //输入描述: //一行,输入三个整数&#xff…

3的幂计算

给定一个整数,写一个函数来判断它是否是 3 的幂次方。如果是,返回 true ;否则,返回 false 。 整数 n 是 3 的幂次方需满足:存在整数 x 使得 n 3x。 示例 1: 输入:n 27 输出:tru…

SpringCloud天机学堂:学习计划与进度(四)

SpringCloud天机学堂:学习计划与进度(四) 文章目录 SpringCloud天机学堂:学习计划与进度(四)1、业务接口统计2、实现接口2.1、查询学习记录2.2、提交学习记录2.3、创建学习计划2.4、查询学习计划进度 1、业…

从零掌握keepalived合集

文章目录 keepalived简介keepalived部署keepalived基础设置主配置文件修改独立子配置文件实现实现日志分离 企业应用实例抢占式与非抢占式抢占式非抢占式 VIP单波配置消息通知脚本配置 实现IPVS高可用keepalivedlvs实现keepaliveshaproxy实现 keepalived简介 keepalived基于VR…

GAMES104:07游戏中渲染管线、后处理和其他的一切-学习笔记

文章目录 前言一,Ambient Occlusion环境光遮蔽1.1 Precomputed AO1.2 Screen Space Ambient Occlusion(SSAO)1.3 Horizon-based Ambient Occlusion(HBAO)1.4 Ground Truth-based Ambient Occlusion(GTAO)1.5 Rat-Tracing Ambient Occlusion 二,雾效2.1 D…

Java MessagePack序列化工具(适配Unity)

Java MessagePack序列化工具(适配Unity) 前言项目代码编写 结 前言 前后端统一用MessagePack,结果序列化的结果不一样,发现C#侧需要给每个类增加描述字段数量的Head,而Java却不用,所以在Java侧封装一下序列…

51系列LY-51S出现下载失败·的解法

1.他的下载电路是特殊设计的 一般连接1,2,另外的接口2,3一般不接,而且2,3的功能是用来diy自动下载电路的,你接上2,3又没独特的下载电路会一直复位

进程池详解

目录 进程池 1、什么是进程池? 2、实现进程池 (1)相关函数: pipe函数: write函数 read函数 waitpid函数 (2)代码实现面向过程进程池 Task.hpp processPool.cc 3、注意事项 进程池 …

坚鹏讲人才第12期:引领数字化未来—数字化人才与导师共赢之路

坚鹏讲人才第12期:引领数字化未来—数字化人才与导师共赢之路 ——抢占名额先机 成为坚鹏弟子 加速数字化转型 数字化浪潮汹涌而至,你是否感到迷茫、困惑、焦虑?想不想一脚油门冲进未来,和我一同探寻数字化人才的奥秘&#xf…

【迅为电子】RK3568驱动指南|第十七篇 串口-第202章 串口编程

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…

计算机毕业设计选什么题目好?基于vue的音乐播放系统

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…

LangGraph Studio:首款智能体(agent)IDE

0 前言 LangGraph Studio 提供了一个专门的智能体IDE,用于可视化、交互和调试复杂的智能体应用程序。本文来了解如何在桌面使用。 LLM为新型智能体应用程序的发展铺平了道路——随这些应用程序演进,开发它们所需工具也必须不断改进。今天推出的 LangG…

C++(10)类语法分析(1)

C(10)之类语法分析(1) Author: Once Day Date: 2024年8月17日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: 源码分析_Once-Day的博客-CSDN博客 …

JavaFX布局-DialogPane

JavaFX布局-DialogPane 常用属性标题区域headerTextheader 内容区域contentTextcontent graphic按钮设置expandableContent 实现方式Java实现 一个特殊的布局容器,常用于弹出框,与Dialog配合一起使用包含标题区,内容区域,扩展区域…

Merkle树(Merkle Tree):高效地验证某个数据块是否包含在数据集中

目录 Merkle树(Merkle Tree) 一、基本结构 二、构建过程 三、主要作用 四、应用领域 Merkle树(Merkle Tree) Merkle树(Merkle Tree),也被称为默克尔树或Merkle哈希树,是一种基于哈希的数据结构,主要用于验证大规模数据集的完整性和一致性。它的名字来源于其发明…

【Unity教程】使用 Animation Rigging实现IK制作程序化的动画

在 Unity 开发中,为角色创建逼真且自适应的动画是提升游戏体验的关键。在本教程中,我们将结合 Animation Rigging 工具和 IK(Inverse Kinematics,反向运动学)插件来实现程序化的动画。 视频教程可以参考b战大佬的视频 …