文章目录
- 第三章 基因、基因组及基因组学
- 第一节 基因
- 1 基因认识的三个阶段
- 2 基因的特征
- (1)跳跃基因
- (2)断裂基因
- 3 基因的分类
- 4 基因的结构
- 5 基因的大小
- 6 基因的数目
- 第二节 基因组
- 1 基因组的概念
- 2 噬菌体基因组
- 3 细菌基因组
- 以大肠杆菌(原核生物的代表)为研究对象
- 4 酵母基因组
- 以酵母(真核生物的代表)为研究对象
- 5 植物基因组
- 6 人类基因组
- 7 小鼠基因组
- 8 细胞器基因组
- 9 基因组大小和C值矛盾
- 第三节 基因组学
第三章 基因、基因组及基因组学
第一节 基因
1 基因认识的三个阶段
-
基因的染色体遗传学阶段
- Mendel:生物的每一种性状都是由遗传因子控制的,这些因子可以从亲代到子代,代代相传。
- 1909年,丹麦遗传学家 W. Johannsen 首先使用
“基因”一词。 - Morgan提出基因学说:种质必须由独立的要素组成,
我们把这些要素称为遗传因子,或者简单地称为基因。 - 该阶段定义:基因是位于染色体上的、控制遗传性状的、可遗传的独立要素。
-
基因的分子生物学阶段
-
此时,随着对DNA的了解,进入了分子生物学阶段,从分子的水平上去了解基因的结构
-
Avery等人证明基因的化学本质是DNA。
-
Waston等人阐明DNA的双螺旋结构。
-
1941年 Beeadle 和 Tatum 提出了“一个基因一个酶的假说(one gene : one enzyme hypothesis)认为:基因是一个DNA片段,负责编码一个蛋白酶(蛋白质)。当一种蛋白质是由异源亚基构成
时,该假说应修正为“一个基因一条多肽链“ -
目前基因的定义:基因是能够表达和产生基因产物(蛋白质或RNA)的核苷酸序列。包括编码序列、调控序列、内含子和编码区两端的非编码序列。
-
基因的概念也在接受新的挑战
-
最近几年的研究发现基因的调控区并不一定与编码区相邻,甚至不一定在同一个DNA分子或同一个染色体上。Spilianakis等人发现位于10号染色体上的Y-干扰素基因的辰动子区,与11号染色体上的TH2细胞因子的调控区,在细胞核内相互邻近而可能受到共同调节。
认为基因有明确的边界这一概念也正在受到挑战,有证据显示两个编码不同的蛋白质产物的邻近基因,可以共同产生融合蛋白。虽然还不知道这类融合蛋白是否有功能,但是这种现象确实并不罕见。有些蛋白质甚至可以由来自相距甚远的区域或不同染色体的外显子组成。这些新证据可能导致全新的基因概念:编码一套相关的功能产物的基因组序列单元。新的定义根据功能产物(蛋白质或RNA)而不是特定的DNA位点来分类基因,所有的DNA元件都归类为基因相关区域。
-
-
基因的反向生物学阶段
- 传统生物学:从表型到基因。
- 反向生物学:从基因到表型。
- 现在,可以用各种方法分离天然基因,也可以通过化学方法有目的的合成或设计、改造基因。
2 基因的特征
(1)跳跃基因
jumping gene; or movable gene(移动基因)
- 是一些可以在染色体基因组上从一个位置转移到另—个位置,甚至在不同染色体之间跃迁的DNA成分。
- 像这样DNA序列在基因组中的位置发生转移的现象称为转座(transposition)
- 这样的DNA序列称为转座子(transposon)或者转座元件 (transposable element)
(2)断裂基因
spliting gene;
真核基因的核苷酸序列中间有与氨基酸编码无关的DNA间隔区,使一个基因分隔成不连续的若干区段。这种编码序列不连续的间断基因称为断裂基因/不连续基因。
形成环的就是内含子
事实上,除了编码蛋白质的核基因DNA可能是断裂基因,其他很多。一些编码RNA、tRNA的也有可能是断裂基因
到1977年末已经非常清楚地认识到断裂基因是高等核生物中普遍存在的现象。
不仅真核生物中编码蛋白质的核基因多数是断裂基
因,编码FRNA或tRNA的核基因也可能是断裂基因。
植物和低等真核生物的细胞器基因组如酵母中的线
粒体基因、植物中的叶绿体基因也可能是断裂基
因。
甚至在某些古细菌和大肠杆菌噬菌体中也发现了断
裂基因。
但是真细菌基因组中一般不含断裂基因。
- 关于内含子
- 一些总结
- 绝大多数真核生物的基因是断裂基因。
- 少数真核生物基因没有内含子(组蛋白、干扰素)。
- 少数原核生物(T4噬菌体)中也存在断裂基因。
- 并非所有内含子都“不显”,有些可以编码蛋自质。(如编码拼接因子、转座酶等)
- 并非所有外显子都“显”,有些不编码氨基酸。(如人尿激酶基因的第一个外显子的88个核苷酸)
- 一般来说
- 低等的真核生物内含子数目少、序列短;
- 高等的真核生物内含子数目多、序列长。
- 有关内含子的起源和内含子存在的生物学意义目前还不完全清楚。
- 假基因
pseudogene:
-
核苷酸序列与其相应的正常功能基因基本相同、但却不能合成出功能蛋白质的失活基因,通常用 表示
-
现已在大多数真核生物中发现了假基因的存在。
-
据估计,人类基因组中含有约 2万个假基因。
-
假基因的主要特征在于其与已知基因的同源性
(homology)和非功能性。 -
假基因的鉴定一般比较困难,通常通过序列比对来
确定是否满足两个条件 (40%~100%)。 -
假基因的三种主要类型
- 假基因可能使分子遗传学的研究更复杂,比如在通过PCR扩增基因时,可能扩增了序列相似的假基因。
- 由于假基因的鉴定主要依赖于利用复杂的算法(algorithms)对基因组序列进行计算机分析,因而可能会有误判。
- 重叠基因
overlapping genes
不同基因的核苷酸序列有时是可以共用的,即这些基因的核苷酸序列是彼此重叠的,这样的基因称为重叠基因或嵌套基因 (nestedgenes)
使有限的DNA序列包含了更多的遗传信息,是生物对它的遗传物质经济而合理的利用。
-
刚开始认为是低等生物,对碱基的充分利用,但后来发现,在真核生物中,重叠基因也不少,说明可能没有那么简单
-
1986年Henikpff、Spencer在果蝇的基因组中也发现了基因重叠现象。
-
不仅存在于细菌、病毒等原核生物基因中,也存在
于高等真核生物基因组中; -
不仅存在于两个基因之间的二重重叠,也有存在于
三个基因之间的三重重叠;不仅存在于编码序列
中,也存在于调控序列中。 -
基因重叠可能不仅是为了更经济有效的利用DNA遗
传信息,也可能参与基因的调控。
- 基因家族
根据基因家族成员的分布形式不同,分为:
-
基因簇
-
基因家族的各成员紧密成簇排列成大段的串联重复单位,定位于染色体的特殊区域。它们是同一个祖先基因扩增的产物。
-
如人类类a链基因簇和类B 链基因簇:
-
-
散布的基因家族
- 基因家族成员在DNA上无明显的物理联系,甚至分散在多条染色体上。如肌动蛋白基因家族和微管蛋自基因家族
-
分类,根据基因家族成员之间序列的相似程度,分为:
- 序列高度同源的经典基因家族
- 含有高度保守序列的基因家族
- 含有短的保守序列的基因家族
- 序列没有同源性的超基因家族
- 重复基因/序列
定义:染色体上存在多个拷贝的基因,主要存在于真核生物基因组中,这些基因往往是与生命活动最基本、最重要的功能相关的基因,如组蛋白基因、rRNA基因、tRNA基因等。
-
组蛋白基因
-
组蛋白基因是已知的重复基因中唯一具有蛋白质编码机能的基因。
-
不同生物基因组中组蛋白基因的拷贝数不同。
-
组蛋白基因在不同生物基因组中的排列方式不一样。
-
所有组蛋白基因都不含内含子,而且保守性很高。
-
这一切都是为了简化,能在短时间内大量合成
-
-
重复序列
- 重复序列比重复基因概念大,因为不是所有的序列都能编码基因
- 重复基因属于重复序列;
- 在低等真核生物中,重复序列的比例一般低于20%。
- 在高等真核生物中,这一比例可以达到50%-80%。
- 分为:
- 中度重复序列:由相对较短的序列组成,重复次数在10~1000次,一般是非编码序列,主要在基因调控中起作用。
- 高度重复序列:由非常短的序列(小于100 bp)组成,重复次数在上千到上百万次,有些是编码基因,如rRNA基因和某些tRNA基因; 多数则是没有转录活性的非编码序列。
-
重复序列也可以按照在染色体上的排列方式分为:
- 串联重复序列:成簇存在于染色体的特定区域。
- 散布的重复序列:分散存在于染色体的各个位点
- 短散布元件
- 长散布元件
- 微卫星DNA
- 微卫星DNA具有多态性和保守性,可用作分子遗传标记,广泛用于基因定位、连锁分析、亲子鉴定等。
- 目前普遍认为微卫星DNA来源于DNA复制过程中的滑动错配,导致一个或几个重复单位的缺失或插入。
- 微卫星DNA在基因组中的功能尚不清楚,可能参与染色体结构改变、基因调控及细胞分化等过程。
3 基因的分类
- 根据基因的功能不同,可以分为两大类:
- 结构基因:能够表达出功能产物的基因,包括编码蛋白质的基因和编码RNA的基因
- 调控基因:参与调控结构基因表达的DNA或RNA序列单元。
4 基因的结构
- 原核生物编码区一般是连续的,真核是断裂的
- 相似和区别
- 真核一个dna分子编码一个基因产物,单顺
5 基因的大小
蛋白质的平均分子量:40,000D
氨基酸的平均分子量:100D
每个蛋白质分子中的平均氨基酸数:400 aa
基因的平均大小:1200bp
这个大小更多取决于内含子,而不是外显子
6 基因的数目
the number of
genes in a given DNA= bp/1200
- 根据基因组大小计算;
- 通过基因分离鉴定:
- 通过测序鉴定ORF:
- 计算表达基因数目:
- 通过突变分析;
实际上目前测出来都是有很大误差的
目前人类基因组中基因大概是2万5到3万
- 一般而言,生物体基因组大小和所含的基因数随着生物体结构功能复杂性的增加而增加。
- 当然也有例外
- 基因数目的多少并不一定决定生物的复杂性和进化程度的高低,决定生物复杂性的根本原因在于,基因是如何表达和管理的。(也是我们想搞清楚的)
- N值矛盾:生物体的复杂性与基因数之间并不总是正相关。
- K值矛盾:生物体的复杂性与染色体数之间并不总是正相关。
第二节 基因组
1 基因组的概念
-
基因组 (genome)一词最早由德国汉堡大学的植物学教授Hans Winkler于1920年提出,由基因(gene)和染色体 (chromosome)组合而成。
-
最初基因组被定义为一个单倍体细胞中的全套染色体,现代分子生物学和遗传学则将基因组定义为一个生物体中的所有遗传信息,由DNA或者RNA编码,包括所有的基因和非编码序列。
-
实际应用中,基因组这个概念既可以特指储存在细胞核中的整套DNA(即核基因组),也可以指储存在细胞器中的整套DNA(即线粒体基因组或叶绿体基因组),还可以包括一些非染色体的遗传元件,如病毒、质粒和转座元件等。
2 噬菌体基因组
平时研究主要分为原核生物和真核生物,减少一下模式生物
原核生物:噬菌体,以细菌为宿主,所以归入原核生物
真核生物:主要用酵母和真核生物的病毒(以真核生物)
- 一般是双链DNA,感染宿主后会自身环化,是复制的状态
3 细菌基因组
包括两类DNA分子
染色体一携带细胞生存和繁殖所需的全部遗传信息;质粒一染色体以外独立存在的DNA分子;
- 原核生物一般只有一个染色体,但在不同生长条件下,染色体可以有多个拷贝。
- 质粒所携带的遗传信息井非细胞生存必需,质粒的存在与否对宿主细胞生存没有决定性的作用。(是一个好的载体,可以把外源的信息带到细菌中)
以大肠杆菌(原核生物的代表)为研究对象
- 没有明显的核结构,而形成2-4个DNA相对集中的区域,即类核;
- 1997年完成第一个完整的大肠杆菌DNA序列(E. coli K12菌株);
- 染色体DNA是一个由4.6X100bp组成的双链环状分子,包含4288个编码蛋白质的基因(整合成2584个操纵子)、7个rRNA操纵子、86个tRNA基因:
- 多种DNA结合蛋白使染色体压缩成一个脚手架(scaffold)结构,分成大约100个小区 (domain).
- 其性质
- 蛋白质基因通常以单拷贝形式存在,而RNA基因通常是多拷贝的。
- 功能相关的基因通常串联排列,以操纵子为单位进行表达调控。
- 不同的操纵子可以受同一个调节基因产物的调控,构成调控元。
- 基因组中的基因密度非常高,基因间的平均间隔仅为118 bp。
- 基因组中含有大量转座元件、重复序列、原噬菌体和噬菌体残留序列。
- 现在已有超过60种大肠杆菌菌株的基因组序列被测定;
- 不同菌株间的基因组序列差异非常大,只有约20%的序列是存在于所有基因组中的,其余
80%的序列在不同基因组中变化很大; - 每一个基因组包含4000到5500个基因.
4 酵母基因组
以酵母(真核生物的代表)为研究对象
-
初步了解
-
酵母的遗传物质包含:细胞核DNA、线粒体DNA、以及质粒DNA;
-
1996年4月,第一个被测定的真核生物全长基因组:酿酒酵母 (Saccbarommyces cerevisiae)基因组测序完成:
-
12068 kb;5885个开放阅读框,平均长度1450bp;
-
基因排列紧密,基因间隔区较短且内含子较少:
-
-
酵母基因组特征
- 核DNA序列的GC含量不均一,GC含量高的区域一般位于染色体臂的中部,基因密度较高;GC含量低的区域一般靠近端粒和着丝粒,基因数目较为贫乏。
- 含有许多DNA重复序列,包括染色体末端重复序列、散布的单基因重复和成簇分布的基因重复区。
-
其他
- 至少有31%的编码蛋白质的基因或者开放阅读框与哺乳动物编码蛋白质的基因高度同源。
- 同源性往往仅限于单个的结构域而非整个蛋白质,这反映了在蛋白质进化过程中功能结构域发生了重排。
- 特别适合作为人类基因组研究的模式生物
5 植物基因组
-
拟南芥基因组
-
2000年12月,第一个植物基因组,十字花科植物拟南芥 (Arabidopsis thal iana) 的基因组测序完成。
-
拟南芥基因组较小,生活周期短,易于进行遗传学实验操作,是植物分子生物学研究的重要模式生物。
-
-
水稻基因组
- 2002年4月美国《Science》杂志发表了由中国12家科研单位共同完成水稻籼稻亚型的基因组测序;
- 基因组全长466Mb=4.66x108bp,含有46022-55615个基因:
- 是继拟南芥基因组之后完成测定的最大的植物
基因组。
-
水稻基因组特征
- 基因总数在4万左右,几乎是人类基因组基因总数的两倍:
- 主要通过基因倍增而使基因家族的成员数目增加,但每一成员的功能比较单一:
- 基因的平均长度只有4500个碱基,而人类基因的平均长度为72000个碱基:
6 人类基因组
-
人类基因组计划
- 研究策略
- mapping then sequencing(clone by clone) ------Francis Collins;
- 各国联合的
- 把染色体上每个部分都标清楚了再(克隆)测序
- shortgun sequencing------Craig Venter;
- 一个私人公司想出来的
- 鸟枪法,把DNA分成好几个片段测序,然后再用生物信息学的方法,进行拼接
- 这两种方法都能成功
- mapping then sequencing(clone by clone) ------Francis Collins;
- 研究策略
-
最后得到的信息
- 实际所测序列全长2851 330 913bp,约2.85Gb;
- 其中有22287个编码蛋白质的基因,包括19438个己知基因、2188个预测基因:
- 可以产生34 214个转录物,平均每个基因可以产生1.5个转录物,说明大量基因存在选择性拼接:
- 共有231 667个外显子,平均每个基因有10.4个外显子,所有基因外显子序列的总和约为34 Mb,仅占人类基因组常染色质的1.2%;
- 另外还有几千个编码各种RNA产物的基因,其余大多数序列的功能仍然未知。
-
还有一些结论
- 人类基因组中包含大量重复序列,这些序列可能是产生新的灵长类特异基因的基础
- 人类基因组约一半的序列源于转座元件,但大多数转座子处于非活性状态;
- 人类基因组中有许多基因来自细菌的水平转移,因此,人类基因组的形成并不完全源自内部基因的突变和重排,也源自外部基因的引入。
-
以22号染色体为例介绍
- 1999年底完成;
- 短臂(22p)为纯异染色质,被认为是基因空白区:
- 长臂(22q) 总长度为34 491 kb,完成序列测定的
长度占总长度的97%。含679个注释基因;包括247个
已知基因、150个相关基因、148个预测基因和134个
假基因: - 所有注释基因占全长的39%(含内含子),外显子仅占全长的3%:
- 22q中重复序列占41%;包括大量Alu序列和LINEs。
-
21号染色体
- 2000年完成:最小的常染色体;
- 实际测定的序列长度为33.55 Mb,
- 短臂(21p) 281kb,可能仅有1个基因:
- 长臂(21q)284个注释基因;包括127个己知基因、98个预测基因、59个假基因:
- 与唐氏综合症、阿尔茨海默病、肌菱缩性脊髓侧
索硬化症等遗传性疾病相关。
-
X染色体
- 2005年完成;
- 全长155Mb,151Mb完成序列测定
- 含有1798个注释基因,其中包括700个假基因:173个非编码RNA (ncRNA)、2个tRNA基因、13个microRNA;
- 富含L1元件:可能与X染色体的基因沉默有关;
- 与血友病、杜兴氏肌营养不良症等伴性遗传病相关
;10%的单基因遗传病定位于x染色体。 - XISTRNA
- 其中最引人注目的ncRNA可能是32kb的XISTRNA(X非活性特异性转录物RNA),它在女性X染色体失活中起重要作用。
- XIST RNA通过覆盖X染色体而导致女性一条X染色体上大多数基因的沉默,这种沉默作用属于顺式作用,即只在同一条染色体上发挥作用,在有活性的另一条X染色体上,XIST基因是关闭的。
7 小鼠基因组
生物医学研究最重要的动物模型;
-
为什么重要
- 人与小鼠有99%的基因相同;
- 只有300个基因是特异的;
-
所以对医学重要
8 细胞器基因组
-
绝大多数为环状,少数低等真核生物为线性分子:
-
线粒体DNA为几十kb,叶绿体可达二百多kb;
-
细胞器基因组编码自身所需的菜些蛋白质、RNA和rRNA;
-
有自己的蛋白质合成体系;(其跟细菌的体系较为相似,所以有假说称细胞器是生物进化中,吞进来的原核生物)
-
有些蛋白质由核基因编码:
-
特征
- DNA利用效率极高;基因排列精密,间隔区只占DNA总长度的0.5%;有重叠基因。
- 有特殊的终止密码子;AGA或AGG(核基因中编码Arg)
9 基因组大小和C值矛盾
-
C值(C-value)
-
一个单倍体细胞中基因组所包含的DNA碱基对总数。
-
对于同一种生物体而言,C值是相对恒定的:
-
不同生物体C值差异很大,从 1 0 4 b p 10^{4}bp 104bp到 1 0 11 b p 10^{11}bp 1011bp不等;
-
-
-
生物体的结构功能越复杂,其C值越大;
-
低等真核生物中,C值与物种的结构和功能复杂性之间呈正相关
-
有些结构功能相似的生物体,其C值相差很大;
-
有些真核生物,特别是高等真核生物的C值与生物体的结构功能复杂性不相关;
-
-
C值矛盾
- 与预期的编码蛋白质的基因数量相比,基因组的DNA含量过多;
- 一些物种的C值与生物体的结构功能复杂性不是正相关;
第三节 基因组学
- 研究整个基因组的结构和功能的学科。
- 包含两方面的内容:
- 以全基因组测序为目标的结构基因组学,structural genomics
- 以基因组功能研究为目标的功能基因组学,functional genomics
- 结构已经测完了,但是功能我们还不知道,所以目前主要在功能基因组学
- 功能基因组学
- 转录组学 (transcriptomics)
- 研究基因在RNA水平的表达模式(是否表达以及表达的量)
- 特定细胞特定条件,基因的转录情况
- 蛋自组学 ( proteomics)
- 研究所有蛋白质的结构和功能称为蛋白质组学
- 大规模研究所有蛋白质功能
- 研究就是研究全部的RNA和蛋白质。所以需要高通量的测定,比如各种DNARNA的芯片、二维电泳。这些都离不开生物信息学,因此也多了很多很多组学,从个体到了整体
- 转录组学 (transcriptomics)