原核生物只有一個染色體,它包括該生物的全套基因,構(gòu)成該生物的基因組。真核生物比較復(fù)雜,能體現(xiàn)正常細(xì)胞功能的整套染色體中的全部基因就是真核生物的基因組。生物隨進(jìn)化程度的增加,基因組的DNA量隨之增加,但也有例外。人類進(jìn)化程度最高,最復(fù)雜,其單倍體基因組DNA長度為3×109 bp,包含有大約2萬~3萬個基因?;蚪MDNA經(jīng)過組裝形成23條染色體,每條染色體DNA長度約5.5 x l07 bp~25×l07 bp。在人基因組DNA中,基因以及與基因有關(guān)的序列占20%~30%,基因外的序列占70%~80%。一個基因組DNA能攜帶多少遺傳信息,多大的基因組才能攜帶機(jī)體所有的遺傳信息?各種生物所需要的遺傳信息量不同,高等生物的蛋白質(zhì)種類多,基因數(shù)也就多。假定平均lkb DNA編碼一種蛋白質(zhì),人類基因組總DNA量足可以編碼300萬個基因,但真正的基因數(shù)只有不到3萬個,所以人類基因組中非編碼DNA占了大部分,例如:間隔序列,內(nèi)含子插入序列,以及與基因表達(dá)有關(guān)的調(diào)控序列等,另外還有大量尚不知功能的序列。如果按照每個蛋白質(zhì)編碼需要lkb,10萬個蛋白基因編碼則需要10萬kb,在人類基因組3×l09 bp中,實際編碼率只有3%。
1.重復(fù)序列
真核生物基因組的一個顯著特點就是含有大量的重復(fù)序列,據(jù)估算,人基因組中重復(fù)DNA大約占30%。這些重復(fù)序列長短不一,短的僅有幾個甚至2個核苷酸,長的有幾百乃至上千個核苷酸。重復(fù)次數(shù)相差極大,從幾次到幾百萬次不等,按重復(fù)頻度可以分高度重復(fù)序列,中度重復(fù)序列和單拷貝序列。按重復(fù)方式大致可分串聯(lián)重復(fù)和散布重復(fù)兩類。串聯(lián)重復(fù)DNA又叫作衛(wèi)星DNA(satellite DNA),按重復(fù)單位長度人為地分為大衛(wèi)星DNA,小衛(wèi)星DNA和微衛(wèi)星DNA。有些重復(fù)DNA序列呈現(xiàn)高度多態(tài)性,是彤成DNA片段長度多態(tài)性的重要機(jī)制。
2.多基因家族
多基因家族指一組具有類似功能,堿基序列有同源性的基因。多基因家族是真核生物基因組一個特征,家族成員序列同源性說明它們是進(jìn)化過程中由同一祖先基因擴(kuò)增而來?;蚣易逵写笥行。瑥膸讉€到數(shù)十個,少數(shù)甚至達(dá)幾百個,后者叫超級基因家族。按照基因的終產(chǎn)物,多基因家族可以分編碼RNA和編碼蛋白質(zhì)兩大類?;蚣易宄霈F(xiàn)的方式有3種:(1)同一家族基因出現(xiàn)在同一染色體座位,如生長激素基因的5個成員同位于17號染色體。(2)各成員分別出現(xiàn)在不同基因座,如醛縮酶基因家族的5個成員各分布在不同染色體。(3) 一個家族基因分成幾個簇,分布多個染色體。有些基因可以出現(xiàn)多個拷貝,以幾乎完全相同序列串聯(lián)排列,在同一染色體上形成一個基因簇,不同染色體上的基因簇可以同時發(fā)揮作用,合成RNA或翻譯為蛋白質(zhì),例如:rRNA,tRNA,組蛋白基因等。
3.假基因
由一共同祖先基因擴(kuò)增形成基因家族,其中有部分在擴(kuò)增過程中可能發(fā)生片段的丟失,或去除了某些調(diào)控信號,不再具有轉(zhuǎn)錄功能,或去除了拼接加工信號,轉(zhuǎn)錄產(chǎn)物不能正確拼 接,或在編碼區(qū)產(chǎn)生終止信號,產(chǎn)生不完整的肽鏈,因此,都不能產(chǎn)生有功能的mRNA。基因組中的這一類喪失功能的擴(kuò)增基因叫做假基因( pseudogene)??梢哉J(rèn)為假基因是一種進(jìn)化的殘留物,有作者估計哺乳動物基因中約有1/4是假基因。某些假基因與相應(yīng)的編碼基因差別微小但又十分明顯,假基因沒有增強(qiáng)子序列,卻具備了mRNA典型的3′端多聚腺苷酸順序。雖然有認(rèn)為假基因可能會演變?yōu)樾鹿δ艿幕?,但由于它們逐漸擺脫了來自自然選擇的壓力,使它們積累并保留了某些堿基的變異。
4.轉(zhuǎn)位因子
轉(zhuǎn)位因子( transposon)又叫可移動DNA成分,是指DNA分子內(nèi)或者DNA分子之間進(jìn)行轉(zhuǎn)移的DNA片段。轉(zhuǎn)移因子在轉(zhuǎn)移后仍保留原位置上的DNA序列,只是把一個新合成的復(fù)本插入到另外的位置上,并可以經(jīng)過配子細(xì)胞由一代傳給下一代。典型的轉(zhuǎn)位因子一般有2部分序列,一種是促進(jìn)轉(zhuǎn)位的蛋白質(zhì)基因,另一個是具有轉(zhuǎn)位因子兩端的重復(fù)序列,同屬順向重復(fù)序列。轉(zhuǎn)位過程中,在靶麈位形成短的(20bp以下)順向DNA序列重復(fù)單位是轉(zhuǎn)位因子的主要特征。該重復(fù)單位由原來基因組序列衍生而來,位于轉(zhuǎn)位因子的兩端。轉(zhuǎn)位因子插入的地方是多變的,它可以插入基因的外顯子、內(nèi)含子,也可插入在基因編碼區(qū)的兩翼序列中。某些散布重復(fù)序列如Alu家族的側(cè)翼均連有順向重復(fù)單位,強(qiáng)烈暗示此類序列可能是由類似轉(zhuǎn)位的方式插入并分布在人基因組中。
5.增強(qiáng)子序列
增強(qiáng)子( enhancer)是一種典型的非編碼DNA,它可以使附近某基因轉(zhuǎn)錄率提高數(shù)百倍,增強(qiáng)子可以相距數(shù)千堿基之外對基因轉(zhuǎn)錄實現(xiàn)遙控,使啟動子更容易受RNA聚合酶的作用增加酶轉(zhuǎn)錄效率。目前已有數(shù)千個增強(qiáng)子在人類基因組定位。
6.片段基因
在非編碼序列中還有一類失去活性的基因叫片段基因(gene fragments),可能是因為原基因的缺失突變或重組丟失了基因的5′端或者3′端,最終失去了轉(zhuǎn)錄功能。