Jeason
2049字约7分钟
2024-05-11
- 平均基因长度有10Kbp左右,但是不同基因的长度区别很大
- 其余98.5%的区域为非编码区,包括各种调控基因表达的DNA原件,同时也可以转录为non-coding RNA,发挥潜在作用。
自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组。
科学家利用实验手段解析大量的基因和非编码序列,这些序列被标记在参考基因组的位置上,同时加入了大量的注释信息,最终写成了 BED,GTF等不同格式的注释文件。因此,基因组注释文件就把基因序列和基因功能联系起来。
随着时间的推移,在更先进技术的加持下,在已经构建好的基因组和注释信息上不断增加,删减,修改,就有了不同的版本。每个版本的参考基因组都对应相应的基因组注释文件。
为了更加准确的构建标准参考基因组,NCBI,EBI,桑格研究所等机构共同组建了参考基因组联盟(Genome Reference Consortium)。GRC 利用最佳的技术装配,纠正,增加基因组序列,以此作为在生信分析领域作为参考的基因组。目前,该机构构建了人,小鼠,大鼠,斑马鱼,鸡的参考基因组。
人的参考基因组官名叫 GRCh38 (Genome Reference Consortium Human Build 38),GRCh38 在UCSC基因组浏览器中还有个小名 hg38,这个小名对于大多数人来说是更亲切熟悉的。GRCh38 在 GenBank 中叫 GCA_000001405.15,在 RefSeq 中叫 GCF_000001405.26,虽然 GRC 组织建议在所有出版物和工具中使用该编号,但事实是前两种 GRCh38 和 hg38 对生信分析更常见。在不更改染色体坐标的情况下,向参考基因组添加或替换新序列,这种打补丁的方式,会在基因组版本后加 .p
(patch)来命名。如果有大的基因组位置变动,则是大版本的更新,我们一般体到的hg19和hg38就是这种情况。
常用的人和小鼠参考基因组对应列表如下:
发布时间 | 2013 | 2009 | 2006 |
---|---|---|---|
GRC 官名 | GRCh38 | GRCh37 | GRCh36 |
UCSC | hg38 | hg19 | hg18 |
Ensemble | GRCh38 | GRCh37 | GRCh36 |
GENCODE | 38 | 19 | 3c |
NCBI | GRCh38 | GRCh37 | GRCh36 |
GenBank | GCA_000001405 | ||
RefSeq | GCF_000001405 |
发布时间 | 2020 | 2011 | 2007 |
---|---|---|---|
GRC 官名 | GRCm39 | GRCm38 | |
UCSC | m39 | mm10 | mm9 |
Ensemble | GRCm39 | GRCm38 | |
GENCODE | M27 | M25 | M1 |
NCBI | GRCm39 | GRCm38 | NCBIM37 |
人类基因组序列信息通常以染色体为单位保存为fasta文件中。
这是由于参考序列一般是通过二代测序产生的,测得的短Read片段拼接、组装成基因组的染色体序列,需要经历contigs与scaffolds两个过程。在拼接过程中会产生额外的scaffolds信息。
这些scaffolds序列主要可以分为三类:
chr{chromosome number orname}_{sequence_accession}v{sequence_version}_random
, 如:chr11_KI270721v1_random
chrUn_{sequence_accession}v{sequence_version}
, 如:chrUn_KI270302v1
chr{chromosome number or name}_{sequence_accession}v{sequence_version}_alt
, 如:chr1_KI270762v1_alt
Alternate loci scaffolds为hg38版本基因组新添类型Sequence,此前hg19版本还没有。
基因 DNA可分为编码区和非编码区:编码区可转录为 mRNA 并最终翻译成蛋白质;非编码区上具有基因表达的调控元件。
CDS一定是ORF,ORF不一定是CDS
Poly-A尾是mRNA’区别于其它non-coding RNA的主要标志
参考基因组可以从NCBI、ENSEMBL、UCSC等网站下载,此外gencode网站提供了最新最全的人类和小鼠的基因组序列和注释信息。iGenomes网站提供了较为全面的各版本参考序列构建好的注释文件和各类比对软件的索引文件,可直接下载使用。