other

TCGA barcode 解析

Jeason

611字约2分钟

TCGA

2019-09-19

接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的7个编码信息,每个编码信息用横杠-隔开,如下所示:

接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的前15位(有时12位),实际从上图可以看出TCGA的barcode设计总共有28位之多。

每一个短横杠衔接的都是含不同意义的序列,如下图

图中总结了TCGA中从样品到数据处理流程:

BCR从TSS收到参与者的样本和他们相关的元数据。然后BCRs分配人可读的IDs(barcode),也就是TCGA barcode给参与者的元数据和样本。TCGA barcode用来把扩展到整个TCGA网络中的数据联系在一起,因为IDs可以唯一识别一个特定样本的一组结果。

具体的解释如下表:

LabelIdentifier for解释
ProjectProject name来自哪个项目: 如TCGA、TARGET等等
TSSTissue source site样品来自哪个组织机构:01 代表International Genomics Consortium, 更多见:TSS
ParticipantStudy participant样品唯一编号(可以理解为一个病人唯一编号)
SampleSample type样品来自人体组织类型,01-09表示肿瘤样本,10-19表示normal type,20-29表示control samples,如:01代表Primary Solid Tumor, 更多见:SampleType
VialOrder of sample in a sequence of samples一份样品被分割成好几份,表示第几份,通常是A-Z编号
PortionOrder of portion in a sequence of 100-120 mg sample portions每份样品再分割成不同的小样品:01-99等等编号,代表第几份
AnalyteMolecular type of analyte for analysis实验数据来源分子类型,如R代表 RNA,D代表DNA等等,更多见:Portion / Analyte Codes
PlateOrder of plate in a sequence of 96-well plates96孔序列中板的顺序,4个数字组成
CenterSequencing or characterization center that will receive the aliquot for analysis数据由哪个机构分析:如 01代表The Broad Institute GCC,更多见:Center

其中比较重要的,用于区分样本类型的是 sample。

此外除了上述的barcode还有表示其他信息的barcode,整体的组织形式如下:

下表显示了不同barcode,所代表的不同意义:层次结构级别: