确认TOP/BOT链和A/B等位基因的基本规则

由于DNA链的定义和方向会随着数据库或者参考基因组版本的不同(比如NCBI基因版本更新)而不同,这就为确定SNP的DNA链和碱基信息造成了挑战。为解决这个问题,Illumina定义了基于序列内容的方式来定义DNA链方向的top/bottom (TOP/BOT)链和A/B等位基因命名规则,这种命名规则得以不用考虑所参考的数据库和基因组版本。

1: 明确的SNPs, 例如 [A/ (G or C)] 或者 [T/ (G or C)]

对于非 [A/T] 或[G/C]的SNPs:A永远定义成在Top链上,T永远定义成在Bottom链上。A和T碱基定义成“A等位基因”,G和C碱基定义成“B等位基因”。

2: 不明确的 SNPs, 例如 [A/T] or [G/C]

针对[A/T]或者[G/C]的SNPs:使用序列往5’端及3’端 移步的方式确定TOP/BOT链,然后定义A/B等位基因。

A. 使用序列往5’端及3’端移步的方法来指定链:

1)首先, 把SNP的位置定义为 “n” 。位置n的上游5'端和下游3’端各1个的碱基位置则为 “n-1” 和 “n+1” 。n上游5’端和下游3’端各2个的碱基位置则为 “n-2” 和 “n+2” 。以此类推。

2)检测 “n-1” | “n+1” ,是否是一个明确的SNPs组合对?即其中一个是A或T另外一个是G或C。

a. 如果不是,继续检测n-2|n+2。如果有必要的话,继续往前5’端往后3’端序列移步的方法直到找到一个n-x|n+x对,即其中一个是A或T另外一个是G或C。然后继续步骤A2b。

b. 如果是的话,那么 “A”或“T”是在不明确SNP位置(“n”)的5’端还是 3’端?

如果是5’端,该链是TOP链。

如果是3’端,该链是BOT链。

B. 定义核酸名称为A等位基因或B等位基因

针对TOP链:如果是[A/T]类的SNPs,A等位基因=“A”,B等位基因=“T”。 如果是[G/C] 类的SNPs,A等位基因 = “C” ,B等位基因 = “G”。

针对BOT链:如果是[A/T]类的SNPs,A等位基因=“T”,B等位基因=“A”。 如果是[G/C] 类的SNPs,A等位基因 = “G” ,B等位基因 = “C”。

更多信息,请参考技术文档“TOP/BOT” Strand and “A/B” Allele

Last updated

© 2023 Illumina, Inc. All rights reserved. All trademarks are the property of Illumina, Inc. or their respective owners. Trademark information: illumina.com/company/legal.html. Privacy policy: illumina.com/company/legal/privacy.html