专栏名称: 生信杂谈
生物信息学;生物信息;计算机辅助药物设计;测序分析;Python;R;机器学习;论文写作;网站制作;LOL;dota2。
目录
相关文章推荐
洪观新闻  ·  那不勒斯官宣德布劳内加盟 ·  昨天  
洪观新闻  ·  那不勒斯官宣德布劳内加盟 ·  昨天  
科技美学  ·  vivo X ... ·  昨天  
科技美学  ·  vivo X ... ·  昨天  
互联网那些事  ·  所以,“苏超联赛”的冠军奖品究竟是什么? ·  2 天前  
互联网那些事  ·  所以,“苏超联赛”的冠军奖品究竟是什么? ·  2 天前  
如东新媒体  ·  苏超引入熔断规则! ·  2 天前  
如东新媒体  ·  苏超引入熔断规则! ·  2 天前  
51好读  ›  专栏  ›  生信杂谈

关于人参考基因组fasta文件的组成部分说明

生信杂谈  · 公众号  ·  · 2017-08-17 19:48

正文

请到「今天看啥」查看全文



人基因组fasta注释文件可以分为以下几部分序列:
  1. Primary assembly ,包含以下三部分:

  • Assembled chromosomes : chr1 - chr22 , chrX , chrY chrM 的序列.

  • Unlocalized sequence :以 _random 结尾的序列,表示知道在哪条染色体上,但不知道方向和顺序.

  • Unplaced sequence :以 chrU_ 为前缀的序列,不知道在哪个染色体上.

  1. Alternate contigs, alternate scaffolds或 alternate loci ,以 alt 结尾的序列.用来表征单倍体序列的多样性,这是由于基因组是用单倍体类型表现的,比如 1号染色体 有两条,但 fasta 文件里只有一条的序列,由于基因的多样性(如等位基因)无法通过一条序列表示,所以就有了 alt 序列来补充说明. 但这样的 alt 序列在测序分析 map 的的过程中容易产生 multiple-mapping 低质量的 reads .而GATK的 ZeroMappingQuality 会将这样的reads过滤掉.







请到「今天看啥」查看全文