专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
相关文章推荐
医学界  ·  氯吡格雷+瑞格列奈,这样联合用药有危险! ·  17 小时前  
转化医学网  ·  中国学者攻克头颈鳞癌治疗难题 ... ·  昨天  
51好读  ›  专栏  ›  生信百科

重测序分析流程及分析经验介绍

生信百科  · 公众号  · 医学  · 2017-08-24 06:32

正文

请到「今天看啥」查看全文



  • 运行 bwa index -a bwtsw ref.fa 将得到 ref.fa.amb,ref.fa.ann,ref.fa.bwt,ref.fa.pac,ref.fa.sa 5个文件,这些文件是 BWA mapping 时所必须的。

    对于比较大的基因组,比如火炬松基因组有 22G ,运行时间会超过 10 个小时 (同时也取决于 CPU 的计算能力)。

  • 运行Picard 的 CreateSequenceDictionary 将得到 ref.dict,其描述参考基因组的内容,如下图所示:


    对于比较大或者比较碎的基因组,比如火炬松 22G 基因组,会出现 java 运行错误,提示 java 虚拟机内存不足。 这时,即使改变 java 运行参数 (比如设置 Xmx 等) 也不能正常运行 千万不要耗费时间 这里!

    由于 .dict 文件只是 GATK 必须的,如果你的基因组很大不能建立 .dict, 可以考虑换成 BWA + Samtools + Bcftoos 流程,或者自己写代码生成 .dict 文件。

  • Mapping

    ref=/your/path/to/ref.faecho







    请到「今天看啥」查看全文