专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
相关文章推荐
医脉通临床指南  ·  蛇咬伤应该如何处理?动物、昆虫致伤的指南、共 ... ·  23 小时前  
蒲公英Ouryao  ·  江苏省药监局审评核查南京分中心招聘来了 ·  22 小时前  
放射药物科学  ·  第九届“新型核医学分子探针”学习班 日程安排 ·  23 小时前  
放射药物科学  ·  第九届“新型核医学分子探针”学习班 日程安排 ·  23 小时前  
51好读  ›  专栏  ›  生信百科

群体基因组学之分析流程介绍

生信百科  · 公众号  · 医学  · 2017-06-29 06:37

正文

请到「今天看啥」查看全文



  • 检查测序数据是否含有过多的接头序列或者其他非目的序列,这些序列可能会影响到 mapping 质量,需要在 mapping 前去除;

  • 是否有较高比例的重复序列等。

  • 了解这些信息以后,我们才能更好地决定后续的质控策略。

    如何质控?

    1. 了解 fastq 格式

    我们从公司得到的数据一般是原始数据 (Raw data),有时候也会有 clean data,不过公司在过滤时设置的参数往往不是很严格,我们最好从原始数据开始分析。Illumina 测序得到的原始数据为 fastq 格式,我们先来了解一下它的基本格式:

    图2 Fastq的基本格式

    测序得到的每一条序列包括 4 行,在自己边写脚本进行数据处理时,最好 4 行为一个单位进行处理。我们先来看一下每一行的含义:

    • 第一行    '@' 和序列 ID

    • 第二行    测序得到的序列

    • 第三行    '+'

    • 第四行    序列对应的质量值

    其中第一行中序列 ID 包含的信息为:


    字符串 含义






    请到「今天看啥」查看全文