正文
1:1-3
ACG
samtools faidx seq.fasta 1:2-4
# 输出如下
>1:2-4
CGC
2. 使用samtools和UCSC浏览器工具从人类参考基因组提取指定坐标的序列
2.1 使用samtools faidx从人类参考基因组提取指定坐标的序列:
samtools faidx hg38.fasta chr1:20000-20010
>chr1:20000-20010
TCCTGGTGCTC
2.2 使用
UCSC浏览器工具从人类参考基因组提取指定坐标的序列
打开UCSC的Get DNA页面:
https://genome.ucsc.edu/cgi-bin/hgc?hgsid=2561378210_0SH48A2X5GjKYFwsJ8yNF3sfblHg&o=70166678&g=getDna&i=mixed&c=chr14&l=70166678&r=70166708&db=hg38
3. 使用tabix从VCF文件中提取指定坐标区域的遗传变异
这一部分会使用dbSNP155数据库中的遗传变异作为测试数据,该数据库下载链接为
https://ftp.ncbi.nih.gov/snp/archive/b155/,由于该数据很大,所以本文仅选取该数据库中前几个遗传变异进行测试。
vcf_file=dbSNP.test.vcf.gz
echo -e "##fileformat=VCFv4.2
##contig=
#CHROM\tPOS\tID\tREF\tALT\tQUAL\tFILTER
1\t10001\trs1570391677\tT\tA,C\t.\t.
1\t10002\trs1570391692\tA\tC\t.\t.
1\t10003\trs1570391694\tA\tC\t.\t.
1\t10007\trs1639538116\tT\tC,G\t.\t.
1\t10008\trs1570391698\tA\tC,G,T\t.\t.
1\t10009\trs1570391702\tA\tC,G\t.\t.
1\t10013\trs1639538192\tT\tC,G\t.\t.
1\t10013\trs1639538231\tTA\tT\t.\t.
1\t10014\trs1639538207\tA\tC,G,T\t.\t." | bgzip > $vcf_file
tabix -p vcf dbSNP.test.vcf.gz # -p vcf表示文件是VCF格式,tabix可以从VCF文件中识别到基因组坐标信息
tabix的详细用法见:
https://www.htslib.org/doc/tabix.html
接下来使用tabix来提取该vcf文件中的snps。
-
tabix test.vcf region
:将坐标直接写到vcf文件后面,此时坐标是1-based
-
tabix test.vcf -R region_file
:将坐标存入到文件中(有三列,分别是chrom,start,end,分隔符是Tab),若文件后缀是tsv,则
tabix认为坐标是1-based;若文件后缀是bed,则tabix认为坐标是0-based
接下来使用tabix来提取该文件中
1:10008-10013区域的遗传变异。
方式1:
tabix test.vcf region
(1-based)
tabix dbSNP.test.vcf.gz 1:10008-10013 # 1-based坐标
1 10008 rs1570391698 A C,G,T . .
1 10009 rs1570391702 A C,G . .
1 10013 rs1639538192 T C,G . .
1 10013 rs1639538231 TA T . .
方式2:
tabix test.vcf -R region_file.tsv
(1-based,region文件后缀是tsv)
echo -e "1\t10008\t10013" > 1_based_pos.tsv # 和方式1结果一致
tabix dbSNP.test.vcf.gz -R 1_based_pos.tsv
1 10008 rs1570391698 A C,G,T . .
1 10009 rs1570391702 A C,G . .
1 10013 rs1639538192 T C,G . .
1 10013 rs1639538231 TA T . .
方式3:
tabix test.vcf -R region_file.bed
(0-based,region文件后缀是bed)
echo -e "1\t10007\t10013" > 0_based_pos.bed
tabix dbSNP.test.vcf.gz -R 0_based_pos.bed
1 10008 rs1570391698 A C,G,T . .
1 10009 rs1570391702 A C,G . .