正文
# 我们的基因组文件(
genome.txt)
KM034562 18959
# 没有链特异性的运算
bedtools slop -i demo.bed -g genome.txt -l 10 -r 0
# 有链特异性的运算
bedtools slop -i demo.bed -g genome.txt -l 10 -r 0 -s
# 把BED转成对应的GFF
# 这并非是真的正确地把BED转成GFF。
cat demo.bed | bioawk -c bed '{print $chrom, ".", ".", $start+1, $end, $score, $strand, ".", "." }' > demo.gff
# 看!它与其他格式可以很好地协同工作!那怎么可能呢?好神奇!
bedtools slop -i demo.gff -g genome.txt -l 10 -r 0 -s
# 两侧的运算。把结果重定向到一个文件中。
bedtools flank -i demo.gff -g genome.txt -l 10 -r 0 -s > flank.gff
# 填充运算。
bedtools complement -i demo.gff -g genome.txt > complement.gff
# 获取埃博拉基因组。
#* KM034562.gb文件在之前的课程其实已经有给过大家了。
#* 或者也可在这里下载,
链接:https://share.weiyun.com/e880cca38636c8d90780fb487050bf3d (密码:HhCUk9)
efetch -id KM034562 -format gb -db nucleotide > KM034562.gb
readseq -format=FASTA -o ~/refs/852/KM034562.fa KM034562.gb
readseq -format=GFF -o KM034562.gff KM034562.gb
# 看一下提示,这个工具可以用于哪些格式。
bioawk -c help
# 从整个文件中提取基因。
cat KM034562.gff | bioawk -c gff ' $feature=="gene" { print $0 } ' > genes.gff
# 序列提取。 获取与间隔相对应的序列。
bedtools flank -i genes.gff -g genome.txt -l 10 -r 0 -s > flank.gff