专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
目录
相关文章推荐
生信宝典  ·  Nature 5.22~29 | ... ·  16 小时前  
生物探索  ·  Nature Methods | ... ·  20 小时前  
生物学霸  ·  0 ... ·  昨天  
BioArt  ·  Nature | 杨薇/Martin ... ·  2 天前  
生信宝典  ·  Cell Research 一作冯桂海专访 ... ·  2 天前  
51好读  ›  专栏  ›  生信媛

Biostar:课程25、26

生信媛  · 公众号  · 生物  · 2017-09-09 18:17

正文

请到「今天看啥」查看全文


# 我们的基因组文件( genome.txt)

KM034562    18959


# 没有链特异性的运算


bedtools slop -i demo.bed -g genome.txt -l 10 -r 0

# 有链特异性的运算

bedtools slop -i demo.bed -g genome.txt -l 10 -r 0 -s

# 把BED转成对应的GFF

# 这并非是真的正确地把BED转成GFF。

cat demo.bed | bioawk -c bed '{print $chrom, ".", ".", $start+1, $end, $score, $strand, ".", "." }' > demo.gff

# 看!它与其他格式可以很好地协同工作!那怎么可能呢?好神奇!

bedtools slop -i demo.gff -g genome.txt -l 10 -r 0 -s

# 两侧的运算。把结果重定向到一个文件中。

bedtools flank -i demo.gff -g genome.txt -l 10 -r 0 -s > flank.gff

# 填充运算。

bedtools complement -i demo.gff -g genome.txt > complement.gff

# 获取埃博拉基因组。

#* KM034562.gb文件在之前的课程其实已经有给过大家了。

#* 或者也可在这里下载, 链接:https://share.weiyun.com/e880cca38636c8d90780fb487050bf3d (密码:HhCUk9)

efetch -id KM034562 -format gb -db nucleotide > KM034562.gb
readseq -format=FASTA -o ~/refs/852/KM034562.fa KM034562.gb
readseq -format=GFF -o KM034562.gff KM034562.gb

# 看一下提示,这个工具可以用于哪些格式。

bioawk -c help

# 从整个文件中提取基因。

cat KM034562.gff | bioawk -c gff ' $feature=="gene" { print $0 } ' > genes.gff

# 序列提取。 获取与间隔相对应的序列。

bedtools flank -i genes.gff -g genome.txt -l 10 -r 0 -s > flank.gff







请到「今天看啥」查看全文