专栏名称: 生信杂谈
生物信息学;生物信息;计算机辅助药物设计;测序分析;Python;R;机器学习;论文写作;网站制作;LOL;dota2。
目录
相关文章推荐
廣告狂人  ·  小红书投放攻略(2025版) ·  17 小时前  
51好读  ›  专栏  ›  生信杂谈

#Python#提取基因对应的蛋白质名

生信杂谈  · 公众号  ·  · 2017-06-22 22:36

正文

请到「今天看啥」查看全文


import urllib,urllib2 # uniprot的api端口 url = 'http://www.uniprot.org/uploadlists/' # 提交的参数 params = { # 将什么ID转化成什么ID, from to # 目前没发现能够转换成多种不同的ID,只能一一转化 'from' : 'ACC' , 'to' : 'P_REFSEQ_AC' , # 返回结果的格式 'format' : 'tab' , # 要转换的ID 'query' : 'P13368 P20806 Q9UM73 P97793 Q17192' } # 因为http传输的是bytes等,因此需要将参数转码 data = urllib.urlencode(params) # 通过Request指定获取哪台服务器的什么信息 request = urllib2.Request(url, data) # 你自己的邮箱,如果有问题,人家好联系(比如API使用的频率太高,人家服务器受不了) contact = "" # Please set your email address here to help us debug in case of problems. # 添加相应的标准提取头,不是这个信息,应该就提取不到任何信息了 request.add_header( 'User-Agent' , 'Python %s' % contact) # 打开url,获取服务器返回的信息 response = urllib2.urlopen(request) # 就只读取前多少个字符 page = response.read( 200000 )

由于我是python3的使用者,所以,没法拿来主义,经过简单修改就正常使用了

经过对众多ID的测试之后发现,其他ID转化成ACC的时候,包含的信息量格外的多,其中就有我急需的蛋白质名称,因此,通过将一个基因名转化成ACC来测试一下看看,能不能提取到该基因编码蛋白的所有名称







请到「今天看啥」查看全文