正文
如何处理如此巨大的数据流量?如何通过机器学习算法排除其中的干扰数据,找出真正令人感兴趣的“外太空信号“?
这是SETI亟待解决的技术难题。
IBM目前正使用Spark技术和机器学习算法协助NASA下属的非盈利科研机构SETI (致力于研究人类起源和外星文明的科研机构)来搜寻外星文明。
本次研讨会上,Francois Luus博士向十几位与会者介绍了IBM Bluemix Spark这一技术,并汇报了最新进展。
艾伦望远镜阵列被用于以厘米波段寻找外星智慧存在的蛛丝马迹,至今已产生600万个信号样本。而IBM Bluemix Spark将用来分析取自这些样本的压缩数据集。
Francois Luus博士的团队目标是利用Spark和机器学习技术找出数据异常,进而发现外星生命。
Francois Luus博士表示,这些数据量级太大,SETI团队说不定会漏掉某些外星人的信号。
因此,团队公开了数据库,并提供了数据处理工具,还给出了一些入门的Ipython notebook格式的代码。
这些资源可以从
GitHub
上下载到。感兴趣的同学可以下载下来,说不定可以发现外星文明的信息!
GitHub相关数据集链接:https://github.com/ibm-cds-labs/seti_at_ibm
参与研讨会的学生会在导师指导下,从数据集中寻找与外星人相关的异常值(图片来自IBM博客)
关于
SETI
数据集和数据获取、处理流程
▼
图片来自NASA
SETI利用艾伦望远镜阵列(ATA)来收集太阳系外的辐射信号。几乎每个夜晚,ATA都会收集来自于天空中各个角落的、频率在1-10 GHz的辐射
信号。
信号观测的结果储存于下面的数据中:
- 两个原始数据文件,可能是两个CompAmp或两个archive-CompAmp文件,这取决于信号分类的结果。
- 实时信号分析结果,在SignalDB 中储存为一行数据。
对于每一个ATA望远镜,辐射信号的水平分量和垂直分量是分别测量的。对于每一个偏振方向,全体ATA阵列的原始时序信号会被数字化,并组合成一个数据文件。