正文
而词又有不同的分析角度,比如从词法上来说,词可以分为动词、形容词、名词等,因此还可以将词像彩色图像一样编码成多个通道,比如语义通道、词性通道、甚至奇怪的拼音通道、偏旁部首通道等,这样就成了一个矩阵(2D Tensor)。因此对一段自然语言文本的处理就是对
1D或2D Tensor序列或结构
的处理。
场景4、游戏
相关方向:
机器学习
、
控制类
和
上述感知类方向
。
游戏是一个很大的概念,机器学习在游戏上的应用经常同时包括图像视频处理、语音信号处理甚至自然语言处理,但除此之外,“
规划(planning)
”往往是游戏场景的特色和核心。
包括自动驾驶,其实也可以看做是一个特殊的游戏。其本质即通过机器学习训练得到的视觉、听觉等感知能力来将外部信息处理成计算机可以进一步运算的“符号”,而这些符号其实就是机器学习可以消化的数据。
因此,积累这些符号的历史数据,就可以通过机器学习训练得到的具有规划能力的model来将这些符号转变为对外输出的自身行动。
上述4个应用场景直接体现了大众眼里的人工智能概念。但下面两个应用场景同样是机器学习广泛应用的地方。
场景5、信息安全:
相关方向:
数据挖掘
、
自然语言处理
、
上述感知类方向
。
如果觉得信息安全跟机器学习毫不沾边,那你的知识面就有点窄啦。一个烂大街的例子是将机器学习用于网站的入侵检测,基本思想即学习网站的正常运行的历史数据和被入侵时的历史数据,进而用学习到的model来对网站的运行状况进行监控,自动监测是否被入侵。
除此之外,实际上机器学习在信息安全的应用非常广泛。如通过对加密信息的学习,来破解加密信息;对流量类别的学习来分类流量;对互联网违法信息的学习来养成帅帅嗒小网警;对微博的文字情感和话题的学习来监督舆情;对色情视频的学习(跟你们学习的立足点不一样!!)来识别色情网站等等。这些场景都可以通过学习历史数据来完成安全任务。
场景6、数据处理:
相关方向:
数据挖掘
。
数据处理是机器学习的重头戏,也是跟商业(钱)联系最为紧密的应用方向。现代几乎任何的企业想要发展壮大,都离不开对商业数据的处理。比
如对产品的大量用户反馈数据进行处理,通过聚类或分类来挖掘出产品的核心槽点;对企业的财务数据进行处理,从而制定更合理的收支分配等。
由于传统的数据处理算法难以挖掘出数据背后更为隐晦的规律,或者难以发现海量的商业数据背后的宏观规律,因此通过机器学习,而不是人的主观算法和主观分析,来对商业数据进行深层次的处理和挖掘,进而直接为企业创造出价值。
商业数据一般是以结构化的形式存储于数据库中,因此一方面是最容易被机器学习直接利用的数据,另一方面也是最混杂脏乱,难以高效利用的数据。
当然啦,广义的数据处理也会涉及自然语言、语音甚至图像形式的非结构化数据,因此在数据处理中涉及到的机器学习技术非常广泛,从最简单的KNN一直到复杂的深度学习,都有它存在的场景。
上述各
应用场景的数据形式
基本决定了机器学习在该场景的存在形式。
最贴近人类视觉系统的深度神经网络很自然的在图像视频处理的场景带来了巨大的成功,注定深度学习是该应用场景的核心;
而人的听觉系统也是类似的,因此在语音处理场景也是如此;但人的语言系统却是十分复杂而神秘的,因此哪怕目前机器学习最先进的深度学习model在自然语言处理领域也表现不尽人意,注定自然语言处理场景成为一个日新月异,研究难度大的场景;而在数据处理的场景下,面对世界上纷繁多样的数据形式和需求场景,使得几乎每个机器学习模型都在该场景下有容身之处,因此该领域也是“最不浪费机器学习模型”的领域。
再讲点最现实的吧。
在入门难度和“投资回报”周期上,
数据处理
领域是“性价比”很高的领域,通过对统计机器学习的掌握和数据的预处理就可以完成相当多的数据处理任务,而且市场需求十分大,非人工智能导向的企业也会对其有非常旺盛的需求,因此小夕觉得还是比较适合非科班出身,希望转行又缺乏大量时间、精力和基础的同学的。