首页   

一名全栈语音识别工程师的自我修养

AI脑力波  · AI  · 6 年前

语音识别技术,被认为是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

全栈工程师,被认为是未来10年最具发展潜力的职业以及最受欢迎的开发者职业。

那么,两者结合会迸发出怎样的火花呢?


本文将结合全栈工程师的实践经验,深入浅出地为大家讲述什么是全栈语音识别工程师,以及如何成为一名全栈语音识别工程师,希望对你未来的职业发展有所帮助。


什么是全栈工程师?

百度百科对全栈工程师的定义是这样的:“掌握多种技能,并能利用多种技能独立完成产品的人”。


事实上,全栈工程师往往是某一方面的专家,同时通晓并善于在正确的场合运用其他语言、工具和技术。通常我们说的全栈工程师有web全栈工程师、app全栈工程师等。他们对产品开发的认识往往不限于开发本身,而是把特定的技术抛到了身后,他们明白各种编程语言和应用工具就只是工具而已,因此,更注重强化自身的核心技能,关注并乐于实践其他技术。


小编从网上扒出的全栈大牛是这样的:


他们的基础知识无比扎实,掌握了多种技术,视野开阔、思维活跃、逻辑能力强,对技术和产品都很敏感和充满热情,他们几乎明白每个岗位的职能,解决实际问题的能力、解决疑难杂症的能力令人惊叹。


现在,估计我们都明白全栈工程师是什么了。那让我们来看看什么是语音识别!


什么是语音识别?


很多专家都认为,语音识别技术是2000年至2010年信息技术领域十大重要的科技发展技术之一。

语音识别又被称为“机器的听觉系统”,分为孤立词和连续词语音识别系统。


1952年,贝尔实验室实现了孤立词(特定人的数字及个别英文单词)识别系统。如今,我们通常所说的语音识别指的是连续词识别,因为不同人在不同的场景下会有不同的语气和停顿,很难确定词边界,因此识别结果需要语言模型来进行打分后处理,得到合乎逻辑的结果。


语音识别技术所涉及的领域都包括哪些?具体包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等

重点来了!!

如果你想成为一名全栈语音识别工程师,应该如何修炼呢?下面就是你应该学习的参考指南。


首先,要具备语音识别和计算机学领域的基础知识,如数学与统计学、声学,以及计算机科学等。信号系统、数字信号处理、语音信号处理、离散数学、数据结构、算法导论、并行计算、C语言概论、Python语言、语音识别、深度学习等也是必备的基础知识。


数学与统计学:利用到大量的数学知识,通过搜索、整理、分析、描述数据等手段,来推断所测对象的本质,甚至预测对象未来的一门综合性科学,它的使用范围十分广泛,也是一名优秀全栈工程师必备的知识基础。


声学:包括音频声学、语音信号处理、非线性声信号处理、非线性声学、音频声学等,强噪声背景下信息提取的听觉模型、语音识别和混合盲信号分离,自适应语音消噪,语音特征二值量化和话者识别,语音人工神经网络处理等。


计算机科学:包含很多与计算和信息处理相关的分支领域,从抽象的算法分析、形式化语法等等,到更具体的主题如编程语言、程序设计、软件和硬件等,比如计算机图形学、计算复杂性理论、编程语言理论等等。


其次,要具备语音识别专业知识。语音识别的专业基础还包括算法基础、数据知识和开源平台。


算法基础:是语音识别系统的核心知识,包括了声学机理、信号处理、声学模型、语言模型和解码搜索等。


数据知识:包括数据采集、数据清洗、数据标注、数据管理、数据安全等多个方面。


语音识别开源平台:目前,主流的开源平台包括CMU Sphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等,CMU Sphinx是离线的语音识别工具,支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用,所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行,Kaldi的优势就是集成了很多语音识别的工具,包括解码搜索等。


最后,要理解该语音识别方向的应用。


语音识别的应用将会成为语音交互时代最值得期待的创新,不过AI的应用普及还是需要一段时间。虽然各种智能音箱层出不穷,但是目前主要还是以下几个核心技术点的应用。


语音控制,事实上是当前最主要的应用,包括了闹钟、音乐、地图、购物、智能家电控制等等功能,语音控制的难度相对也比较大,因为语音控制要求语音识别更加精准、速度更快。


语音转录,这在比如会议系统、智能法院、智能医疗等领域具有特殊应用,主要是实时将用户说话的声音转录成文字,以便形成会议纪要、审判记录和电子病历等。


语言翻译,主要是在不同语言之间进行切换,这在语音转录的基础上增加了实时翻译,对于语音识别的要求更高。


声纹识别,声纹识别的理论基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。声纹识别常用的方法包括模板匹配法、最近邻方法、神经元网络方法、VQ聚类法等。这也是生物识别的方法之一。


情感识别,主要是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系。情感识别当前也主要采用深度学习的方法,这就需要建立对情感空间的描述以及形成足够多的情感语料库。情感识别是人机交互中体现智能的应用,但是到目前为止,技术水平还没有达到产品应用的程度。


目前,语音识别技术距离理想中的人机交互还很远,将语音识别技术应用到更多的应用和场景中来增加用户粘性,更是还有很长的路要走。


那么,优秀的全栈语音识别工程师还需要哪些附加实力呢?


需要哪些附加实力?


沟通能力:全栈工程师往往要做到统筹全局,需要与不同的同事、干系人或客户进行沟通,良好的沟通能力将使你在团队中更具影响力,收到更多尊重和关注。


时间管理:作为全栈工程师,你可能会被安排同时在不同的项目中承担不同的角色,需要合理地分配时间,保证所有的工作能够按时交付。在业余时间,你还需要花时间阅读和学习,同时还可能需要完成自己的编外项目。因此,合理地进行时间分配,并对一些关键任务,进行计划是很重要的。


领导力:优秀的全栈工程师往往会被赋予技术领导者甚至项目管理者的角色。成为管理者,并不意味着你可以支配他人,或让他人替你做事。管理者需要了解团队成员的长处与不足,并知道如何使团队获得最大化的产出。但是,不少非常优秀的工程师往往更愿意独自工作,而对管理团队十分排斥。而优秀的全栈工程师如果拥有良好的领导力,将会为未来的职业生涯带来极大的益处。


演讲能力:全栈工程师并不需要经常进行公开演讲,但作为团队的核心成员,他需要在团队内部做技术、管理等方面的演讲。越是牛人越需要培养分享、演讲方面的能力,帮助大家学习和进步的同时,也获得大家的认可,甚至收获一大批的粉丝。


如果将技术能力作为你的硬实力,那么这些附加技能则可以看作是你的软实力,只有同时具备这两方面技能,才能成为一名优秀的全栈工程师。


所以,如果你坚持以全栈语音识别工程师为理想,

那么,从现在开始:   

点击下方空白区域查看答案

让自己具有专精的技能;

学习多种语言基础知识;

补全在英语、声学、数学方面的基础知识;

每1-2年轮换工作岗位;

培养不同的逻辑思维方式

每天利用业余时间持续做产品和学习。

也许,多年后我们就能看到又一位牛人全栈工程师诞生了。


(投稿邮箱:AI_talent@163.com,勾搭小编,请扫描以下二维码或搜索AI_Fintech


更多精彩推荐:

干干干货!人工智能工程师从0到1的进阶之路!

语不惊人死不休!盘点AI界的那些“毒舌”大佬们

2017数据科学报告:机器学习工程师年薪最高,Python最常用

盘点 | 全球&国内人工智能最牛X大学TOP 10

盘点 | 全球十大顶尖AI实验室背后的那些大佬们

复旦、上海交大等多所高校论文被ICCV 2017收录

在BAT做算法工程师是什么样的工作体验?


人工智能必存干货:

【最强干货盘点】38个免费AI课程,史上最全、最给力!!

一文读懂深度学习(文末附学习资料)

十大必须掌握的机器学习算法,竟然都如此有趣

硬货 | 程序猿不得不知的一些有用的(外国)网站

全球10大人工智能巨头招聘笔试题(看你离达摩院还有多远)

围观!机器学习的十条金科玉条

一文看懂!人工智能芯片的前世今生

推荐文章
工业设计俱乐部  ·  “花大钱买了黑胶唱片,但没有唱片机怎么办?”  ·  2 周前  
柴森爱总结  ·  视频“家长把心态调整好了,孩子才会更好”  ·  4 年前  
南都周刊  ·  大师在流浪,你们在干吗?  ·  5 年前  
© 2022 51好读
删除内容请联系邮箱 2879853325@qq.com