一名全栈语音识别工程师的自我修养（微信文章未删减版）

语音识别技术，被认为是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

全栈工程师，被认为是未来10年最具发展潜力的职业以及最受欢迎的开发者职业。

那么，两者结合会迸发出怎样的火花呢？

本文将结合全栈工程师的实践经验，深入浅出地为大家讲述什么是全栈语音识别工程师，以及如何成为一名全栈语音识别工程师，希望对你未来的职业发展有所帮助。

什么是全栈工程师？

百度百科对全栈工程师的定义是这样的：“掌握多种技能，并能利用多种技能独立完成产品的人”。

事实上，全栈工程师往往是某一方面的专家，同时通晓并善于在正确的场合运用其他语言、工具和技术。通常我们说的全栈工程师有web全栈工程师、app全栈工程师等。他们对产品开发的认识往往不限于开发本身，而是把特定的技术抛到了身后，他们明白各种编程语言和应用工具就只是工具而已，因此，更注重强化自身的核心技能，关注并乐于实践其他技术。

小编从网上扒出的全栈大牛是这样的：

他们的基础知识无比扎实，掌握了多种技术，视野开阔、思维活跃、逻辑能力强，对技术和产品都很敏感和充满热情，他们几乎明白每个岗位的职能，解决实际问题的能力、解决疑难杂症的能力令人惊叹。

现在，估计我们都明白全栈工程师是什么了。那让我们来看看什么是语音识别！

什么是语音识别？

很多专家都认为，语音识别技术是2000年至2010年信息技术领域十大重要的科技发展技术之一。

语音识别又被称为“机器的听觉系统”，分为孤立词和连续词语音识别系统。

1952年，贝尔实验室实现了孤立词（特定人的数字及个别英文单词）识别系统。如今，我们通常所说的语音识别指的是连续词识别，因为不同人在不同的场景下会有不同的语气和停顿，很难确定词边界，因此识别结果需要语言模型来进行打分后处理，得到合乎逻辑的结果。

语音识别技术所涉及的领域都包括哪些？具体包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。

重点来了！！

如果你想成为一名全栈语音识别工程师，应该如何修炼呢？下面就是你应该学习的参考指南。

首先，要具备语音识别和计算机学领域的基础知识，如数学与统计学、声学，以及计算机科学等。信号系统、数字信号处理、语音信号处理、离散数学、数据结构、算法导论、并行计算、C语言概论、Python语言、语音识别、深度学习等也是必备的基础知识。

数学与统计学：利用到大量的数学知识，通过搜索、整理、分析、描述数据等手段，来推断所测对象的本质，甚至预测对象未来的一门综合性科学，它的使用范围十分广泛，也是一名优秀全栈工程师必备的知识基础。

声学：包括音频声学、语音信号处理、非线性声信号处理、非线性声学、音频声学等，强噪声背景下信息提取的听觉模型、语音识别和混合盲信号分离，自适应语音消噪，语音特征二值量化和话者识别，语音人工神经网络处理等。

计算机科学：包含很多与计算和信息处理相关的分支领域，从抽象的算法分析、形式化语法等等，到更具体的主题如编程语言、程序设计、软件和硬件等，比如计算机图形学、计算复杂性理论、编程语言理论等等。

其次，要具备语音识别专业知识。语音识别的专业基础还包括算法基础、数据知识和开源平台。

算法基础：是语音识别系统的核心知识，包括了声学机理、信号处理、声学模型、语言模型和解码搜索等。

数据知识：包括数据采集、数据清洗、数据标注、数据管理、数据安全等多个方面。

语音识别开源平台：目前，主流的开源平台包括CMU Sphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等，CMU Sphinx是离线的语音识别工具，支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用，所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行，Kaldi的优势就是集成了很多语音识别的工具，包括解码搜索等。

最后，要理解该语音识别方向的应用。

语音识别的应用将会成为语音交互时代最值得期待的创新，不过AI的应用普及还是需要一段时间。虽然各种智能音箱层出不穷，但是目前主要还是以下几个核心技术点的应用。

语音控制，事实上是当前最主要的应用，包括了闹钟、音乐、地图、购物、智能家电控制等等功能，语音控制的难度相对也比较大，因为语音控制要求语音识别更加精准、速度更快。

语音转录，这在比如会议系统、智能法院、智能医疗等领域具有特殊应用，主要是实时将用户说话的声音转录成文字，以便形成会议纪要、审判记录和电子病历等。

语言翻译，主要是在不同语言之间进行切换，这在语音转录的基础上增加了实时翻译，对于语音识别的要求更高。

声纹识别，声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。声纹识别常用的方法包括模板匹配法、最近邻方法、神经元网络方法、VQ聚类法等。这也是生物识别的方法之一。

情感识别，主要是从采集到的语音信号中提取表达情感的声学特征，并找出这些声学特征与人类情感的映射关系。情感识别当前也主要采用深度学习的方法，这就需要建立对情感空间的描述以及形成足够多的情感语料库。情感识别是人机交互中体现智能的应用，但是到目前为止，技术水平还没有达到产品应用的程度。

目前，语音识别技术距离理想中的人机交互还很远，将语音识别技术应用到更多的应用和场景中来增加用户粘性，更是还有很长的路要走。

那么，优秀的全栈语音识别工程师还需要哪些附加实力呢？

需要哪些附加实力？

沟通能力：全栈工程师往往要做到统筹全局，需要与不同的同事、干系人或客户进行沟通，良好的沟通能力将使你在团队中更具影响力，收到更多尊重和关注。

时间管理：作为全栈工程师，你可能会被安排同时在不同的项目中承担不同的角色，需要合理地分配时间，保证所有的工作能够按时交付。在业余时间，你还需要花时间阅读和学习，同时还可能需要完成自己的编外项目。因此，合理地进行时间分配，并对一些关键任务，进行计划是很重要的。

领导力：优秀的全栈工程师往往会被赋予技术领导者甚至项目管理者的角色。成为管理者，并不意味着你可以支配他人，或让他人替你做事。管理者需要了解团队成员的长处与不足，并知道如何使团队获得最大化的产出。但是，不少非常优秀的工程师往往更愿意独自工作，而对管理团队十分排斥。而优秀的全栈工程师如果拥有良好的领导力，将会为未来的职业生涯带来极大的益处。

演讲能力：全栈工程师并不需要经常进行公开演讲，但作为团队的核心成员，他需要在团队内部做技术、管理等方面的演讲。越是牛人越需要培养分享、演讲方面的能力，帮助大家学习和进步的同时，也获得大家的认可，甚至收获一大批的粉丝。

如果将技术能力作为你的硬实力，那么这些附加技能则可以看作是你的软实力，只有同时具备这两方面技能，才能成为一名优秀的全栈工程师。

所以，如果你坚持以全栈语音识别工程师为理想，

那么，从现在开始：

点击下方空白区域查看答案

▼

让自己具有专精的技能；

学习多种语言基础知识；

补全在英语、声学、数学方面的基础知识；

每1-2年轮换工作岗位；

培养不同的逻辑思维方式；

每天利用业余时间持续做产品和学习。