正文
张广勇:
最初,我们的功能主要集中在查词和翻译上。但现在,我们已经上线了更多的大模型能力,比如 AI 老师的答疑功能,以及语法精讲、单词讲解等多种大模型功能。关于落地模式,我们有几种选择。一种是纯云端,另一种是云端与本地结合的模式。由于手机算力相比于大模型仍然差距较大,某些大模型无法在本地运行,因此我们使用基座模型和云端计算。而对于需要语音识别、OCR 等交互的场景,我们可以在本地使用算力处理离线任务。
除了云端结合外,我们还上线了纯离线的大模型。虽然这些模型的规模没有达到云端那种几十甚至上百 B 的规模,但我们已经实现了 0.5B 到 3B 的离线大模型。这些模型支持中英互译,以及古诗文翻译等功能,单个模型能够完成多个任务。
相对于原来的离线功能,我们使用离线大模型进行翻译,质量上有了很大的提升,已超过了在线 NMT 的质量。
张广勇:
不是的,我们的离线功能是基于词典笔的。词典笔可以独立使用,特别是针对学生,因为家长通常不会把手机给孩子使用。我们希望词典笔能独立运作,而且学生可以在户外或教室等地方使用。因此我们部署的离线功能完全基于词典笔本身的算力,不需要借助手机或其他设备。这样一来,即使没有网络连接,词典笔也能使用。
王松:智能硬件需要软件、算法、硬件、产品团队深度协作,协作过程中遇到过哪些关键矛盾,如何寻找最佳平衡?
张广勇:
从硬件团队的角度来看,硬件工程师追求性能稳定、成本可控和可量产。产品团队则更关注用户体验和上市时间,通常需要压缩开发周期。但硬件开发与 APP 开发不同,硬件不仅需要研发,还涉及许多其他因素,AI 算法模块。AI 的迭代速度较慢,这给产品开发带来时间上的压力,导致硬件和产品需求之间存在冲突。
从软件和算法的角度来看,我们希望具备灵活的开发能力。在词典笔上,我们部署了本地模型,理想情况下希望本地算力和内存越大越好,但这会大幅增加硬件成本,特别是对于像我们这种小型硬件产品,成本压力较大。由于词典笔的市场定位和价格较低,它的算力和内存远不及手机。因此,在硬件有限的情况下,部署多个 AI 模型面临更大挑战。此外,产品团队面临的需求变化频繁,尤其是 AI 结合的新产品,使得算法的迭代变得更加复杂。在 APP 端,由于内存有限,无法支持过多底层算法模块,需要进行整体优化。最终,我们的目标是打造一款具有优秀用户体验的产品,确保我们的智能硬件具备高质量、低延迟、低成本、低功耗的整体优势。
古鉴:
硬件产品的定义在初期阶段至关重要。首先,我们需要明确硬件的使用场景,并在此基础上做出合理的妥协。例如,在我们设计的眼镜中,虽然 AI 眼镜是面向大众市场的,我们必须确保用户能够长时间佩戴,且眼镜外观应应该考虑到主打的人群。
功能定义同样至关重要。作为重语音交互的产品,我们就需要为眼镜设计特定功能,如降噪和特定词汇识别等。与此同时,还要在电池容量和外观设计之间找到平衡。性能与外观之间的矛盾将不可避免地在这一过程中显现。例如,一些人可能希望眼镜具备与用户长期互动的能力,甚至实现类似智能助手的功能。回归硬件设计的本质,关键是围绕使用场景来匹配硬件和软件的能力。
王松:是否曾因设备算力限制被迫简化功能,甚至是模型?可以分享通过算法优化或硬件适配破局的案例吗?
古鉴:
在设计过程中,确实会面临舍弃一些功能的情况。现在我们的设计更多采用的是分发模型。很多人会问我们在设计 AI 眼镜时使用了哪家的大模型,对此,我认为需要更详细地解释:我们并不是只使用一个大模型,实际上是多个模型的组合,包括小模型、分发模型、聊天模型和 Agent 模型等。在这种情况下,我们需要确保分发过程足够快,因此可能会选择较小的模型。
但在聊天时,为了确保准确性,避免出现错误的回答,我们则会使用较大的模型。使用大模型时,回复速度可能相对较慢。那么如何在这个过程中解决等待时间的问题呢?因为眼镜设备的用户耐心是非常有限的,所以必须在短时间内给予用户反馈。这些都是设计中非常重要且具有挑战性的部分,尤其是在 Agent 功能中。很多 Agent 的接入方式甚至会涉及不同的大模型,这也是硬件和软件设计中一个比较复杂的难点。
王松:
古老师提到一个非常关键的点——不同的功能或场景可能需要使用不同的模型。前置部分实际上相当于你们内部的一个 MOE 模型。
古鉴:
对,因为很多时候,如果你只是问一个简单的“你好”,却还需要调用 Deepseek 模型,那就会浪费很多资源,关键是如何进行分发。例如,当我分发完后,就可以确定是否调用豆包模型或 Deepseek 模型等,这样的设计非常重要。
张广勇:
词典笔同时使用云端和端侧模型。关于云端部分,我们使用了有道自研的“子曰”教育大模型。由于端侧的算力较小,例如我们使用的词典笔配置的是 A53 CPU,相比手机芯片要弱得多。因此,从第二代到现在的第七代,我们在算法和工程上进行了大量优化,包括采用蒸馏、MOE、量化等。由于第三方计算库性能不足,我们自己实现了一些底层计算库,并采用了混合精度量化技术,让我们的模型可以部署在词典笔本地。由于算力和内存的限制,我们的模型初期较小,性能优化不足,但这并非终点。随着性能的提升,算法模型的大小也在逐步,最终优化后,模型的参数量提高了一倍。从 2018 年至今,我们针对离线机器翻译已经优化了多个版本,即提升了质量又降低了延迟,大幅提升用户体验。