Deepseek时代，智能硬件能带来新的“GPT时刻”吗？

InfoQ Pro · 公众号 · 架构 · 2025-04-30 12:00

正文

请到「今天看啥」查看全文

张广勇： 最初，我们的功能主要集中在查词和翻译上。但现在，我们已经上线了更多的大模型能力，比如 AI 老师的答疑功能，以及语法精讲、单词讲解等多种大模型功能。关于落地模式，我们有几种选择。一种是纯云端，另一种是云端与本地结合的模式。由于手机算力相比于大模型仍然差距较大，某些大模型无法在本地运行，因此我们使用基座模型和云端计算。而对于需要语音识别、OCR 等交互的场景，我们可以在本地使用算力处理离线任务。

除了云端结合外，我们还上线了纯离线的大模型。虽然这些模型的规模没有达到云端那种几十甚至上百 B 的规模，但我们已经实现了 0.5B 到 3B 的离线大模型。这些模型支持中英互译，以及古诗文翻译等功能，单个模型能够完成多个任务。

相对于原来的离线功能，我们使用离线大模型进行翻译，质量上有了很大的提升，已超过了在线 NMT 的质量。

王松：您说的离线功能是依赖于手机端的离线模式吗？

张广勇： 不是的，我们的离线功能是基于词典笔的。词典笔可以独立使用，特别是针对学生，因为家长通常不会把手机给孩子使用。我们希望词典笔能独立运作，而且学生可以在户外或教室等地方使用。因此我们部署的离线功能完全基于词典笔本身的算力，不需要借助手机或其他设备。这样一来，即使没有网络连接，词典笔也能使用。

技术实现与跨团队协同

王松：智能硬件需要软件、算法、硬件、产品团队深度协作，协作过程中遇到过哪些关键矛盾，如何寻找最佳平衡?

张广勇： 从硬件团队的角度来看，硬件工程师追求性能稳定、成本可控和可量产。产品团队则更关注用户体验和上市时间，通常需要压缩开发周期。但硬件开发与 APP 开发不同，硬件不仅需要研发，还涉及许多其他因素，AI 算法模块。AI 的迭代速度较慢，这给产品开发带来时间上的压力，导致硬件和产品需求之间存在冲突。

从软件和算法的角度来看，我们希望具备灵活的开发能力。在词典笔上，我们部署了本地模型，理想情况下希望本地算力和内存越大越好，但这会大幅增加硬件成本，特别是对于像我们这种小型硬件产品，成本压力较大。由于词典笔的市场定位和价格较低，它的算力和内存远不及手机。因此，在硬件有限的情况下，部署多个 AI 模型面临更大挑战。此外，产品团队面临的需求变化频繁，尤其是 AI 结合的新产品，使得算法的迭代变得更加复杂。在 APP 端，由于内存有限，无法支持过多底层算法模块，需要进行整体优化。最终，我们的目标是打造一款具有优秀用户体验的产品，确保我们的智能硬件具备高质量、低延迟、低成本、低功耗的整体优势。

古鉴： 硬件产品的定义在初期阶段至关重要。首先，我们需要明确硬件的使用场景，并在此基础上做出合理的妥协。例如，在我们设计的眼镜中，虽然 AI 眼镜是面向大众市场的，我们必须确保用户能够长时间佩戴，且眼镜外观应应该考虑到主打的人群。

功能定义同样至关重要。作为重语音交互的产品，我们就需要为眼镜设计特定功能，如降噪和特定词汇识别等。与此同时，还要在电池容量和外观设计之间找到平衡。性能与外观之间的矛盾将不可避免地在这一过程中显现。例如，一些人可能希望眼镜具备与用户长期互动的能力，甚至实现类似智能助手的功能。回归硬件设计的本质，关键是围绕使用场景来匹配硬件和软件的能力。

王松：是否曾因设备算力限制被迫简化功能，甚至是模型？可以分享通过算法优化或硬件适配破局的案例吗？

古鉴： 在设计过程中，确实会面临舍弃一些功能的情况。现在我们的设计更多采用的是分发模型。很多人会问我们在设计 AI 眼镜时使用了哪家的大模型，对此，我认为需要更详细地解释：我们并不是只使用一个大模型，实际上是多个模型的组合，包括小模型、分发模型、聊天模型和 Agent 模型等。在这种情况下，我们需要确保分发过程足够快，因此可能会选择较小的模型。

但在聊天时，为了确保准确性，避免出现错误的回答，我们则会使用较大的模型。使用大模型时，回复速度可能相对较慢。那么如何在这个过程中解决等待时间的问题呢？因为眼镜设备的用户耐心是非常有限的，所以必须在短时间内给予用户反馈。这些都是设计中非常重要且具有挑战性的部分，尤其是在 Agent 功能中。很多 Agent 的接入方式甚至会涉及不同的大模型，这也是硬件和软件设计中一个比较复杂的难点。

王松： 古老师提到一个非常关键的点——不同的功能或场景可能需要使用不同的模型。前置部分实际上相当于你们内部的一个 MOE 模型。

古鉴： 对，因为很多时候，如果你只是问一个简单的“你好”，却还需要调用 Deepseek 模型，那就会浪费很多资源，关键是如何进行分发。例如，当我分发完后，就可以确定是否调用豆包模型或 Deepseek 模型等，这样的设计非常重要。

张广勇： 词典笔同时使用云端和端侧模型。关于云端部分，我们使用了有道自研的“子曰”教育大模型。由于端侧的算力较小，例如我们使用的词典笔配置的是 A53 CPU，相比手机芯片要弱得多。因此，从第二代到现在的第七代，我们在算法和工程上进行了大量优化，包括采用蒸馏、MOE、量化等。由于第三方计算库性能不足，我们自己实现了一些底层计算库，并采用了混合精度量化技术，让我们的模型可以部署在词典笔本地。由于算力和内存的限制，我们的模型初期较小，性能优化不足，但这并非终点。随着性能的提升，算法模型的大小也在逐步，最终优化后，模型的参数量提高了一倍。从 2018 年至今，我们针对离线机器翻译已经优化了多个版本，即提升了质量又降低了延迟，大幅提升用户体验。