热搜: 佳士科技irobot开云电竞官网下载app机器人ABB机器人产业联盟发那科库卡码垛机器人机械手

如何构建与机器人对话的语音识别解决方案

日期:2014-01-24 来源:电子工程专辑 作者:毛文杰 评论:0
标签:
  语音触发器架构的选择
  一次语音触发是一个简短的关键字或者词(例如“你好!手机”),它能够使设备被唤醒并且响应后面输入的语音。图1所示即为这种半自主的低功耗的“永远工作”的处理域,它为这种语音触发提供了一个平台。
  音频中枢为语音触发功能提供了一个自然的中心,它带有通往所有内部功能和耳机麦克风端口的接口,并且在待机模式下通常也在运行,这是因为需要处理像附件接口监控其它原因。这个降低了系统中诸如时钟发生器和电压参考等常用基础功能的重复率,降低了静态功耗。音频中枢里针对语音唤醒的硬件优化使信号处理周期针对不同环境的噪声情况将被保持在绝对的最低值,将平均电池电流最小化。
  可相互替代的架构分成两类:分离式解决方案和基于系统级芯片(SoC)语音的触发。其功率消耗情况和用户交互方式在很大程度上依赖于对这些架构的选择。软件架构,尤其是管理 应用场景转换和串行端口配置的软件,也在确定交流方式中扮演着一个重要的角色。
  基于系统级芯片(SoC)的语音触发器往往因为主要的中央处理单元持续活跃而引起的非常高的静态功耗开销。这些解决方案的电池电流消耗通常比那些基于音频中枢的解决方案高出一个数量级。
  分离式解决方案通常使用来自主音频通道的不同的硬件接口。这有时可以导致音频不持续,原因在于应用场景转换管理和噪音抑制的启用/禁用等在不同的集成电路间,因为延迟和信号格式不同等因素而变得复杂。这些不连续有时会引起通话被中断,尤其是在转换到工作模式运行发生时,从而导致了对可听见提示的需要并限制了交流方式。在一些情况,因为连接到有限数量的麦克风也能限制其使用性(例如耳机麦克风的操作)。
  确保更好的用户体验
  由于所有技术创新都是从根本上改变用户与消费电子设备交互的方式,衡量成功的真正标准是用户对他们所期望的改变的回应。参考触摸屏案例,新的语音控制技术的最终目标是它们应该成为下一代移动硬件可接受的和所预期的一项功能。我们将可能非常快就学会如何与新一代能够响应语音的机器进行交互,其方式与我们在触摸屏中开发出来的直观熟悉性大致相同,直到像触摸功能已经成为进入市场的新设备的一个标准功能这样的程度。
  尽管如此,不同于较早的在远端也是人类的语音通信技术,仍然不确定的是用户在熟悉技术的行为特性后,是否将受益于与其设备进行了有用的或有趣的沟通。这在很大程度上取决于该技术的性能,但是今天用来衡量语音识别性能的标准仍然很粗放,并且不足以用来描述未来代系语音识别系统的有效性。考虑到更高级别的机器智能化、与系统其余部分的交互,以及与云计算的交互,还需要一种更广泛的方式。一种不会限制或者延迟下一代改善的音频架构,能够使这些性能跨越更加迅速地发生,很大程度上将不受硬件和低级别固件的限制。现在已经可以使用这种技术去构建移动设备。
  低功耗音频中枢待机模式音频处理能力已经突破了语音识别可用性中一些最关键的瓶颈。虽然去除按键是一个重要的里程碑,但这只是可用于今天移动平台设计的许多语音识别提升中的一项。但在集成阶段选择了合适的架构,就可以支持一种完全自然的沟通风格,它极大地改变我们在未来几年使用移动设备的方式。
更多> 相关开云电子链接
0 相关评论

推荐图文
推荐开云电子链接
点击排行
Baidu
map