我正在研究语音到文本的android应用程序。Google API可用于在线和离线语音到文本的转换。
我已经完成了Google API(在线ANS和离线API)上文字语音的测试。已经观察到,与离线相比,在线语音文本提供了更好的准确性。现在我的问题是
联机模式和脱机模式有什么区别?为什么离线模式会降低其准确性?有没有更精确的解决方案?
脱机模式是基于一个模型的,该模型的文件大小约为1。20.3MB;由于不需要互联网连接,因此不需要发送/接收数据。无论如何,该模型的语音到文本翻译速度比在线版本快6.5-7倍。这里最关键的一点是,该模型的字错误率达13.5%,尽管不是很高,但鉴于有限的数据和算法,它的误码率却很高。
在线系统显然可以访问更多的训练数据,并且可以通过更多的算法进行解析。我不认为脱机版本可以被认为是替代版本,但是当在线版本不可用时,可以认为它是替代版本。我读过一些文章,其中的用户声称“美国英语”比“英国英语”的效果更好,原因我并不完全了解。
3G不能同时提供语音和数据。WiFi / 4G没有此问题。还有许多其他已知问题,例如服务提供商的限制,LTE /非LTE,CDMA等。如果您有这样的限制,一种方法可能是合并一些设计更改,以使您能够缓存数据然后访问在线引擎,通话结束后。
以我有限的经验,对于离线功能,CMUSphinx似乎是一个更好的选择(因为Google每天最多只能打50个电话(?))。这里列出了其他一些可用的API 。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句