C114通信网  |  通信人家园

资讯
2018/4/11 08:44

Google为开发者推出改进后的语音转文本服务

太平洋电脑网  

几周前,Google 刚刚对“云端文本转语音”API 实施了大改版。现在,该公司又升级了自家的 Speech-to-Text 语音识别服务。改进后的 STT API 承诺显著提升了语音识别的性能,在内部所有测试中,单词错误率减少了 54% 左右。不过在某些领域,实际表现要好得多。基于用例,新版 API 现允许开发者在四种不同的机器学习模型间进行选择。

其中有面向短查询和语音命令的,以及一个理解通话语音和处理 视频中音频的。第四个模型属于新增默认,谷歌推荐在所有其它场景中使用。

此外,谷歌还带来了一项新的标点符号模型。团队承认,其录音文本长期饱受标点符号不太正常的吐槽。用标点符号来表达自己的观点,算是出了名的困难。

谷歌承诺新模型可带来更多可读的转录文本,包括更少的断句、更多的逗号、句号、以及问号。

本次更新后,谷歌还允许开发者借助一些基本的元数据标记他们的转录音视频。尽管一时发挥不了直接的益处,但谷歌表示,它将使用来自所有用户的聚合信息,来决定下一步要优先考虑哪些新功能。

最后,谷歌还试图对这项服务的收费方式做出小小的改动。此前,音频转录的收费标准为 0.006 美元 / 每 15 秒;视频模型的收费翻倍(0.012 美元 / 每 15 秒)。

不过 5 月 31 号之后,使用新模型也需要支付 0.006 美元 / 每 15 秒。

给作者点赞
0 VS 0
写得不太好

  免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141