Watson NarrowBand语音到文本不接受ogg文件

鲍勃·迪尔

Nodeff应用程序使用ffmpeg从mp3和mp4创建ogg文件。如果源文件是宽带文件,则Watson Speech to Text会接受该文件,不会有任何问题。如果源文件是窄带,则Watson Speech to Text无法读取ogg文件。我已经测试了ffmpeg的输出,并且窄带ogg文件具有与mp3文件相同的音频内容(例如,我可以听并听到相同的人的声音)。是的,预先,我正在更改对Watson的调用,以正确指定模型和content_type。代码如下:

exports.createTranscript = function(req, res, next)
{ var _name = getNameBase(req.body.movie);
  var _type = getType(req.body.movie);
  var _voice = (_type == "mp4") ? "en-US_BroadbandModel" : "en-US_NarrowbandModel" ;
  var _contentType = (_type == "mp4") ? "audio/ogg" : "audio/basic" ;
  var _audio = process.cwd()+"/HTML/movies/"+_name+'ogg';
  var transcriptFile = process.cwd()+"/HTML/movies/"+_name+'json';

  speech_to_text.createSession({model: _voice}, function(error, session) {
    if (error) {console.log('error:', error);}
    else
      {
        var params = { content_type: _contentType, continuous: true,
         audio: fs.createReadStream(_audio),
          session_id: session.session_id
          };
          speech_to_text.recognize(params, function(error, transcript) {
            if (error) {console.log('error:', error);}
            else
              { fs.writeFile(transcriptFile, JSON.stringify(transcript), function(err) {if (err) {console.log(err);}});
                res.send(transcript);
              }
          });
      }
  });
}

_type是否model: _voice已跟踪mp3(电话录音的窄带)或mp4(宽带)以确保content_type: _contentType已跟踪正确的设置以确保正确的设置

带有窄带设置的任何提交给语音转换为文本的ogg文件Error: No speech detected for 30s.无法通过“真实窄带文件测试”并要求Watson读取宽带ogg文件(从mp4创建)作为窄带而失败相同的错误消息。我想念什么?

鲍勃·迪尔

Watson语音转文本文档在这一点上令人困惑。此处的文档指出,在使用窄带模型时,content_type应将其设置为audio/basic那是不对的。在此示例中,入站音频文件是一个窄带文件,但它是一个ogg文件,因此content_type仍应为audio/ogg单个更改解决了该问题。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

Watson 语音转文本

Shiny Watson 实时文本到语音

使用WebSockets的IBM Watson语音到文本

将WAV录制到IBM Watson语音到文本

IBM Watson Slots不接受0

Watson 语音到文本:无效凭据错误(代码:401)

如何下载在 Watson Studio 中创建的文本转语音文件

语音命令的Watson Wake Word

语音到文本Ibm Watson C#的语音,长音频超过100 MB

大于〜7mb的文件将引发“未收到响应”。IBM Watson语音到文本异步createJob调用

编辑python中的wav文件头以与QSound / pyqt5一起使用(Watson文本到语音TTS)

在Watson文本和语音中使用不同的语调

Watson语音转文本立即在Unity上断开连接

IBM Watson语音对文本的单词置信度差异

如何检测语音到文本中的句子检测是否已完成(Unity IBM Watson sdk)?

IBM Watson语音到文本发送麦克风数据关闭了连接

使用ibm-watson服务C#进行语音到文本

IBM Watson语音到文本Python,“ DetailedResponse”对象没有属性“ getResult”

IBM Watson语音到文本仅使用Java SDK返回第一个单词

使用ibm watson文本到语音服务处理多个查询

Twilio的IBM Watson语音到文本插件影响一个电话号码

无法访问Watson对话的输入文本

谷歌云语音到文本不提供 OGG 和 MP3 文件的输出

IBM Watson IAM令牌适合所有服务还是特定于每种服务(例如语音到文本)?

IBM Watson语音转文本:无法使用Swift SDK转录文本

IBM Watson语音对带有IAM API密钥的WebSocket授权文本

对于Watson的语音转文本Unity SDK,如何指定关键字?

使用Postman测试语音转文本Watson API,但出现错误401

使用IBM Watson语音文本NPM模块难以注册回调URL