如何使用 librosa 将 .ogg opus 解码为 int16 NumPy 数组？

blkpingu 发表于 Dev

黑屏

我想做什么

我正在尝试使用 Mozillas 语音到文本引擎deepspeech转录 Telegram 音频消息。

*.wav在 16 位 16khz 中使用完美无缺。

我想添加*.oggopus 支持，因为 Telegram 将这种格式用于音频消息。

到目前为止我尝试过的

我曾尝试pyogg和音效档到目前为止，没有运气。

Soundfile 可能完全无法读取 opus 格式，如果没有 conda，安装 pyogg 会很痛苦。我有过非常奇怪的时刻，它确实让 python 崩溃了。

现在，我正在尝试结果不一的 librosa。

data, sample_rate = librosa.load(path)

tmp = np.array(data, np.float16)

tmp.dtype = np.int16

int16 = np.array(tmp, dtype=np.int16)

metadata = model.sttWithMetadata(int16)

Deepspeech 真的很喜欢np.int16。model.sttWithMetadata本质上是对抄写员的呼吁。

现在，它确实转录了一些东西，但与我在音频信息中所说的内容相去甚远。

乔恩·诺德比

librosa 返回一个数组浮点数，范围-1.0为1.0。在int16 中，最大值是32767。所以你必须乘以缩放信号，然后转换为int16。

data, sample_rate = librosa.load(path)

int16 = (data * 32767).astype(np.int16)

metadata = model.sttWithMetadata(int16)

快速解释为什么 32767：

在16 位计算中，一个整数可以存储 216 个不同的值。

这意味着，无符号整数的范围可以从 0 到 65,535，两个补码表示从 -32,768 到 32,767。这意味着，具有 16 个机器人内存地址的处理器一次可以访问 64KB（或 64 * 1024 = 65,436 个唯一地址）的内存。

如果我们的浮点数组具有范围从 -1.0 到 1.0 的值，我们将信号缩放 32,767 倍，以使其与您的 deepspeech 模型期望找到的 16 位地址兼容。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-10

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用纯 JavaScript（无 JQuery）在两个 div 之间删除 div

如何使用Python将numpy数组（wav数据）转换为int16？

如何在Safari中播放/解码Ogg Opus Audio？

将numpy int16音频数组转换为float32

如何使用ffmpeg的libavcodec将opus文件解码为pcm文件？

如何将Int16音频样本的数据转换为浮动音频样本的数组

将标签添加到Ogg Opus文件

将 bin 文件读取为 int16

如何在r中将PostgreSQL的bytea列十六进制解码为int16 / uint16？

如何在保持比特率和采样率不变的情况下将aac转换为ogg opus

如何使用 JSONDecoder 将 Int 解码为字符串？

如何将固定数组解码为对象？

使用 ffmpeg [python soundfile] 从 opus 转换为 ogg 文件

如何使用Opus编码和解码音频

如何将数组的numpy数组重塑为单行

使用值数组将numpy分组为多个子数组

如何使用Circe将缺少的JSON数组解码为空列表

IL代码将Int16加载为Int32

分割Ogg Opus文件流

如何将Platform :: Array <uint16>转换为原始int16 *

如何将JPG文件编码/解码为int序列？

如何使用大小为m的滑动窗口将numpy数组划分为n个子数组？

将很大的json解码为结构数组

将 json 数组解码为frozensets

无法将数组解码为ObjectID

将JSON数组解码为Javascript

通过DLNA将FLAC，Ogg Vorbis和Opus文件播放到渲染器

将.mp3转换为.ogg opus /电报bot / node js

Numpy，如何将向量重塑为多列数组

如何在Swift中从内存播放[Int16]音频样本数组

TOP 榜单

文章