Bark：开源文本生成音频模型，支持多语言和多样化音频生成

1.4K 0

Suno AI Bark官网网页版登录入口

Suno AI Bark官网地址：https://github.com/suno-ai/bark

Bark 是由 Suno 开发的开源文本生成音频模型，能够生成高度逼真的多语言语音、音乐、背景噪音和简单音效。它不仅可以生成语音，还能模拟笑声、叹息和哭泣等非语言交流。Bark 是一个完全生成式的文本到音频模型，适合研究和演示用途。

Suno AI Bark的核心功能

多语言支持：自动识别输入文本的语言，支持英语、德语、西班牙语、法语、中文等多种语言。
多样化音频生成：不仅能生成语音，还能生成音乐、背景噪音和简单音效。
非语言交流：模拟笑声、叹息、哭泣等非语言声音。
语音预设：支持 100+ 种语音预设，用户可以选择不同的音色和语调。
长文本生成：通过特定设置，支持生成更长的音频内容。

Suno AI Bark的使用案例

语音生成：用于生成多语言语音内容，适合语音助手、有声书等场景。
音乐生成：通过输入歌词生成音乐，适合音乐创作和背景音乐制作。
音效生成：生成简单的音效，适合游戏、视频制作等场景。
非语言交流：模拟笑声、叹息等非语言声音，适合情感表达和互动场景。

如何使用Suno AI Bark

安装：通过 `pip install git+https://github.com/suno-ai/bark.git` 安装 Bark。
生成音频：使用 `generate_audio` 函数生成音频，支持文本输入和语音预设。
保存音频：使用 `scipy.io.wavfile.write` 将生成的音频保存为 `.wav` 文件。
长文本生成：参考官方提供的 Notebook 示例，生成更长的音频内容。

Suno AI Bark常见问题：

Q:: Bark 生成的音频与提示不符，怎么回事？
A: Bark 是一个 GPT 风格的模型，可能会在生成过程中加入一些创意，导致输出与提示不完全一致。
Q:: Bark 支持哪些语音？
A: Bark 支持 100+ 种语音预设，涵盖多种语言。用户可以在官方库中浏览这些预设，社区也会在 Discord 上分享新的预设。
Q:: 为什么输出音频长度限制在 13-14 秒？
A: Bark 的架构和上下文窗口优化为生成大约 13-14 秒的音频，这是其设计的一部分。
Q:: 我需要多少显存才能运行 Bark？
A: 完整版的 Bark 需要大约 12GB 的显存。如果显存较小，可以通过设置 `SUNO_USE_SMALL_MODELS=True` 来使用较小的模型。
Q:: 生成的音频听起来像 1980 年代的电话录音，怎么回事？
A: Bark 是从零开始生成音频的，它并不总是生成高保真的语音，输出可能包含各种音质的声音。