C114通信网  |  通信人家园

人工智能
2024/6/6 14:41

Stable Audio Open开源AI模型发布:48.6万个样本训练,可创建47秒短音频/音效等

IT之家  故渊

Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以基于用户输入的提示词,生成高质量音频样本。

Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。

Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。

Stability AI 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。

Stable Audio Open 和 Stable Audio 2.0不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。

给作者点赞
0 VS 0
写得不太好

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141