C114通信网  |  通信人家园

人工智能
2025/2/6 15:29

字节跳动展示 OmniHuman 多模态框架:图片 + 音频 = 逼真动画,半身全身均可生成

IT之家  清源

字节跳动的研究人员近日展示了一款 AI 模型,可以通过一张图片和一段音频生成半身、全身视频。

字节跳动表示,和一些只能生成面部或上半身动画的深度伪造技术不同,OmniHuman-1 能够生成逼真的全身动画,且能将手势和面部表情与语音或音乐精准同步

字节跳动在其 OmniHuman-lab 项目页面发布了多个测试视频,包括 AI 生成的 TED 演讲和一个会说话的阿尔伯特 爱因斯坦。

在周一发布的一篇论文中,字节跳动指出,OmniHuman-1 模型支持不同的体型和画面比例,从而使视频效果更自然。

据了解,字节跳动表示,OmniHuman-1 模型基于约 19000 小时的人类运动数据训练而成,能够在内存限制内生成任意长度的视频,并适应不同的输入信号。

研究人员还表示,OmniHuman-1 在真实性和准确性方面,超越了其他同类动画工具。目前,该工具暂不提供下载或有关服务。

给作者点赞
0 VS 0
写得不太好

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2025 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141