近日,南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。其核心在于“一致自注意力”机制,强化图像间一致性,无需额外训练即可提升现有文本到图像模型的表现。加之“语义运动预测器”,利用语义空间预测图像序列间的流畅变换,尤其在长视频生成中展现了前所未有的稳定性与主体一致性。此框架使基于文本的复杂故事视觉化成为可能,不仅在角色与场景细节一致性上超越 IP-Adapter 等工具,还能精准匹配文本描述。
南开大学和字节跳动联合开发的StoryDiffusion模型是一种新的机器学习技术,主要用于生成具有长距离相关性的图像和视频。以下是该模型的一些主要特点:
1.一致性自注意力(Consistent Self-Attention):该模型通过一种新的自注意力计算方法,在生成图像时建立批内图像之间的联系,以保持人物的一致性。这种机制无需训练即可生成主题一致的图像,解决了在一系列生成的图像中保持内容一致性的挑战,尤其是对于包含复杂主题和细节的图像。
2.语义运动预测器(SemanticMotion Predictor):为了将这种方法扩展到长视频生成,StoryDiffusion引入了语义运动预测器,将图像编码到语义空间,并预测语义空间中的运动,以生成视频。这种基于语义空间的运动预测比仅基于潜在空间的预测更加稳定。
3.两阶段长视频生成方法:通过Consistent self-attention机制生成的图像可以顺利过渡为视频,实现两阶段长视频生成方法。结合这两个部分,可以生成常长且高质量的AIGC视频。
4.用户交互性:用户可以通过提供一系列用户输入的条件图像,使用Image-to-Video模型生成视频。此外,用户还可以通过Jupyter notebook或本地adio demo来生成漫画。
5.应用范围:StoryDiffusion的应用范围广泛,包括漫画生成、图像转视频等多种场景。
StoryDiffusion模型利用了一种称为StoryGAN的生成模型,该模型可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频生成技术中的局限性,使得生成的图像和视频更加自然和连贯。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
相关推荐
在数字时代的浪潮中,编程已成为推动科技进步和创新的核心动力。为了助力国内
开发者更高效、智能地进行编程工作,
字节
跳动公司近日发布了全新的智能
开发工具——豆包 MarsCode。这款工具基
发表于07-01 15:03
•
449次阅读
在全球技术竞争日益激烈的背景下,
字节
跳动正通过
一项新的合作来巩固其在人工智能领域的地位。据两位消息人士透露,这家科技巨头正在与美国芯片设计公司博通(Broadcom)携手,共同
开发
发表于06-24 18:16
•
1546次阅读
在科技领域,芯片作为“现代工业的粮食”,其重要性不言而喻。近日,据路透社报道,全球知名的互联网公司
字节
跳动正在与美国芯片巨头博通公司合作,共同
开发
一款5纳米制程的AI处理器。这
发表于06-24 16:16
•
699次阅读
近日,关于
字节
跳动秘密启动AI手机研发项目的传闻引起了广泛关注。然而,
字节
跳动相关人士在12日对此进行了澄清,表示这
一消息并不属实。
发表于06-13 11:48
•
591次阅读
为进
一步推动人工智能与教育的深度融合,促进教育变革创新,培养智能时代公能兼备的高层次创新型人才,
南开大学依托自身优势,紧紧围绕立德树人根本任务,制定推出涵盖教育教学、技术设施、管理服务三个篇章的“人工智能赋能人才培养行动计划”(以下简称“行动计划”)。
发表于05-22 11:51
•
517次阅读
近日,在2024春季火山引擎FORCE原动力大会实体产业及教科研专场上,
南开大学与火山引擎成功举办了深度合作签约仪式。此次合作标志着双方将携手共筑“AI+教育”的新篇章,共同推动教育行业数字化转型。
发表于05-20 11:16
•
480次阅读
近日,
字节
跳动在2024年春季火山引擎Force原动力大会上宣布,其自主研发的豆包大
模型正式开启对外服务。这
一大
模型家族涵盖了多个细分领域,
发表于05-16 09:29
•
359次阅读
在近日举行的火山引擎原动力大会上,
字节
跳动公司正式发布了其强大的豆包大
模型。据火山引擎总裁谭待透露,这款大
模型展现了惊人的数据处理能力,目前日均处理文本量高达1200亿Tokens,并
发表于05-15 11:26
•
579次阅读
3月7日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与
南开大学共同举办的“
南开大学OpenHarmony技术俱乐部成立大会”在津南校区综合
发表于03-08 08:37
•
286次阅读
字节
跳动辟谣推出中文版Sora 期待国产Sora大
模型“文成视频大
模型”的热度持续火爆,大家都在期待国产的大
模型面世。科技巨头
发表于02-21 17:29
•
694次阅读
近日,有传闻称
字节
跳动在Sora文生视频
模型发布之前,已经推出了
一款名为Boximator的颠覆性视频
模型。传闻还指出,这款
发表于02-20 13:58
•
516次阅读
在 Sora 引爆文生视频赛道之前,国内的
字节
跳动也推出了
一款颠覆性视频
模型——Boximator。
发表于02-20 13:44
•
843次阅读
据悉,有媒体曝光,
字节
跳动可能涉足未公开地使用OpenAI技术来
开发自家的大规模语言
模型,这与OpenAI的服务条款相悖。因此,该公司的账户现已经被OpenAI暂时禁用。
发表于12-18 10:39
•
401次阅读
回顾过去,
字节
跳动早在 4月份就明文规定,严禁将 GPT
模型生成的数据添加到大
模型的训练数据集中,并且指导工程师们在使用 GPT 时遵循服务条款。更值得关注是,9 月时,
发表于12-18 09:53
•
415次阅读
,
字节
跳动也会长期投入XR(扩展现实)业务。 PICO成立于2015年3月,致力于“成为领先的世界级XR平台,成就
开发者与创作者,共同为全球消费者创造更美好的生活体验”。于2021年9月并入
字
发表于10-24 17:38
•
1512次阅读
评论