扩散模型给素描上色!多模态视频生成模型;

AIGC
后台-插件-广告管理-内容页头部广告(手机)

ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text

 

本文研究了基于彩色图像对素描图像进行上色的模型,研究了基于参考扩散模型的三个关键方面:与基于文本的对应模型的缺点、训练策略,以及在零样本和序列文本操作方面的能力。同时,本文还提出了两种图像引导的潜在扩散模型变体,并使用预训练的CLIP图像编码器产生的不同image token进行训练。

AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI

 

AI Generated Content (AIGC)领域正在迅速发展,尤其是视频生成技术。本文引入了AIGCBench,这是一个主要用于评估图像到视频(I2V)生成等任务的基准,该基准解决了现有基准数据集多样性不足的问题。该基准包括11个度量标准,涵盖四个维度,以评估算法性能。这些维度包括控制视频对齐、运动效果、时间一致性和视频质量。这些度量标准既包括参考视频依赖性也包括视频独立性,确保了全面的评估策略。所提出的评估标准与人类判断高度相关,可以揭示当前I2V算法的优缺点。

DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models

 

为了解决目标在低质量数据集上的定位问题,现有的方法需要训练新的目标检测网络或使用大量低质量数据集进行训练。本文提出了一种名为DiffYOLO的框架,用于增强经过良好训练的YOLO模型。该框架使用从DDPM中提取的特征图来优化模型,使其可以在高质量数据集上进行微调,并在低质量数据集上进行测试。实验结果表明,该框架不仅提高了在噪声数据集上的性能,在高质量测试数据集上也取得了良好的检测结果。

aMUSEd: An Open MUSE Reproduction

 

aMUSEd是一个基于MUSE的轻量级masked image model(MIM),用于文本到图像的生成。与MUSE相比,aMUSEd只有10%的参数,可以快速生成图像。与潜在扩散相比,MIM需要更少的推理步骤,更易于解释。此外,MIM可以通过单张图片进行微调来学习其他风格。作者发布了两个直接在256x256和512x512分辨率上生成图像的模型的权重。

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

 

Moonshot是一个新型视频生成模型,可以同时处理图像和文本的多模态输入。该模型基于一个称为多模态视频块(MVB)的模块,它包括用于表示视频特征的传统空间时间层,以及一个解耦的交叉注意力层,处理图像和文本输入。此外,作者设计了可以与预训练的ControlNet模块集成的模型架构,可以进行几何视觉控制,且无需像以前的方法那样需要额外的训练开销。实验表明,通过多样化的多模态条件机制,Moonshot在视觉质量和时间一致性方面表现出显著优于现有模型的性能。此外,该模型可以轻松地应用于各种生成应用,例如个性化视频生成、图像动画和视频编辑。

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

 

本文提出了一种生成全身逼真动画人物框架,该框架可以根据对话动态生成手势,根据给定音频可以输出多种可能的运动姿势,包括面部、身体和手部。该方法的关键在于结合了向量量化样本多样性的优点以及通过扩散获得的高频细节,以生成更动态、更有表现力的运动。为了促进这一研究领域的发展,本文引入了首个多视角对话数据集,该数据集允许进行逼真重建。实验表明,该模型可以生成多样化的手势,优于仅使用扩散和向量量化的方法。

CoMoSVC: Consistency Model-based Singing Voice Conversion

 

CoMoSVC 是一种基于一致性模型的 SVC 方法,旨在实现高质量生成和高速度采样。它首先设计了一个基于扩散的teacher模型,然后进一步通过自我一致性属性进行student模型的学习,以实现一步采样。在单个 NVIDIA GTX4090 GPU 上进行的实验表明, CoMoSVC 的推理速度不仅比最先进的基于扩散的 SVC 系统快得多,同时仍然在主观和客观指标上实现了与 SOTA 方法相当或更好的转换性能。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。