欢迎大家在评论区多提建议~
想要第一时间获取每日最新大模型热门论文?
扫描下方二维码,加入「大模型技术分享群」。
或点击"阅读原文",获取「2024 必读大模型论文」合集(包括日报、周报、月报,持续更新中~)。
以下,为 2024 年 4 月份,我们收录的一些热门大模型研究论文。文章篇幅较长,共计 4.5万余字,建议收藏~
第 1 章 文生图
【清华、Meta 提出文生图定制新方法 MultiBooth】
来自清华大学和 Meta 的研究团队提出了一种用于从文生图的多概念定制的新型高效技术—— MultiBooth。尽管定制生成方法取得了长足的进步,特别是随着扩散模型的快速发展,但由于概念保真度低和推理成本高,现有方法在处理多概念场景时依然困难。
为了解决这些问题,MultiBooth 将多概念生成过程分为两个阶段:单一概念学习阶段和多概念整合阶段。在单概念学习阶段,他们采用多模态图像编码器和高效的概念编码技术,为每个概念学习一个简明且具有辨别力的表征;在多概念整合阶段,他们使用边界框来定义交叉注意图中每个概念的生成区域。这种方法可以在指定区域内创建单个概念,从而促进多概念图像的形成。
这一策略不仅提高了概念的保真度,还降低了额外的推理成本。在定性和定量评估中,MultiBooth 都超越了各种基线,展示了其卓越的性能和计算效率。
论文链接:https://arxiv.org/abs/2404.14239
项目地址:https://multibooth.github.io/
【 ID-Aligner:利用奖励反馈学习增强"文生图"身份保持】
扩散模型的快速发展催生了各种应用。尤其是身份保持的文本到图像生成(ID-T2I),因其广泛的应用场景(如人工智能肖像和广告)而备受关注。
虽然现有的 ID-T2I 方法已经取得了令人瞩目的成果,但仍存在几个关键挑战:1)很难准确保持参考肖像的身份特征;2)生成的图像缺乏美感,尤其是在要求身份保持时;3)无法同时兼容基于 LoRA 和基于 Adapter 的方法。
为了提高 ID-T2I 的性能,来自中山大学和字节跳动的研究团队,提出了一种通用反馈学习框架——ID-Aligner。同时,为了解决身份特征丢失的问题,他们提出了身份一致性奖励微调,利用人脸检测和识别模型的反馈来改进生成的身份保存。此外,他们还提出了身份美学奖励微调,利用人类标注的偏好数据奖励和自动构建的字符结构生成反馈,从而提供美学调整信号。
得益于其通用反馈微调框架,该方法可轻松应用于 LoRA 和 Adapter 模型,从而实现一致的性能提升。在 SD1.5 和 SDXL 扩散模型上进行的大量实验验证了该方法的有效性。
论文链接:https://arxiv.org/abs/2404.15449
项目地址:https://idaligner.github.io/
【LazyDiffusion:用于交互式图像编辑的懒惰扩散 Transformer】
来自 Adobe 研究院和特拉维夫大学的研究团队提出了一种新型扩散 transformer——LazyDiffusion,它能高效地生成局部图像更新。他们以交互式图像编辑应用为目标,在这些应用中,用户从空白画布或图像开始,使用二进制掩码和文本提示指定一系列局部图像修改。
他们的生成器分两阶段运行。首先,上下文编码器处理当前画布和用户掩码,生成一个紧凑的全局上下文来适应要生成的区域。其次,以该上下文为条件,基于扩散的 transformer 解码器以"lazy"的方式合成掩膜像素,即只生成掩码区域。
之前的工作要么重新生成整个画布,浪费时间和计算,要么将处理范围限制在掩膜周围的狭小矩形区域,完全忽略了全局图像上下文。他们的解码器的运行时间与掩码大小成比例,掩码大小通常很小,而他们的编码器带来的开销可以忽略不计。实验证明,在质量和保真度方面,他们的方法与最先进的内绘方法相比具有竞争力,同时在典型的用户交互中(编辑掩码占图像的 10%),速度提高了 10 倍。
论文链接:https://arxiv.org/abs/2404.12382
GitHub 地址:https://lazydiffusion.github.io/
【MoA:新型"文生图"扩散模型个性化架构】
Snap 研究团队提出了一种新的架构——混合注意力(MoA),用于文本到图像扩散模型个性化。受大型语言模型(LLMs)中使用的专家混合机制(Mixture-of-Experts mechanism)的启发,MoA 在两个注意力路径之间分配生成工作量:个性化分支和非个性化先验分支。
MoA 的设计目的是通过将注意力层固定在先验分支中来保留原始模型的先验性,同时通过个性化分支尽量减少对生成过程的干预,该分支学会将主题嵌入到先验分支生成的布局和上下文中。一种新颖的路由机制可以管理各层像素在这些分支中的分布,从而优化个性化和通用内容创建的融合。
经过训练后,MoA 就能帮助创建高质量的个性化图像,这些图像包含多个主体,其构图和交互方式与原始模型生成的图像一样多样化。重要的是,MoA 增强了模型原有能力与新增强的个性化干预之间的区别,从而提供了一种以前无法实现的更加独立的主体—语境控制。
论文链接:https://arxiv.org/abs/2404.11565
项目地址:https://snap-research.github.io/mixture-of-attention/
【Controlnet++:利用高效一致性反馈改进条件控制】
目前,为了增强文本到图像扩散模型的可控性,ControlNet 纳入了基于图像的条件控制。然而,来自佛罗里达中央大学和字节跳动的研究团队提出,现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。
他们提出了一种新方法 Controlnet++,通过显式优化生成图像和条件控制之间的像素级循环一致性,来改善可控生成。具体来说,对于一个输入条件控制,他们使用预训练的判别奖励模型来提取生成图像的相应条件,然后优化输入条件控制与提取条件之间的一致性损失。一个直接的实现方法是从随机噪声中生成图像,然后计算一致性损失,但这种方法需要存储多个采样时间步的梯度,消耗了相当大的时间和内存成本。
为了解决这个问题,他们提出了一种有效的奖励策略,通过添加噪声故意干扰输入图像,然后使用单步去噪图像进行奖励微调。这避免了与图像采样相关的大量成本,允许更有效的奖励微调。
大量实验表明,Controlnet++ 在各种条件控制下显著提高了可控性。例如,在分割掩码、线条艺术边缘和深度条件方面,它比 ControlNet 分别提高了 7.9% mIoU、13.4% SSIM 和 7.6% RMSE。
论文链接:https://arxiv.org/abs/2404.07987
【RLCM:通过强化学习微调一致性模型】
强化学习(RL)通过直接优化获取图像质量、美学和指令跟随能力的奖励,改进了扩散模型的引导图像生成。然而,由此产生的生成策略继承了扩散模型的迭代采样过程,导致生成速度缓慢。
为了克服这一局限性,一致性模型提出学习一类新的生成模型,直接将噪声映射到数据,从而产生一种只需一次采样迭代就能生成图像的模型。
在这项工作中,为了优化文本到图像生成模型从而获得特定任务奖励,并实现快速训练和推理,来自康奈尔大学的研究团队提出了一种通过 RL 对一致性模型进行微调的框架——RLCM,其将一致性模型的迭代推理过程构建为一个 RL 过程。RLCM 在文本到图像生成能力方面改进了 RL 微调扩散模型,并在推理过程中以计算量换取样本质量。
实验表明,RLCM 可以调整文本到图像的一致性模型,从而适应那些难以通过提示来表达的目标(如图像压缩性)和那些来自人类反馈的目标(如审美质量)。与 RL 微调扩散模型相比,RLCM 的训练速度明显更快,提高了在奖励目标下测量的生成质量,并加快了推理过程,只需两个推理步骤就能生成高质量图像。
论文链接:https://arxiv.org/abs/2404.03673
项目地址:https://rlcm.owenoertell.com/
【InstantStyle:实现"风格保护"的文生图】
基于 Tuning-free 扩散的模型已经在图像个性化和定制领域展现出了巨大潜力。
然而,目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先,风格的概念本质上是不确定的,它包含多种元素,如颜色、材料、氛围、设计和结构等等。其次,基于反转的方法容易造成风格退化,往往会导致精细细节的丢失。最后,基于适配器的方法经常需要对每张参考图像进行细致的权重调整,从而实现风格强度和文本可控性之间的平衡。
在这项工作中,InstantX 团队首先研究了几个引人注目但却经常被忽视的问题。然后,他们提出了一个用于解决这些问题的框架——InstantStyle,包括两个关键策略:(1)一种直接的机制,将风格和内容与特征空间内的参考图像解耦,其前提是同一空间内的特征可以相互添加或减去;(2)将参考图像特征完全注入特定风格块中,从而防止风格泄漏,并避免了繁琐的权重调整,这通常是参数较多的设计的特点。
这一工作展示了优秀的视觉风格化成果,在风格的强度和文本元素的可控性之间取得了最佳平衡。
论文链接:https://arxiv.org/abs/2404.02733
项目地址:https://instantstyle.github.io/
【SPRIGHT:提高"文生图"模型的空间一致性】
当前文本到图像(T2I)模型的主要缺陷之一是无法始终如一地生成忠实于文本提示中指定的空间关系的图像。
来自亚利桑那州立大学、Intel Labs 的研究团队及其合作者,对这一局限性进行了全面的研究,同时还开发了能达到 SOTA 的数据集和方法。
研究团队发现当前的视觉语言数据集不能很好地表现空间关系;为了缓解这一瓶颈,他们从 4 个广泛使用的视觉数据集中抽取了 600 万张图片重新进行标注,进而创建了首个以空间为重点的大规模数据集——SPRIGHT。通过三重评估和分析,他们发现 SPRIGHT 在捕捉空间关系方面比现有数据集有很大改进。为了证明 SPRIGHT 的功效,他们只利用了约 0.25% 的 SPRIGHT,就在生成空间精确图像方面提高了 22%,同时还提高了 FID 和 CMMD 分数。
此外,他们发现在包含大量物体的图像上进行训练可大幅提高空间一致性。值得注意的是,通过在小于 500 张图像上进行微调,他们在 T2I-CompBench 上达到了 SOTA,空间分数为 0.2133。
论文链接:https://arxiv.org/abs/2404.01197
项目地址:https://spright-t2i.github.io/
【上海 AI Lab 新研究:将 LVLM 分辨率提升到 4K HD】
由于分辨率限制,大型视觉语言模型(LVLM)在理解细粒度视觉内容方面面临挑战。
来自上海 AI Lab 和香港中文大学的研究团队提出了 InternLM-XComposer2-4KHD —— 将 LVLM 分辨率提升到 4K HD(3840 x 1600)及更高分辨率。同时,考虑到并非所有场景都需要超高分辨率,它支持从 336 像素到 4K 标准的各种不同分辨率,大大拓宽了其适用范围。
研究表明,将训练分辨率扩展到 4K HD 可带来持续的性能提升,而不会触及潜在改进的上限。InternLM-XComposer2-4KHD 在 10 项测试中表现出了与 GPT-4V 和 Gemini Pro 相媲美甚至超越的能力。
论文链接:https://arxiv.org/abs/2404.06512
Github 地址:https://github.com/InternLM/InternLM-XComposer
第 2 章 文/图生视频
【ID-Animator:零样本身份保持人类视频生成器】
生成具有指定身份(ID)的高保真人类视频,已引起内容生成领域的极大关注。然而,现有技术很难在训练效率和身份保持(identity preservation)之间取得平衡,要么需要进行繁琐的逐个微调,要么通常会在视频生成过程中遗漏 ID 细节。
来自中国科学技术大学、中国科学院和腾讯的研究团队,提出了一种零样本人类视频生成方法 ID-Animator,它可以在给定单个参考面部图像的情况下,无需进一步训练即可生成个性化视频。ID-Animator 继承了现有的基于扩散的视频生成骨干技术,并配备了人脸适配器,可从可学习的面部潜在查询中编码与 ID 相关的嵌入。
为了便于在视频生成过程中提取 ID 信息,他们提出了一个面向 ID 的数据集构建管道,该管道从构建的面部图像池中整合了解耦人类属性和动作字幕技术。在此基础上,他们进一步设计了一种随机人脸参考训练方法,从而从参考图像中精确捕捉与 ID 相关的嵌入,从而提高该模型在特定 ID 视频生成中的保真度和泛化能力。
大量实验证明,ID-Animator 在生成个性化人类视频方面达到了 SOTA。此外,他们的方法与流行的预训练 T2V 模型(如 animatediff 和各种社区骨干模型)高度兼容,在需要保持 ID 的视频生成实际应用中具有很高的可扩展性。
论文链接:https://arxiv.org/abs/2404.15275
GitHub 地址:https://github.com/ID-Animator/ID-Animator
【PhysDreamer:通过视频生成,与 3D 物体进行基于物理交互】
逼真的物体交互对于创造身临其境的虚拟体验至关重要,然而如何根据新颖的交互合成逼真的 3D 物体动力学仍是一项重大挑战。
与无条件或文本条件动态生成不同,动作条件动态生成需要感知物体的物理材料属性,并根据这些属性(如物体刚度)进行 3D 运动预测。然而,由于缺乏真实材料数据,估计物理材料属性是一个未决问题,因为测量真实物体的这些属性非常困难。
来自麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学的研究团队提出了一种基于物理学的方法 PhysDreamer ,它利用视频生成模型学习到的物体动力学先验,赋予静态 3D 物体以交互式动态效果。通过提炼这些先验,PhysDreamer 能够合成逼真的物体对外力或智能体操作等新型交互的反应。
他们在各种弹性物体示例中演示了这种方法,并通过用户研究评估了合成交互的逼真度。PhysDreamer 通过使静态 3D 物体以物理上可信的方式对交互刺激做出动态响应,向更吸引人、更逼真的虚拟体验迈出了一步。
论文链接:https://arxiv.org/abs/2404.13026
项目地址:https://physdreamer.github.io/
【"图生频"新研究:剪贴画秒变卡通动画】
剪贴画是一种预先制作的图形艺术形式,为视觉内容提供了一种方便、高效的说明方式。将静态剪贴画图像转换成动态序列的传统工作流程既费力又费时,其中涉及许多复杂的步骤,如装配、关键动画和中间处理。文本到视频生成技术的最新进展为解决这一问题带来了巨大潜力。
然而,直接应用文字视频生成模型往往难以保留剪贴画图像的视觉特征或生成卡通风格的动作,导致动画效果不尽如人意。来自香港城市大学和莫纳什大学提出了一个将静态剪贴画图像转化为由文本到视频先验指导的高质量运动序列系统 AniClipart。
为了生成卡通风格的平滑运动,他们首先在剪贴画图像的关键点上定义 Bézier 曲线,作为一种运动正则化形式。然后,通过优化视频分数蒸馏采样(VSDS)损失,将关键点的运动轨迹与所提供的文字提示对齐,该损失在预训练的文字视频扩散模型中编码了足够的自然运动知识。该方法采用了可微分的形状变形算法(As-Rigid-As-Possible shape deformation algorithm),可以在保持变形刚度的同时进行端到端优化。
实验结果表明,在文本-视频对齐、视觉特性保持和运动一致性方面,AniClipart 始终优于现有的图像-视频生成模型。展示了 AniClipart 的通用性,通过调整它来生成更广泛的动画格式,如分层动画,允许拓扑变化。
论文链接:https://arxiv.org/abs/2404.12347
项目地址:https://aniclipart.github.io/
【 MagicTime:一种变形延时视频生成模型】
目前,文生视频(T2V)技术的进展在从文本描述合成高质量的通用视频方面取得了 SOTA。
然而,T2V 中一个很大程度上被忽视的问题是,现有模型没有充分编码真实世界的物理知识,因此生成的视频往往具有有限的运动和较差的变化。
来自北京大学和罗切斯特大学的研究团队提出了一种名为 MagicTime 的变形延时视频生成模型,该模型从延时视频中学习真实世界的物理知识,并实现了变形生成。
首先,他们设计了一个 MagicAdapter 方案来解耦时空训练,从变形视频中编码更多的物理知识,并转换预训练 T2V 模型来生成变形视频。其次,他们提出了一种适应变形延时视频的动态帧提取策略,它具有更大的变化范围,涵盖了戏剧性的物体变形过程,因此比一般视频体现了更多的物理知识。最后,他们提出了一个魔术文本编码器,以提高对变形视频提示的理解。此外,该研究团队还创建了一个名为 ChronoMagic 的延时视频文本数据集,专门用于解锁变形视频生成能力。
实验证明,MagicTime 在生成高质量和动态变形视频方面达到了 SOTA,表明延时视频生成是构建物理世界变形模拟器的一个途径。
论文链接:https://arxiv.org/abs/2404.05014
项目网站:https://github.com/PKU-YuanGroup/MagicTime
【 CameraCtrl:为文生视频模型增加"相机控制"】
可控性在视频生成中起着至关重要的作用,因为它允许用户创建所需的内容。然而,现有模型在很大程度上忽视了对相机姿态的精确控制,而相机姿态能够表达更深层次叙事细微差别的电影语言。为了解决这个问题,来自香港中文大学、上海 AI Lab 和斯坦福大学的研究团队提出了 CameraCtrl,为文本到视频(T2V)模型提供精确的相机姿态控制。
据介绍,在精确设定相机轨迹参数后,即插即用的相机模块就可以在 T2V 模型上进行训练,而无需其他模型。此外,对各种数据集的效果进行的综合研究表明,相机分布多样、外观相似的视频确实增强了可控性和通用性。实验结果表明,CameraCtrl 能有效实现精确的领域自适应相机控制,这标志着在通过文本和相机姿态输入实现动态和定制化视频叙事方面又向前迈进了一步。
论文链接:https://arxiv.org/abs/2404.02101
项目地址:https://hehao13.github.io/projects-CameraCtrl/
第 3 章 文生音频
【英伟达推出 Audio Dialogues:用于音频和音乐理解的对话数据集】
现有的音频理解数据集主要集中在单回合交互(即音频字幕、音频问答)上,用于以自然语言描述音频,从而限制了通过交互式对话理解音频。
为了解决这一差距,英伟达研究团队提出了一个包含 163.8k 样本的多回合对话数据集——Audio Dialogues,用于一般音频和音乐。除了对话,Audio Dialogues 还具有问答对,可以一起理解和比较多个输入音频。
Audio Dialogues 利用基于提示的方法和来自现有数据集的标题注释,使用大型语言模型(LLM )生成多回合对话。在所提出的数据集上评估了现有的音频增强的大型语言模型,从而证明音频对话的复杂性和适用性。
论文链接:https://arxiv.org/abs/2404.07616
Github 地址:https://audiodialogues.github.io/
【港科大提出 FlashSpeech:高效零样本语音合成】
目前,语言模型和扩散模型在大规模零样本语音合成方面取得了显著进展。然而,这两种方法的生成过程都很慢且计算量很大。使用较低的计算预算进行高效语音合成,达到与之前工作相当的质量,仍然是一个重大挑战。
来自香港科技大学的研究团队及其合作者,提出了一个大规模的零样本语音合成系统——FlashSpeech,与以前的工作相比,它的推理时间大约减少了 5%。FlashSpeech 建立在潜在一致性模型的基础上,并应用了一种新的对抗一致性训练方法,无需预先训练的扩散模型作为"教师",即可从头开始训练。此外,新的韵律生成器模块增强了韵律的多样性,使语音的节奏听起来更加自然。
FlashSpeech 的生成过程可以通过一个或两个采样步骤高效地完成,同时保持高音频质量和与零样本语音生成音频提示的高相似性。实验结果证明 FlashSpeech 达到了 SOTA。值得注意的是,FlashSpeech 可以比其他零样本语音合成系统快 20 倍,同时在语音质量和相似性方面保持相当的性能。此外,FlashSpeech 通过有效地执行语音转换、语音编辑和多样化的语音采样等任务展示了其通用性。
论文链接:https://arxiv.org/abs/2404.14700
GitHub 地址:https://flashspeech.github.io/
【Stability AI 推出长音乐生成模型,时常可达 4 分 45 秒】
基于音频的音乐生成模型近来取得了重要进展,但迄今为止还无法生成具有连贯音乐结构的完整音乐曲目。在这项工作中,Stability AI 表示,通过对长时空背景的生成模型进行训练,可以生成长达 4 分 45 秒的长篇音乐。据介绍,该模型由一个在高度降采样的连续潜在表征上运行的 diffusion-transformer 组成。根据音频质量和提示对齐度量标准,它在生成结果方面获得了 SOTA,主观测试表明,它能生成具有连贯结构的长篇音乐。
论文链接:https://arxiv.org/abs/2404.10301
项目地址:https://stability-ai.github.io/stable-audio-2-demo/
【Tango 2:通过直接偏好优化对齐基于扩散的文生音频模型】
生成式多模态内容在许多内容创作领域日益流行,因为它有可能让艺术家和媒体人员通过快速将他们的想法带到生活中来创建预制作模型。根据文字提示生成音频,是在音乐和电影行业中这类流程的一个重要方面。
目前,许多基于文生视频的扩散模型专注于在大量提示音频对数据集上训练日益复杂的扩散模型。然而,这些模型并没有明确地关注概念或事件的存在,以及它们在输出音频中与输入提示相关的时间顺序。
来自新加坡科技设计大学的研究团队及其合作者假设关注的是音频生成的这些方面如何在数据有限的情况下提高音频生成的性能。他们使用现有的文本到音频模型 Tango,综合创建了一个偏好数据集,其中每个提示都有一个赢家的音频输出和一些输家的音频输出,供扩散模型学习。从理论上讲,输家的输出可能缺少提示中的一些概念或顺序不正确。
他们在偏好数据集上使用 diffusion-DPO 损失对公开可用的 Tango 文生视频模型进行了微调,并表明它在自动和手动评估指标方面优于 Tango 和 AudioLDM2 的音频输出。
论文链接:https://arxiv.org/abs/2404.09956
GitHub 地址:https://github.com/declare-lab/tango
【Melodist:实现包含人声和伴奏的可控文生歌曲模型】
歌曲是歌声和伴奏的结合,然而,现有的工作主要集中在歌唱声音合成和音乐生成上,很少有人关注歌曲合成。
来自浙江大学的研究团队提出了一项名为"文本到歌曲合成"(text-to-song synthesis)的新任务,其中包含人声和伴奏的生成,他们开发的 Melodist 是一种两阶段文本到歌曲方法,包括歌唱语音合成 (SVS)和人声到伴奏合成 (V2A)。Melodist 利用三塔对比预训练来学习更有效的文本表示,用于可控的 V2A 合成。
为了缓解数据的稀缺性问题,他们构建了一个从音乐网站中挖掘出的中文歌曲数据集。在他们的数据集上的评估结果表明,Melodist 可以合成具有相当质量和风格一致性的歌曲。
论文链接:https://arxiv.org/abs/2404.09313
项目地址:https://text2songmelodist.github.io/Sample/
【微软、上交大推出 CoVoMix:实现多个对话者的多轮对话】
近来,零样本文本到语音(TTS)建模技术的进步推动了高保真和多样化语音的生成,然而,对话生成以及实现类似人类的自然语音仍然是该领域的一项挑战。
在这项工作中,来自微软和上海交通大学的研究团队,提出了一种用于零样本、类人、多扬声器、多轮对话语音生成的新型模型——CoVoMix。
据介绍,CoVoMix 能够首先将对话文本转换成多个离散的 token 流,每个 token 流代表单个对话者的语义信息。然后,将这些 token 流输入一个基于流匹配的声学模型,生成混合旋律谱图。最后,使用 HiFi-GAN 模型生成语音波形。另外,他们还设计了一套衡量对话建模和生成效果的综合指标。
实验结果表明,CoVoMix 不仅能生成自然、连贯、类似人类的对话,还能让多个对话者进行多轮对话。这些在单通道中生成的对话具有无缝语音转换(包括重叠语音)和其他语言行为(如笑声)的特点。
论文链接:https://arxiv.org/abs/2404.06690
项目地址:https://www.microsoft.com/en-us/research/project/covomix/
【字节推出 VoiceShop:保留原音色,任意修改性别、口音和说话风格】
字节跳动提出了一个新型语音转语音框架——VoiceShop,其可以在一次前向传递中修改语音的多个属性,如年龄、性别、口音和说话风格,同时保留输入说话者的音色。
以往的工作局限于只能单独编辑这些属性的专用模型,并存在以下缺陷:转换效果不明显,没有针对分布外扬声器的零样本功能,或者合成输出会出现音色泄漏,从而改变说话者的感知身份。
该工作在一个简单的模块化框架中提出了解决上述问题的方案,该框架基于一个条件扩散骨干模型,并带有可选的基于归一化流的模块和序列到序列的扬声器属性编辑模块,这些模块的组件可在推理过程中组合或移除,从而满足各种任务的需要,而无需额外的模型微调。
论文链接:https://arxiv.org/abs/2404.06674
项目地址:https://voiceshopai.github.io/
【MuPT:生成式符号音乐预训练 Transformer】
来自多伦多大学、中国科学院深圳先进技术研究院的研究团队及其合作者探索了大型语言模型(LLMs)在音乐预训练中的应用。
虽然在音乐建模中普遍使用 MIDI 已是公认的事实,但研究结果表明,LLM 本身与 ABC Notation 更为兼容,后者更符合 LLM 的设计和优势,从而提高了模型在音乐创作中的性能。为了解决在生成过程中不同音轨的测量值不一致所带来的挑战,他们提出了一种同步的多音轨 ABC 记谱法(SMT-ABC Notation),旨在保持多个音乐音轨之间的一致性。
他们建立了一系列能够处理多达 8192 token 的模型,涵盖了训练集中 90% 的符号音乐数据。此外,他们还探索了符号音乐缩放定律(SMS Law)对模型性能的影响,研究结果为音乐生成的未来研究指明了一个有希望的方向。
论文链接:https://arxiv.org/abs/2404.06393
项目地址:https://map-mupt.github.io/
【 WavLLM:实现鲁棒性和自适应语音大语言模型】
近年来,大型语言模型(LLMs)的发展给自然语言处理领域带来了巨大变化,其范围逐渐扩大到多模态感知和生成。然而,如何有效地将听觉功能集成到 LLM 中,尤其是在不同语境下的泛化和执行复杂的听觉任务方面,提出了巨大的挑战。
来自香港中文大学、微软的研究团队提出了一种具有双编码器和提示感知 LoRA 权重适配器的鲁棒自适应语音大语言模型——WavLLM,其通过两阶段课程学习方法进行了优化。
利用双编码器,研究团队将不同类型的语音信息解耦,利用 Whisper 编码器处理语音的语义内容,利用 WavLLM 编码器捕捉说话者身份的独特特征。在课程学习框架内,WavLLM 首先通过优化混合初级单一任务来建立其基础能力,然后在更复杂的任务(如初级任务的组合)上进行高级多任务训练。
为了提高灵活性并适应不同的任务和指令,研究团队在第二个高级多任务训练阶段引入了提示感知的 LoRA 权重适配器。他们在通用语音基准(包括 ASR、ST、SV、ER 等任务)上验证了所提出的模型,并将其应用于专业数据集,如用于 SQA 的高考英语听力理解集和语音思维链(CoT)评估集。
实验证明,在相同的模型规模下,所提出的模型在一系列语音任务中都达到了 SOTA,在使用 CoT 方法执行复杂任务时表现出了强大的泛化能力。
论文链接:https://arxiv.org/abs/2404.00656
第 4 章 文/图生3D
【DreamScene360:无约束文本-3D 场景生成】
随着虚拟现实应用的需求日益增长,制作身临其境的 3D 资产也愈发重要。
来自加州大学洛杉矶分校、德州大学奥斯汀分校的研究团队,提出了一个文本到 3D 360 度场景生成管道,可在几分钟内为野外环境创建全面的 360 度场景。该方法利用 2D 扩散模型的生成能力和 prompt 的自我完善来创建高质量、全局一致的全景图像。该图像可作为初步的"平面"(2D)场景表示。随后,将其提升为 3D 高斯图像,利用拼接技术实现实时探索。
为了生成一致的 3D 几何图形,该管道将 2D 单目深度对齐到全局优化的点云中,从而构建出空间一致的结构。该点云是 3D 高斯中心点的初始状态。为了解决单视角输入中固有的隐形问题,他们对合成视角和输入相机视角施加了语义和几何约束,作为正则化处理。这些约束为高斯的优化提供了指导,有助于重建未见区域。
总之,与现有技术相比,该方法能在 360 度视角内提供全局一致的 3D 场景,从而增强身临其境的体验。
论文链接:https://arxiv.org/abs/2404.06903
项目地址:https://dreamscene360.github.io/
【清华朱军团队新研究:从单一图像到 3D 生成】
近来,根据文本提示或单张图像生成 3D 内容的技术在质量和速度上都取得了显著进步,其主流模式之一是生成一致的多视图图像,然后进行稀疏视图重建