查看原文
其他

腾讯音乐在音质 AIGC 的应用与实践

何礼 DataFunSummit
2024-09-10

导读 本次分享内容为腾讯音乐天琴实验室在音质 AIGC 方面的应用与实践。

主要包括以下几大部分:

1. 背景介绍

2. 音乐分离

3. 音乐超分

4. 臻品母带

5. 问答环节

分享嘉宾|何礼 腾讯音乐 高级研究员 

编辑整理|张少华

内容校对|李瑶

出品社区|DataFun


01

背景介绍

QQ 音乐在 12.0 时,完善了音乐音质音效体系。

不仅在 SQ 和 HQ 上提高了标准,同时在音效方面提出了臻品 2.0,对标 Apple Music 的立体声空间音频。此外,还成为了国内首家引入杜比全景声的音乐流媒体平台。

AIGC 的应用主要聚焦在用户听歌“听得舒心”的场景。QQ 音乐多年来一直致力于音质的优化,包括算法、检测、标准制定、客户端的播放等各个方面。音乐 AIGC 的主要场景包括音乐分离、音乐超分和臻品母带。接下来分别进行介绍。

02

音乐分离

音乐分离是音乐领域的一个主流的研究方向。

从早期 18 年的语音分离技术 Conv-TasNet、20 年的 PG 频域分离算法 Spleeter,到 21 年字节提出的 ResUNetDecouple+,用更深的网络进行人声分离,再到 22 年 Meta 提出的 Hybrid Demucs 成为 MDX2021 的冠军。2023 年QQ 音乐与 AI lab 合作推出了一个子带分离模型 BSRNN,其基本原理包括两个方面,首先是对整个信号的一个频域进行子带的切分,切分之后从时域帧间序列建模,再对频域子带进行序列建模。

参考文献:Luo Y, Yu J. Music source separation with band-split rnn[J]. arXiv preprint arXiv:2209.15174, 2022.
这里的核心思想是音乐信号除了在时间上存在着很强的相互关系,同时在频域上也存在着很强的关系,BSRNN 从音乐信号的本质考虑分离任务,相比于之前直接用更深的网络,或者从 CV 等其他领域去迁移到音频领域的方式,对音乐领域可能具有更强的适配性。

音乐分离技术的第一个应用场景是臻品全景声,其基本原理是参考杜比全景声的制作流程,将音乐分离出多个轨道信号,再利用全景声的空间混音技术,获得有空间感的臻品全景声。

另外一些应用场景包括,TME 聚星平台、TME Studio 和启明星,直接面向用户提供音乐分离服务,包括声伴分离,6 轨分离,大家可以到官网体验。

除了在 QQ 音乐上应用音乐分离,在全民 K 歌上也有很多应用场景,比如全民 K 歌临境音效,作为 VIP 用户的核心权益,用户可以 DIY 音效,在分离之后,用户可以根据自己的喜好去设置乐器的不同摆放方位,获得实时空间感的体验。此外,音乐分离还可以用于全民 K 歌五维打分模板的制作,以及全民 K 歌伴奏库,帮助实现伴奏分离,补充全民 K 歌伴奏库。

另外,音乐分离还应用在懒人听书,比如长音频消伴场景。因为有些长音频,会存在背景音乐或噪声,而用户可能只关注于内容本身,这时可以通过干声分离技术为用户提供纯净版的音频,也就是更优质的音质选项。音乐分离技术还应用到了 AIGC-X,通过干声分离将歌曲人声分离出来,然后通过模型去判断这个人声是否是 AI 生成的。另一应用场景是启明星音色试唱,通过声伴分离,干声音色转换,再与伴奏 mix,生成一个新的试听 Demo。

音乐分离还会用在低频公益,这是专门针对听障人士的歌曲增强与补偿。还会有一些ToB 的应用场景。

整体来讲,BSRNN 技术的基本原理是基于频域切分子带的思路,切分后对时域和频域进行序列建模,从而更加适用于音乐任务。分离业务包括三类,一类是作为一个子模块支持各个业务,另一类是 ToC 的应用,直接提供给用户,最后一类是一些 ToB 的商务合作。

03

音乐超分

音乐超分主要应用在臻品音质 2.0,可以在端上对 CD 或者 MP3 的品质进行实时处理,能够达到 96kHz/24bit 的 Hi-Res 音质。

04

臻品母带

接下来介绍行业首创的一个功能,臻品母带。

什么是母带?回顾歌曲的整个制作流程,歌曲创作的时候包括作曲、编曲,在录制和混音之后,形成最终的母带,通常在流媒体下发的时候,会编码成各种不同的码率进行流媒体播放。母带可以认为是最原始的一个音质品质,通常至少会有 192 kHz/24bit。SQ 品质,标准可能最高会达到 48kHz/24bit。

实际上从右下图不同品质的频响曲线可以看到,通过一些有损或无损编码,SQ 跟母带主要差异集中在一些高频的部分,低频部分实际上是一致的。对于有损编码,主要涉及到 MP3 这类的编码方式,通常为了极限的压缩空间,除了高频与母带有差异,它的低频可能会有一些丢失,因为它对体系要求会更高一些。因此这里的母带可能需要对低频进行修复,对高频进行还原。

QQ 音乐臻品母带功能,实现了统一进行低频修复和高频还原,实现了更佳的优化效果,同时大幅减少了推理耗时,降低了计算成本。

最新的臻品母带 2.0 版本于 2023 年 7 月上线之后,业务指标有了明显的增长。

总结一下这一部分的内容,首先,母带是一个歌曲制作完成后的最初版本,它的格式能达到 192kHz/24bit。端侧模型,与 1.0 相比,2.0 采用了统一的模型进行低频修复和高频还原,主客观指标和推理耗时显著优于 1.0。在业务上线之后,PU、UV、人均时长等指标,以及口碑都有着比较明显的提升。

以上就是本次分享的内容,谢谢大家。

05

问答环节

Q:可以分离一段音频的不同人声吗?

A:不同人声可能有两种情况,一种是类似于合唱的情况,另一种是和声。合唱是 A 和 B 都会唱。和声的情况更常见,一般歌曲都有和声。QQ 音乐是可以将和声分离出来的。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


何礼

腾讯音乐

高级研究员

何礼,腾讯音乐高级研究员,主要从事音频算法的研究与应用,发明专利 17,在 ICME、EUSIPCO 等领域顶级会议发布论文数篇。目前主要负责音质 AIGC 相关技术的研发与落地,推动音乐分离技术广泛应用于 QQ 音乐、全民 K 歌、懒人听书等十余项业务,行业首创的臻品母带技术将国内数字音乐引领至 192kHz/24bit。

课程推荐

往期推荐


劳斯莱斯数据科学工程实践

EB 级存储规模 HDFS 在字节的探索与实践

蚂蚁大规模知识图谱构建及其应用

全民K歌音频技术:灵魂歌手的升级神器!

LLM 在马上消费金融的应用实践

字节数据可视化 VTable——不止是高性能表格组件

兼顾降本增效,StarRocks 3.0 关于存算这对CP分离的最佳"姿势"

爱奇艺大数据平台的技术演进与功能实践

因果推断在蚂蚁风控场景中的应用

字节在电商领域的数据治理体系和实践

腾讯TRS之元学习与跨域推荐的工业实战

大模型的高效训练和部署技术卷出新高度!

360跨模态视频开放式标签挖掘技术实践分享

点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存