港大联合微信推出DiffMM：扩散模型重塑多模态推荐系统的全新范式

===

香港大学黄超教授领导的数据智能实验室，与微信研发团队联合开发了一种基于扩散模型的全新多模态推荐系统范式 - DiffMM。这项创新性成果融合了扩散模型技术，能够有效利用多种模态数据，为用户提供个性化、精准的多媒体内容推荐服务。

论文标题：

DiffMM: Multi-Modal Diffusion Model for Recommendation

论文链接：

https://arxiv.org/abs/2406.11781

代码链接：

https://github.com/HKUDS/DiffMM

实验室主页：

https://sites.google.com/view/chaoh

TLDR

随着在线多模态分享平台（如 TikTok 和 YouTube）的迅速发展，个性化推荐系统可以将视觉、文本和音频等多种模态融合到用户表示中。然而，数据稀疏性问题仍然是这些系统面临的一个重大挑战。为了应对这一问题，近年来的研究引入了自监督学习技术，以增强推荐系统的性能。然而，现有的方法通常依赖简单的随机增强或直观的跨视图信息，这可能会引入无关噪声，并且难以精确地将多模态上下文与用户-项目交互进行匹配。

为了解决这一研究空白，作者提出了一种新颖的基于多模态图扩散的推荐模型，称为 DiffMM。该框架结合了模态感知图扩散模型和跨模态对比学习范式，以提升模态感知用户表示的学习效果。这种整合方式有助于更好地对齐多模态特征信息与协同关系建模。

DiffMM 利用扩散模型的生成能力自动构建用户-物品图，这个图能够表示不同模态下的用户-物品交互信息，从而有助于将有用的多模态知识融入到用户-物品交互建模中。作者在三个公共数据集上进行了大量实验，结果表明，DiffMM 在各种基准模型中表现出了显著的优越性。

研究背景

多媒体推荐系统在电子商务和内容共享应用中扮演着关键角色，这些应用涉及大量网络多媒体内容，如短视频、图片和音乐。这些系统处理多种类型的内容特征，包括视觉、声学和文本特征，从而能够细致地捕捉用户的兴趣。例如，VBPR [1] 扩展了矩阵分解框架以处理物品的多模态特征。ACF [2] 引入了一个层次注意力网络，用于识别用户在组件级别的偏好。

最近，诸如 MMGCN [3]、GRCN [4] 和 LATTICE [5] 等方法利用图神经网络（GNNs）将模态信息整合到信息传递过程中，以推断用户和物品的表示。然而，大多数现有的多媒体推荐系统依赖于大量高质量标记数据（即观察到的用户交互）进行监督训练。在现实生活中的推荐场景中，用户交互数据相对于整个交互空间是稀疏的，这限制了监督模型生成能够准确表示复杂用户偏好的嵌入。

最近的研究提出了一些解决方案，通过将自监督学习（SSL）技术与多模态特征相结合，来增强多模态推荐任务的效果。例如，CLCRec [6] 和 MMSSL [7] 采用了基于互信息的自监督学习方法来丰富多模态特征中的物品嵌入。同时，MMGCL [8] 和 SLMRec [9] 引入了随机扰动来进行对比学习，以增强模态特征。

然而，这些方法常常依赖于简单的随机增强或直观的跨视图嵌入对齐，可能会引入不相关的噪音信息，包括用户误点击行为或流行偏差所导致的增强型自监督信号。因此，需要一个自适应的模态感知增强模型，以实现更准确的自监督学习，并能够有效地将多模态上下文信息与相关的协同信号对齐，用于用户偏好学习。这将确保在多媒体推荐系统中稳健地建模模态感知的协同关系。

为了解决上述问题，作者提出了 DiffMM，一种新颖的多模态图扩散模型，用于推荐任务。受到最近扩散模型在各个领域任务中的出色表现的启发，DiffMM 专注于利用扩散模型的生成能力，生成一个多模态感知的用户-物品图，以有效地对用户-物品交互进行建模。

具体而言，作者通过逐步破坏的过程，向用户-物品交互图引入随机噪声。然后，通过一个逆向过程，反复恢复经过步累积噪声的破坏图，以还原原始的用户-物品图结构。

为了进一步引导逆向过程并生成一个多模态感知的用户-物品图，作者引入了一个简单而有效的多模态感知信号注入机制。通过生成的多模态感知的用户-物品图，作者进一步提出了一种多模态感知的图神经网络范式，用于多模态图的聚合。这使得 DiffMM 能够有效地捕捉与不同模态相关的用户偏好。此外，作者还提出了一个跨模态对比学习框架，通过不同模态下用户-物品交互模式的一致性，进一步增强推荐系统对多模态上下文的学习能力。

模型方法

DiffMM 的总体框架图如下所示，主要分为三个部分：1. 多模态图扩散模型，它通过生成扩散模型来实现多模态信息引导的模态感知用户-物品图的生成。2. 多模态图聚合，该部分在生成的模态感知用户-物品图上进行图卷积操作，以实现多模态信息的聚合。3. 跨模态对比增强，采用对比学习的方式来利用不同模态下用户-物品交互模式的一致性，从而进一步增强模型的性能。

3.1 多模态图扩散

受到扩散模型在保留生成输出基本数据模式方面的成功启发，DiffMM 框架提出了一种创新的多模态推荐系统方法。具体而言，作者引入了一个多模态图扩散模块，用于生成包含模态信息的用户-物品交互图，以增强对不同模态下用户偏好的建模。该框架专注于解决多模态推荐系统中无关或噪声模态特征带来的负面影响。

为了实现这一目标，作者采用模态感知去噪扩散概率模型将用户-物品协同信号与多模态信息统一起来。具体而言，作者逐步破坏原始用户-物品图中的交互，并通过概率扩散过程进行迭代学习，以恢复原始交互。这种迭代去噪训练有效地将模态信息纳入用户-物品交互图的生成中，同时减轻了噪声模态特征的负面影响。

此外，为了实现模态感知的图生成，作者提出了一种新颖的模态感知信号注入机制，用于指导交互恢复过程。这个机制在有效地将多模态信息纳入用户-物品交互图的生成中起到了关键作用。通过利用扩散模型的能力和模态感知信号注入机制，DiffMM 框架为增强多模态推荐器提供了一个强大而有效的解决方案。

3.1.1 图概率扩散范式

在用户-物品交互图的扩散过程中，涉及两个主要步骤。首先是前向过程，它通过逐渐引入高斯噪声，来破坏原始的用户-物品图。这一步骤模拟了噪声模态特征对用户和物品之间交互的负面影响。其目的是逐渐削弱用户与物品之间的连接。接下来是逆向过程，它专注于学习和去噪受损的图连接结构。该过程的目标是通过逐步改进受损的图，来恢复用户与物品之间的原始交互。

对于前向图扩散过程，考虑用户和物品集合中每个物品的交互情况，用来表示，其中等于 0 或 1 表示用户是否与物品发生过交互。首先，将扩散过程进行初始化，即。在接下来的步中，逐渐引入高斯噪声，以构建的马尔可夫链。具体来说，可以将从到的过程参数化为：

当时，状态会逐渐接近一个符合高斯分布的标准状态。为了得到状态，作者使用了重参数技巧和独立高斯噪声可叠加的特性，直接从初始状态推导出来：

对于逆向图扩散过程而言，DiffMM 的目标是通过消除来自的噪声来逐步恢复。这个过程使得多模态扩散能够有效地捕捉复杂的生成过程中微小的变化。从开始，去噪过程逐步恢复用户-物品交互，逆向过程如下展开：

这里，作者使用参数为的神经网络来生成一个高斯分布的均值和协方差。

3.1.2 模态感知的图扩散优化

扩散模型的优化目标是引导逆向图扩散过程。为了实现这一目标，需要优化负对数似然的 Evidence Lower Bound（ELBO）来优化：

对于，有三种情况：

这里，是的负重建误差；是一个在优化中可以忽略的常量项，因为它不包含可优化的参数；旨在通过 KL 离散度使分布和可计算的分布对齐。

为了实现图扩散的优化，作者设计了一个神经网络，以在反向过程中进行去噪处理。根据贝叶斯法则，可被表示为如下近似表达：

更进一步，可以表示为：

这里，是基于和时间步预测的，作者使用神经网络来实现它。具体而言，作者使用一个多层感知器（MLP）来实现，该 MLP 以和时间步的嵌入表示作为输入来预测。对于，可以被表示为：

在实际实现中，作者从中均匀采样来得到时间步：

多模态图扩散的目标是通过用户-物品的多模态感知图来增强推荐系统。为了实现这一目标，作者提出了一种模态感知信号注入（MSI）机制，用于引导扩散生成模块生成带有相应模态的多个模态感知用户-物品图。

具体而言，作者将对齐的物品模态特征与预测的模态感知用户-物品交互概率进行聚合。同时，作者还将物品 id 嵌入与观察到的用户-物品交互进行聚合。最后，通过计算上述两个聚合嵌入之间的均方误差损失，并结合进行优化。具体而言，模态 𝑚 的均方误差损失定义如下：

3.2 跨模态对比增强

在多模态推荐场景中，用户在不同物品模态（如视觉、文本和音频）上的交互模式存在一定的一致性。以短视频为例，用户可能会被其视觉和音频特征所吸引，因此视觉偏好和音频偏好往往会交织在一起，呈现出复杂的关系。为了提高推荐系统的性能，捕捉和利用这种模态相关的一致性，作者提出了两种基于不同锚点的模态感知对比学习范式。一种范式以不同模态视图作为锚点，另一种范式则以主视图（协同过滤）作为锚点。

3.2.1 模态感知的对比视图

为了生成特定模态的用户/物品嵌入表示作为对比视图，作者使用了基于 GNN 的表示学习方法。具体而言，在图扩散模型生成的模态感知用户-物品图上进行消息传递。首先，作者将物品原始模态信息转化为相同维度的物品模态特征：

接下来，对用户嵌入和物品模态特征进行信息聚合，得到聚合的模态感知嵌入：

这里，表示通过图扩散模型生成的模态感知图。为了获得多模态感知的高阶协同信息，作者进一步在原始用户-物品交互图进行了迭代的消息传递：

3.2.2 模态感知的对比增强

作者在文中探讨了两种不同的对比方法，以模态感知的对比视图为基础。其中一种方法使用不同的模态视图作为锚点，而另一种方法则使用主视图作为锚点。前一种方法认为用户在不同模态中的行为模式具有关联性，而后一种方法则希望用户在不同模态中的行为模式可以引导和提升主视图的偏好表达。在这里，主视图是指通过 GNN 在多个模态感知图上聚合并进一步融合的用户和物品表达。两种对比方法分别采用了以下对比损失（InfoNCE loss）：

以模态视图作为锚点。基于用户行为模式在不同模态上的相关性，作者将不同模态的嵌入作为视图，并通过 InfoNCE 损失来最大化两个模态视图之间的互信息，将其他用户的嵌入表示作为负样本：

以主视图作为锚点。目标是通过对比学习的方法利用用户在不同模态上的行为模式来引导和提升目标推荐任务的性能。为此，作者将竹石图的嵌入表示作为锚点，将最大化主视图和不同模态视图之间的互信息作为优化目标：

3.3 多模态图聚合

为了生成最终的用户（物品）表示以进行预测，作者首先对所有的模态感知嵌入和相应的模态感知用户-物品图进行聚合：

由于每个模态对于最终聚合的模态表示有不同的影响程度，作者使用一个可学习的参数化向量控制各个模态的权重，以求和的方式融合各个模态的表示：

最后作者在原始的用户-物品交互图上进行消息传递，以利用用户和物品的高阶协同信号：

3.4 多任务模型训练

DiffMM 的训练包含两个部分：对于推荐任务的训练和对于多模态图扩散模型的训练。对于扩散模型的联合训练，也包括两个部分：ELBO 损失和 MSI 损失。对于模态的扩散模型去噪网络的优化损失如下：

对于推荐任务的训练，作者引入了经典的贝叶斯个性化排名（BPR）损失和多模态对比增强损失，BPR 损失定义如下：

推荐任务的联合优化目标如下：

实验结果

作者在三个公开数据集上对比了多种类型的最新基线模型，包括传统的协同过滤方法、基于 GNN 的方法、生成扩散推荐方法、自监督推荐方法以及 SOTA 的多模态推荐方法。通过进行广泛而充分的实验，结果显示提出的 DiffMM 在总体性能上表现最优。

为了验证所提出方法各个模块（i.e., 多模态图扩散模型，多模态图聚合，和跨模态对比增强）的有效性，作者进行了细致的消融实验。实验结果显示，所提出的各个子组件都能有效地提升推荐效果：

作者进一步研究了 DiffMM 在处理数据稀疏问题上的效果。具体而言，作者根据训练集中用户的交互数量对用户进行了分组，并分别进行训练。实验结果显示，DiffMM 中的跨模态对比学习方法能够有效地缓解数据稀疏的情况。该方法利用了由多模态图扩散模型生成的模态感知用户-物品图，从而获取高质量的自监督信号。

对于所提出的 DiffMM，作者对一些重要的超参数进行了分析，包括多模态图聚合模块中的超参数、模态感知扩散模型中的 MSI 权重：

为了全面地评估所提出的模态感知图扩散模型对推荐系统性能的影响，作者进行了一项实验。实验比较了模态感知用户-物品图（由 DiffMM 生成）与通过边丢弃进行随机增强的用户-物品图之间的融合比率对于自监督增强对比视图构建的影响。融合比率为 0 表示只使用模态感知的用户-物品图构建对比视图，而融合比率为 1 表示只使用随机增强方法。

实验结果明确表明，在两个数据集中，融合比率的增加导致模型性能下降。这一发现显示，模态感知的图扩散模型通过提供模态感知的对比视图而不是随机增强视图来增强跨模态对比学习的优越性。这个优势可以归因于基于图扩散的生成方法对潜在交互模式的有效建模，以及通过精心设计的生成机制将多模态上下文纳入到用户-物品交互图的扩散过程中。

为了评估所提出的模态信号注入机制（MSI）的给多模态扩散模型带来的多模态用户-物品图生成能力，作者对生成的模态感知用户-物品图进行了详细的案例研究。下面左图展示了使用图像模态特征在 Amazon-Baby 数据集上生成的模态感知图中随机抽样得到的一个子图。右图显示了一个热图，表示基于相应模态特征的物品相似性。

结果显示，构建的图结构与模态特征相似性之间存在着很强的相关性。例如，在生成的图中，物品 1131 和 337都是用户 1171 的邻居，并且它们在热图中表现出一个高相似度得分 0.85。这个相似度得分是物品 1131 的最高分，物品 337 的第二高分。同样地，物品 1334 和 2108，它们在生成的图中与同一个用户 1108 连接，并且它们之间存在着高相似度得分 0.97，这表明它们具有模态感知的相似性。

值得注意的是，这些物品对在原始的用户-物品交互图中并没有直接的连接。相反，它们的连接是通过模态特征的影响建立的。这个案例研究清楚地证明了 DiffMM 在生成模态特定图方面的有效性，从而通过高质量的数据增强提高了跨模态对比学习。

这一优势源于 DiffMM 的两个关键设计元素。首先，基于扩散的图生成方法通过逐步的前向和反向去噪训练准确地捕捉了潜在的用户-物品交互模式。其次，MSI 机制成功地将模态特定信息融入到扩散过程中，确保生成的图反映了每个模态的独特特征。

总结

本文介绍了一种新颖的多模态推荐模型 DiffMM。通过结合多模态信息，它丰富了概率扩散范式。该方法利用多模态图扩散模型来重构模态感知的用户-项目图，并利用跨模态数据增强模块的优势提供有价值的自监督信号。为了评估 DiffMM 的有效性，作者进行了大量的实验，并与多个具有竞争力的基线模型进行了比较。实验结果明确表明 DiffMM 在推荐性能方面具有优越性。

参考文献

[1] R. He and J. McAuley. Vbpr: visual bayesian personalized ranking from implicit feedback. In AAAI, volume 30, 2016.

[2] J. Chen, H. Zhang, X. He, L. Nie, W. Liu, and T.-S. Chua. Attentive collaborative filtering: Multimedia recommendation with item-and component-level attention. In SIGIR, pages 335–344, 2017.

[3] Y. Wei, X. Wang, L. Nie, X. He, R. Hong, and T.-S. Chua. Mmgcn: Multi-modal graph convolution network for personalized recommendation of micro-video. In MM, pages 1437–1445, 2019.

[4] Y. Wei, X. Wang, L. Nie, X. He, and T.-S. Chua. Graph-refined convolutional network for multimedia recommendation with implicit feedback. In MM, pages 3541–3549, 2020.

[5] J. Zhang, Y. Zhu, Q. Liu, S. Wu, S. Wang, and L. Wang. Mining latent structures for multimedia recommendation. In MM, pages 3872–3880, 2021.

[6] Y. Wei, X. Wang, Q. Li, L. Nie, Y. Li, X. Li, and T.-S. Chua. Contrastive learning for cold-start recommendation. In MM, pages 5382–5390, 2021.

[7] W. Wei, C. Huang, L. Xia, and C. Zhang. Multi-modal self-supervised learning for recommendation. In WWW, pages 790–800, 2023.

[8] Z. Yi, X. Wang, I. Ounis, and C. Macdonald. Multi-modal graph contrastive learning for micro-video recommendation. In SIGIR, pages 1807–1811, 2022.

[9] Z.Tao,X.Liu,Y.Xia,X.Wang,L.Yang,X.Huang,andT.-S.Chua.Self-supervised learning for multimedia recommendation. Transactions on Multimedia (TMM), 2022.

更多阅读