新型后门攻击直指Scaffold,NTU联手0G Labs揭示

发表于：2025-08-11 20:00:04 浏览：2次发布者：网易互联网

机器之心发布

机器之心编辑部

通过使用控制变元（control variate）来校准每个客户端的本地梯度，Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。但尽管 Scaffold 实现了显著的性能提升，这种优越性是以增加安全漏洞为代价的。

本文中，NTU、0G Labs等机构提出了BadSFL，这是首个针对 Scaffold 的后门攻击方法，它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。

BadSFL 的核心思想是在不引人注意的情况下，篡改控制变元，从而巧妙地引导良性客户端的本地梯度更新朝着攻击者设定的「中毒」方向前进，有效地使它们在无意间成为协助者，显著增强了后门的持久性。

另外，BadSFL 利用一个经过生成对抗网络（GAN）增强的数据投毒策略，丰富了攻击者的数据集，在保持对正常样本和后门样本都具有高精度识别能力的同时，保持隐蔽性。

大量实验证明，BadSFL 在攻击持续性方面表现出色，即使在停止恶意模型注入之后，仍能维持超过 60 轮的攻击效果——比现有基准方法持续时间长达三倍。

该论文已经入选 ICCV 2025。

论文标题：Mind the Cost of Scaffold!Benign Clients May Even Become Accomplices of Backdoor Attack
论文链接：https://arxiv.org/abs/2411.16167

引言

联邦学习（Federated Learning，简称 FL）在保护客户端数据隐私的同时，实现了分布式模型训练。然而，FL 模型的有效性在很大程度上取决于训练数据在各客户端之间的分布情况。通常存在以下两种场景：1）IID 数据：训练数据在各客户端之间均匀分布；2）非 IID 数据：更符合现实的数据分布情况，即各客户端的数据特征存在显著差异。在 IID 场景下，已有工作FedAvg脱颖而出，它通过聚合来自客户端的模型参数，设定了服务器端模型更新的标准。然而，在非 IID 场景中，其性能会显著下降。由于数据异质性，不同客户端的更新方向存在偏移，最终导致模型收敛效果变差。

为应对这一挑战，Scaffold作为一种稳健的联邦学习（FL）方法被提出，旨在通过基于控制变元（control variates）的校正机制来减缓客户端更新的偏移，从而提升在非 IID 场景下的模型收敛性。控制变元本质上是对客户端本地梯度与全局梯度之间差异的估计，它有助于将本地更新方向与全局优化目标对齐。Scaffold 能够减少由于数据异质性引起的更新方差，使其在客户端拥有多样化数据分布的场景中表现尤为出色。

然而，Scaffold 联邦学习（SFL）不仅改变了 FL 模型的收敛方式，也影响了其对抗恶意操控的鲁棒性。具体而言，联邦学习中的恶意客户端可以利用模型更新机制注入后门行为，将隐藏的异常行为植入全局模型中。尽管已有大量研究关注 FL 中的后门攻击，但大多数现有工作主要聚焦于 IID 场景，在这些场景中，攻击者对数据集分布具有完全认知，因此可以轻松构造中毒更新。相比之下，非 IID 数据分布引入了额外的限制，使得攻击者更难在不显著降低整体性能的前提下，将中毒模型与全局模型对齐。虽然近期已有研究开始探索非 IID 联邦学习中的后门攻击，但这些研究在很大程度上忽视了 SFL 引入的独特安全隐患。

因此，本论文旨在探讨的问题是：「SFL 的新机制（即用于校正更新偏移的控制变元）是否可能引入新的安全威胁，并在非 IID 场景中无意间为后门攻击提供便利？」

我们对上述问题的回答是肯定的。我们的新发现是：Scaffold 对控制变元的依赖引入了一种新的攻击面—— 其原本用于通过将本地更新与全局目标对齐以稳定训练过程的校正机制，实际上可能在无意中放大了恶意更新的影响。更关键的是，这一机制允许攻击者直接影响控制变元本身，从而有效地将良性客户端「招募」为协助实施攻击的帮凶。

由于所有客户端在更新过程中都会使用控制变元来调整本地梯度，因此一旦控制变元被篡改，就可以在不易察觉的情况下引导这些诚实客户端的梯度朝着攻击者设定的「中毒方向」演化。这种方式极大地增强了后门攻击的传播范围，使得 Scaffold 比没有类似校正机制的标准 FL 方法（如 FedAvg）更容易受到复杂攻击的影响。

为了利用上述发现，我们提出了一种专门针对 Scaffold 联邦学习（SFL）的新型后门攻击方法 ——BadSFL，该方法能够在不显著破坏模型对正常样本推理性能的前提下，成功地将后门功能植入全局模型。

与以往的攻击方法不同，BadSFL 利用了 Scaffold 的校正机制，不仅增强了后门的隐蔽性，还提升了其持久性，从而揭示了 SFL 方法中的一个关键漏洞。BadSFL 的运作流程包括如下：

GAN 补全数据知识：由于攻击者只能部分掌握 FL 系统中的数据分布信息，他通过使用生成对抗网络（GAN）生成属于其他客户端的数据样本来补充自身数据集，从而模拟出对整体数据分布的全面认知。在此补充数据集上进行后门训练后，攻击者可以获得在后门任务和正常任务上都表现良好的后门模型。
隐蔽后门触发器设计：攻击者选择某个类别中的特征作为后门触发器，从而保持攻击的隐蔽性。
操控全局控制变元：攻击者利用全局控制变元作为参考，用于预测全局模型的收敛方向。这一优化策略显著增强了后门功能在全局模型中的持久性

联邦学习中的非 IID 场景

在联邦学习（FL）中，非 IID是指客户端之间的数据分布存在显著差异。在非 IID 场景下，这种本地数据分布的不一致会导致本地最优解与全局最优解之间存在偏差。这种偏差会引发本地模型更新的漂移现象，即本地模型倾向于朝着各自的本地最优解前进，而这些本地最优解可能与全局最优解相距甚远。因此，将这些本地模型进行平均时，得到的全局模型可能会偏离真实的全局最优解，尤其是在存在大量本地训练轮次的情况下。

如下图 1 所示，在 IID 场景下，全局最优解与本地最优解相对一致，而在非 IID 场景下，全局最优解可能与单个本地最优解相距较远，这一现象被称为客户端漂移（client-drift），从而导致 FL 训练过程中的收敛变慢且不稳定。

为了解决上述挑战，学术界已经提出了多种联邦学习（FL）算法，其中Scaffold是最为实用的解决方案。它通过在服务器端和客户端同时使用控制变元（即方差缩减技术）来应对客户端漂移问题。这些控制变元能够估计全局模型与本地客户端模型的更新方向，并根据漂移对本地更新进行校正，从而减少本地最优解与全局最优解之间的偏差（见算法 1）。在本文中，我们主要聚焦于针对 SFL（Scaffold Federated Learning）的后门攻击设计。

后门攻击在 SFL 中的挑战

在SFL（Scaffold Federated Learning）中实施后门攻击面临以下挑战：

知识有限。在非 IID 场景中，攻击者对各客户端数据分布缺乏了解，这是主要挑战之一。与 IID 场景不同，在 IID 中对数据集有集中化的认知，有利于攻击者操控；而非 IID 场景涉及分散且多样化的数据分布。这会导致以下三个问题：

直接的后门策略可能会导致良性样本上的性能大幅下降，从而使全局模型被拒绝；
数据分布的差异性加剧了本地模型与全局模型之间的差距，使得恶意模型更容易被检测到；
将中毒模型与全局模型平均聚合会降低其在主要任务上的性能。

控制变元。在 SFL 中，控制变元（记为 c_i）用于纠正客户端漂移，使本地模型与全局模型对齐。如果攻击者严格遵守协议，在植入触发器的过程中使用 c_i 对恶意模型进行校正，攻击效果可能会减弱。相反，如果攻击者选择不当篡改 c_i 并将恶意的 c 上传至服务器，则可能导致全局模型被破坏。
后门灾难性遗忘。灾难性遗忘是指神经网络在学习新任务时忘记先前已学任务的现象。这会导致后门功能随着时间推移而失效。如果攻击者停止上传恶意更新，后门功能最终可能会被良性更新「抹去」。

别器 D，并对生成器 G 进行新一轮优化训练，以引导其生成更加真实、接近其他客户端数据的伪样本。最终，这些高质量的合成样本会被整合进攻击者原始的非 IID 数据集，从而有效地补充了额外的数据类别。

实验结果

本文在 MNIST、CIFAR-10 以及 CIFAR-100 三个数据集上对 BadSFL 的有效性进行了实验评估。实验比较了 4 个其它的已知后门攻击，包括Block-box Attack、Neurotoxin、Irreversible Backdoor Attach (IBA) 和 3DFed。下表 1 总结了细节的实验设置。

从图 6a 到图 6f，我们展示了在 CIFAR-10 和 CIFAR-100 数据集上与基准方法的攻击对比。可以明显看出，BadSFL 在攻击有效性和持久性方面都优于基准攻击方法。

具体来说，在攻击者仍参与训练过程、执行后门训练并向服务器上传恶意更新的前 10 轮中，BadSFL 在所有类型的后门攻击中都实现了超过 80% 的后门任务准确率。同时，BadSFL 保持主要任务的准确率在 60% 左右（见下图 5b）。此外，即使攻击者在第 40 轮退出训练过程，后续轮次中的良性客户端仍会继续上传正常更新，这可能会影响攻击者在之前攻击轮次中的中毒更新，从而逐渐抹去后门功能。

尽管如此，BadSFL 仍能保证后门功能的持久性，在整个 100 轮 SFL 训练中后门任务准确率始终保持在 90% 以上，这比两种基准攻击的生命周期长3 倍（基准攻击的后门任务准确率在第 60 轮后降至 50% 以下）。横向对比不同类型的后门触发器注入效果（图 6a、6b 和 6c），可以发现基于特征的触发器表现最佳，得益于其隐蔽性，它不直接篡改图像，因此其更新与良性更新冲突的可能性较小。

图 6g 和图 6h 展示了在MNIST 数据集上获得的实验结果。类似地，BadSFL 也优于其他基准攻击方法，在后门任务准确率和主要任务准确率上均超过 85%。当恶意更新在第 40 轮停止注入后，在标签翻转攻击中，两种基准攻击的后门任务准确率在 10 轮内灾难性地下降到 40% 以下，而 BadSFL 在后续轮次中能在全局模型中保持长达 5 倍更持久的后门功能。在触发器模式攻击中，BadSFL 也在全局模型中注入了更高效的后门功能，其准确率比基准方法高出 10%。

总结

本文提出了BadSFL，这是一种专为使用 Scaffold 聚合算法的非 IID 联邦学习环境设计的新型后门攻击。通过采用基于 GAN 的数据增强技术并利用 Scaffold 的控制变元，BadSFL 在攻击有效性、隐蔽性和持久性方面均优于现有方法。我们在多个基准数据集上的实验结果表明，该攻击具有显著的有效性，且后门功能的持续时间远超已有方法。未来，我们希望研究人员能够设计出更稳健的防御机制，

新型后门攻击直指Scaffold,NTU联手0G Labs揭示

猜你喜欢