G.O.S.S.I.P 阅读推荐 2024-08-02 维基静悄悄...：针对维基搜索的非法推广

今天为大家推荐的论文是由印第安纳大学廖晓静教授课题组、印第安纳大学王晓峰教授课题组和伍斯特理工学院刘晓钟教授课题组合作完成的关于利用维基系统进行非法推广与排序攻击的工作MAWSEO: Adversarial Wiki Search Poisoning for Illicit Online Promotion。该工作目前已发表于IEEE S&P 2024。

在这篇文章中，作者首次展示了在维基系统上进行黑帽搜索引擎优化（SEO）的自动化方法，并将其称为MAWSEO。攻击者利用对抗学习的方法，通过编辑维基文章，在维基系统的搜索结果中推广非法业务，如非法药店业务。为了成功实现内容推广，此方法能够同时实现多种网络犯罪目标，包括提升被污染网页的排名、躲避检测、保持主题相关性和语义一致性，以及在不引起警觉的情况下让用户注意到推广内容等。评估实验和用户调研表明，MAWSEO能够有效生成推广内容，绕过维基系统内置的恶意编辑检测软件，同时让推广内容通过维基用户的审核而不引起警觉。此外，为应对维基系统中的类似攻击，作者还研究了相关防御措施。

主要贡献

首次研究：探讨了在维基系统上利用多任务对抗性SEO进行非法推广的可行性，展示了如何攻击维基系统的搜索功能并污染搜索结果。
模型创新：提出了一种多任务对抗性段落检索模型，生成同时满足排名提升、检测逃避、语义一致和主题相关的恶意推广内容，并将其用于篡改目标维基文章。
实验评估：通过实验验证了MAWSEO在排名提升、检测逃避、主题相关和语义一致方面的有效性。
防御研究：研究了相关检测机制，以对抗这种非法推广的威胁。

维基系统和非法推广

很多国内外的维基平台已经成为网民们获取各类知识的重要来源，如维基百科、维基数据以及萌娘百科（二次元的小伙伴们都懂吧！）等。这些维基平台都是基于由维基媒体基金会维护的MediaWiki系统搭建的。同时，为了抵御用户的恶意编辑，多种恶意编辑检测软件应运而生，如维基媒体基金会的ORES，以及第三方开发的ClueBot NG和AVBOT。这些工具和MediaWiki一样，都继承了维基开放的精神，均已开源。

在信息安全领域，搜索引擎上的非法推广（Illicit promotion）是一个重要研究方向，其目标是用非法业务广告污染被攻破的页面，并提高这些网页在搜索引擎中的排名。经过数十年的发展，非法推广已经从以关键词堆砌（Keyword stuffing）为代表的传统黑帽SEO方法，进化到近年来出现的基于对抗学习的对抗排序攻击（Adversarial ranking attack）方法，如Collision、PAT和PRADA。

MAWSEO模型概述

那么，在维基内置的恶意编辑检测软件和用户合作监督的双重保护下，攻击者能否通过修订维基系统上的文章进行非法推广呢？

在研究中，我们发现这种利用维基进行的推广是完全可行的。为此，我们提出了用于污染维基系统搜索引擎（黑盒系统）的对抗性排名攻击技术，简称为MAWSEO。此方法不仅可以攻击维基系统的搜索引擎，还可以有效绕过维基内置的恶意编辑检测，同时保证推广内容与受攻击的文章在语义和主题上保持一致。

图1：MAWSEO工作流程

具体来说，针对一个查询，MAWSEO首先获取一组相关的文章，并通过在其中添加一个包含推广内容的新段落来实现对抗性修订。为生成这些候选推广段落，我们尝试在收集到的其他维基段落中找到合适的位置注入推广内容，以确保语法正确和语言流畅。为此，我们训练了一个基于命名实体识别的激励注入模型。然后，我们设计了基于生成对抗网络的多任务对抗性段落检索模型（Multi-task adversarial passage retrieval model），从候选推广段落中选择最合适的一个，以实现一系列攻击目标。一旦检索成功，这个段落会被添加到相关文章中的合适位置。

在完成修订后，我们的对抗性修订将达成以下攻击目标：

排名提升：在目标查询的搜索结果中，被攻击的文章将获得更高的排名。
检测逃避：修订不会引起维基内置的恶意编辑检测软件的报警。
语义一致：添加的段落与插入位置前后的原文段落保持语义上的一致。
主题相关：添加的段落与原文在内容主题上保持相关。

这种方法的独特之处在于，与相关研究中提出的对抗性排序攻击模型相比，它将具有挑战性的段落生成任务转换为段落检索任务，使攻击更有效且高效。另外，为了达到在现实维基系统上进行攻击的要求，检索出的段落需要同时满足四项攻击目标，而目前的其他对抗性排序攻击模型只针对概念模型，而非真实线上系统，因此仅需满足一到两项攻击目标（即排名提升和语义一致）。

图2：多任务对抗性段落检索模型（Multi-task adversarial passage retrieval model）

实验评估

环境部署：在基于维基系统的公共平台（如维基百科）进行测试，显然有悖学术道德要求，并且可能带来潜在的安全风险。因此，基于MediaWiki，我们在本地搭建了一个维基系统平台。平台收录了超过12万篇维基百科文章及其修改历史。

实验结果：在测试中，我们利用MAWSEO在本地维基系统平台上推广非法线上药店。实验结果显示，相比其他非法推广技术（如，Keyword stuffing）和对抗性排序攻击（如，HotFlip、Collision、PAT、PRADA），MAWSEO在各项攻击目标中都取得了更好的表现，包括排名提升、逃避检测、语义一致、主题相关以及推广的整体效果和效率。

表1：MAWSEO攻击效果

尤其在逃避检测方面，经过MAWSEO修订的维基文章几乎能逃避所有维基重要的恶意编辑检测软件的检测。为了了解MAWSEO修订内容是否能够在不引起怀疑的情况下吸引维基用户的注意，我们进行了用户调研，以评估MAWSEO的修订对用户可能的影响。结果表明，MAWSEO修订的文章具有很高的可信度，同时用户也注意到了MAWSEO所添加的推广内容，并将其理解为维基文章所要传达信息的一部分。我们还找到了30位有维基百科审核和编辑经验的用户，请他们审查MAWSEO对维基文章的修订。结果显示，由MAWSEO修订的文章有能力通过维基审查者的检查。

论文动画（中文字幕版）已上传至B站：https://www.bilibili.com/video/BV13TvpecEWX （家人们一键三连哦！）

英文字幕版也同步上传至YouTube：https://www.youtube.com/watch?v=qvT4E91TGQY

论文链接: https://arxiv.org/pdf/2304.11300

投稿作者介绍

林子隆，印第安纳大学博士研究生。
主要研究方向为数据驱动安全，包括人工智能安全和Web安全。相关研究成果已发表在NDSS、IEEE S&P、USENIX Security和CCS等国际顶级会议。

长亭百川云 - 文章详情

长亭百川云