黑产花钱买情报的故事已经听过很多次了,虽然讽刺,但却不算稀奇了。
自打情报能拿出来单卖的那天开始,就已经多次在听这样的故事了。这也算得上是一种反情报了。
然而 … 反情报不仅仅停留你买、我买、大家买的层面上。
获得等同的信息,只是反情报中最简单粗暴的方式。反过来利用你的思路制造思维陷阱,才更有意思。这篇文章,就要介绍一条这样的陷阱 —— 利用你的套路来套路你。
这个事情的背景起源于年初,当时因为各种原因需要做一份域名白名单。
而我能想到最简便的方式便是交叉数据 —— 利用全球的访问来做交叉,持续都被访问很靠前的网站,就是可信的。这个套路在很多企业里也被使用,即,企业中连续多天持续访问靠前的域名,相对可信,甚至可能直接进入白名单。
而放眼全球来看,恐怕 Alexa 就是这件事情的最佳来源了。
但是,后来由于种种原因,我在9月份才开始采集 Alexa 的 TOP 1 Million 数据(以下简称 top1m),而且 …… 只做了一次就停下来了,因为我发现,里面可能存在一个陷阱。当时只是对这个陷阱做了记录,直到最近有时间,才从笔记里翻出来,想起来验证一下。
如果交叉数据成为了普遍被认可的白名单方式的话,那么,如果我是恶意网站制造者,就一定会利用这种套路来套路白名单,让白名单变的不那么干净。
顺着这条路,先去验证第一件事 —— 刷 alexa 排名,虽然对这个事情早有耳闻,但却没想到现在刷 alexa 排名这种事已经成熟度如此之高。
既然 alexa 排名这么简单可刷,就可以去验证第二件事。
抽两天的数据9月4日和9月5日(以下简称 9.4 和 9.5,下面碰到日期的写法,都将采取这种写法),进行如下操作:
(1)9.4 和 9.5 数据只取域名(top1m默认格式是“排名 ,域名” 这样的csv格式)并各自进行 sort 排序;
(2)使用fgrep,查找只存在于 9.5 中的新域名,并进行 sort 排序 ;
(3)在排序中查找相似度比较高且集中的域名;
如上图,我找了一批前缀英文相似度都很集中的,这些域名随手抽了几个,whois里的注册时间都比较相近,而且都是在同一个机构匿名注册的。可疑度很高。于是随便访问几个,虽然都不能访问,但依然在Google的黑名单里(Chrome会提示并屏蔽访问)
然后,以 yourbigandgoodtoupdates.club 这个域名为例,简单追一下:
(1)在 AlienVault 里被拉黑的时间分别是 9.10 和 12.5
(2)whois 信息来看,9.5 的时候更新过,注册时间是 8月底
(3)从手里的 top1m 信息来看,更有意思
这个域名,从9.5开始,一只到 10.5,整整一个月的时间,都挤进了 alexa 的 top1m —— 对于做交叉数据生产白名单的人来说,一个月的跨度其 “可信度” 应该不低了。
而回头去看前两条线索 —— 9.5 whois信息更新,9.10 被标记malware,在12月份又被标记为 malware。而且,我还找了一些其他情报源验证了一下,有一些情报源在 9 月份是没有对这个域名做个恶意标记、只是在 12 月份的时候将其标黑的。而我猜想,这个域名确实很有可能是在近期才被挂上恶意页面的(这个其实是有一定可能性去验证的,不过最近不能过墙,暂时无法验证,只能靠猜)。
好了,因为上方括号里的原因,也就只能写到这里了。
从当前分析到的阶段来说,至少是有两个启示的:
第一,看似大众的行为并不一定是都是真正的人类行为(科技这么发达的今天,这显然已经成废话了,但还是很多人会选择性遗忘);
第二,一旦发现套路中的反套路,有些事情是可以预测的。
类似的情况,我估计在 top1m 中还藏匿了不少。而且,类似的套路可能还存在很多其他源中。有机会继续给大家挖出来看看(这只是随便说说,毕竟我这么懒)。
最后,我想说,对手拿着和你相同的数据并不可怕,用你的套路来套路你才可怕 —— 也许,人家买数据只是想验证一下,你是否真的被套路了?