浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
支付宝有多狠?
当年为抓骗子搞出“图计算”
现在竟用它预测未来
文 | 史中
(零)圣彼得堡凶杀案
19世纪,圣彼得堡的一座高档公寓里,发生了一起凶案。
一位富商在浴室被刺死,而凶器就遗落在一旁,是一把精致的开信刀。
资深的警探史·伊万懦夫·中奉命调查此事。他制定了天衣无缝的调查计划:
1)先调查富商,把和他可能有过节的100人列成一张“表格A”;
2)再调查刀具工匠,这款刀是限量款,只做过100把,于是把买过刀的客户也列成一张“表格B”;
3)然后对A、B两个表格进行比对,看看有没有重合的人。
结果,两群人完全不重合。
“这。。。不科学啊,一定存在更隐蔽的联系!”
警探不放弃,决定进一步调查。
他把“表格A”上的100人和“表格B”上的100人分别连线,成为10000组配对,然后挨个走访调查。
他想发现这些“配对”之间有没有“曾同处一室”或“认识同一位中间人”的情况,但组合众多,其中的可能性也多如牛毛。史·伊万懦夫·中咬咬牙,以坚毅的决心开始推进!
调查进行了几个月,案件陷入一团乱麻,但警探遇到了不得的事儿:
表格B上有一位刀具经销商格列布,格列布对他说,你这么有毅力有恒心,不妨跟我做生意,比当警探好赚多了!表格A上有另一位富豪安托尼,他的女儿居然对自己产生了爱慕之情。
于是,史·伊万懦夫·中毅然决定出任格列布公司的总经理,然后娶了安托尼的女儿,走上人生巅峰。
今天的浅黑讲故事就到这里。
等等。。。那边血泊里还躺着一位呢,不管了吗?!
不是不管,是真管不了。。。
我们回到警探身边,不难发现,他面前发散出了无数个表格:
和死亡富商有关的人组成了“表格A”,
表格A上第1个人去过的地方组成了“表格A1”,
表格A1上的第一个地点又有好多人去过,他们组成了“表格A1-1”,
表格A1上的第二个地点又有好多人去过,他们组成了“表格A1-2”,
以此类推,无穷尽也。。。
每个人都和众多地点和人存在关联,如果事无巨细地顺藤摸瓜,最终定能找到几条被害人和刀之间的连线,再从中排查,大概率能找到凶手。
但问题是,这么干。。。懦夫警探到退休也不一定能查出真相啊。。。人生苦短为啥不出任总经理迎娶白富美?
残酷的事实是:
哪怕明知道人命关天的真相就藏在一堆数据里,因为分析复杂,代价太大,实际上根本无法进行——而无法浮现出来的真相,就不是真相。
但我们不想一直迷迷糊糊地生活,我们渴望用技术接近真相。
直接向你宣布两个好消息:
第一,21世纪的今天,我们掌握了一种“显影术”,弹指一挥间,就能从浩渺的数据中查询关联、计算真相,这就是——图计算。
第二,在图计算领域,中国人的技术一直居于世界前列,相当于巴西在足球历史中的地位——是少有的我们从没被任何人“卡脖子”的尖端领域。
话说,啥是“图计算”嘞?
我先用五句话简单科普一下:
1、世上万事万物,都可以用数据来描述,我们会把数据存在数据库中。
2、但一般数据库里的表格都是“二维”的,只能展现事情的一个侧面。为了记录不同侧面,我们就得做很多表格。(就像警探那样)
3、由于这些表格是分散的,原本属于实体之间的“关系”也被切了个稀碎。所以了解某个表格里的具体数据容易,但想了解不同表格里实体之间的关系,就需要把一堆表格放在一起研究,这很费劲。
4、那我们不如在一开始就别分那么多表格,直接把所有的数据存在同一个三维空间里!这个能存储多个“实体”和他们之间“关系”的数据系统,就叫“图数据库”。
5、在图数据库上做计算,像柯南一样发现真相,就是“图计算”。
你可以这样理解:普通的数据库是图数据库在某个平面的“投影”,而图数据库是普通数据库融合在一起形成的“全息影像”。
话说,要是史·伊万懦夫·中警探穿越到今天,他就可以把警局的“户籍数据”、“金融转账数据”甚至“交通数据”都导进图数据库中,再输入自己调查到的独家信息,按一下回车键,一条清晰的连线没准就会奇迹般浮现在他眼前!
正所谓,踏破铁鞋无觅处,得来全靠图数据库!能把人一生的艰苦卓绝都压进几十毫秒的计算里,这是一种专属于科技的浪漫。
而我幸运地认识了一位制造这种顶级浪漫的大牛。他就是蚂蚁集团图数据库的负责人,洪春涛。
你不一定听过他的名字,但是,每当你用支付宝转账的时候,金额、设备、人物关系等,都是图计算判断你的账户是否有风险的依据。
从这个意义上说,在座各位都享受过他和小伙伴们的“贴身服务”。
洪春涛
(一)点燃技术进步“第一把火”的竟是骗子
我猜很多人心里有隐隐的疑问:
为啥“图数据库”这个技术蚂蚁集团做得好?
答案并不那么显而易见。
你想想,支付宝是个支付工具,它的数据库只要把每笔转账的“金额”记清楚,不错一分钱,就够了,为啥非要费劲把人、设备的关系这些“额外信息”也存进去呢?增加存储成本不说,还得额外保护这些数据不泄露,里外都是负担!
答案是两个字:骗子。
在支付宝刚成立的时候,数据库里确实只存“用户 ID”和“转账金额”等几个有限的信息。
但是人的恶念像水,只要有缝隙,就会渗进去。
很快,有人开始“盗号”,偷来别人的密码,或伪造身份证重置别人的密码,在自己的电脑上(那时候还没有手机版)登录,把钱转走。
只靠ID和金额,支付宝无从判断一笔转账是不是被盗号之后做的。
于是,老师傅只好把登录的设备、网络环境等等信息存下来。这样,如果发现异地登录,就很可能是高风险的,你输对了密码也可以不给你转。
就像下面酱,在风控那一层拦住↓↓↓
这条路走不通,坏人就会金盆洗手回去好好上班了吗?不可能,他们会研究更恶毒的办法——诈骗——我让受害者拿自己的手机转不就行了?
就像下面酱↓↓↓
这咋办?支付宝的老师傅冥思苦想,终于一拍桌子,被骗转账和一般的转账并还是有区别!被骗最大的特征就是:会转给一个完全没有关系的账户。
你看,“关系”两个字就这样悄然出现了。
支付宝的老师傅必须找到一种数据库,能够记录“人和人”、“人和设备”、“设备和设备”之间的关系。
于是,从2015年开始,就有一支小分队,秘密研究图数据库 TuGraph(这个名字是后改的,为了便于理解我们就叫这个名字吧)。
图数据库看上去“剪不断理还乱”,其实你只需要知道三样东西:点、边、数据。
**所谓点,就是“实体”:**一个人、一台手机、一个地址,都是实体。
**所谓边,就是“关系”:**如果一个人用了一台手机,就把这两个点用边连上;如果一个人转钱给另一个人,也用边把他俩连上。
**所谓数据就是:**详细记录这个点或边的内容。比如一个人,他的注册身份证号、年龄之类的数据就挂在它的点上;两人之间转账,转账金额就挂在边上。
可用这玩意儿怎么抓坏蛋呢?
也很简单:
1、现在 A 想要转账给 B,那就去查一下 A 和 B 之间有没有关系。
2、假如 A 曾经给 C 转过账,C 又给 B 转过账,系统虽然不知道 A 和 B 具体是啥关系,但足以判断他俩可能在生活中认识。诈骗风险比较低。
3、如果 A 和 B 在图上隔着好远,查了好几跳,都连不上,那这里面就可能有问题。不说一定是诈骗,但必须得重视,继续结合其他信息给风险综合打分。
就像这张图,左边的“AB转账”风险比较低,右边的风险比较高↓↓↓
有没有感觉眼熟?这个找 A 和 B 关系的操作,不就是懦夫警探调查凶案的过程嘛?
看到这你估计已经恍然大悟:懂了!
不,你不懂。
仅仅能查出关系的图数据库等于废物。。。因为我们没考虑“速度”。
假如,现在你准备转5000块给房东,你输入密码,然后支付宝开始转圈,弹出一行字:我们正在查你有没有被骗,别急啊,明天告诉你结果!
你能等吗?就算你能等,房东能等吗?
“20毫秒,是我们每次查询耗时的上限。一般10毫秒就能完成”洪春涛说。
人眨一下眼,大概要100毫秒,也就是眨眼的功夫,最少够 TuGraph 帮你查5遍,堪称“一眨五次郎”。
但。。。你有没有发现一个 Bug?
查关系,不像在富士康流水线上组装手机那样每个动作都是“固定的”。
有时候 A 和 B 是好基友,一查很快就知道他们关系亲密;有时 A 和 B 关系比较疏远,经过两三个中间人才能把他们联系起来,得查半天。
也就是说,你没法预知这次查询是快是慢。。。
就像下图↓↓↓
那怎么保证图数据库每次查询都遵守这个“时间红线”嘞?
洪春涛一股脑说了九九八十一招,我挑两条比较有趣的讲给你:
首先,得给数据库装个“小脑”。
影响查询速度的情况成百上千,但要说最大的噩梦,就是一个词:“大点”。
咱们普通人用支付宝,大概只会和十个人有转账往来,这算“小点”。
但有的社牛,资金往来有成千上万人。一旦碰到了这样的“大点”,那可要命了,数据库引擎光查这一个点就超过20毫秒了。。。
这咋办?摇人呗!老师傅的方法是,把大点上的查询任务分成十个任务,并行查询。
但是,浅友们上班儿时肯定深有体会,一个任务一旦拆开,就涉及到同事们的分工合作,要是策略安排得不妥当,最后反而混乱、甩锅、死机。
这背后,就需要设计一套强大的并行调度系统,根据当时的实际情况排布各个线程,就像“小脑”里的运动中枢一样,能调动全身肌肉群协调工作。
其次,还得给数据库装个“大脑”。
洪春涛突然问我:查 A 和 B 的关系,你要从 A 出发找 B?还是从 B 出发找 A?还是 AB 一起出发,在中间碰头?
我正在蒙圈中,他公布了答案:不一定。
如果从 A 出发马上会遇到一个大点,从B出发都是小点,那显然从 B 开始查更快。如果从 A 出发走过一跳之后遇到大点,再从B开始走也可以。
但问题是,在开始查询之前,你不可能确切知道哪里会遇到大点。
所以老师傅会做一个精巧设计:让图数据库在最初存储数据的时候,就做好粗略的估算,这个点比较大,那个点比较小,记在小本本上备用。
这样,在执行查询任务前,让“大脑”照着小本本预先做个规划,才不会费儍功夫,所谓“预则立,不预则废”嘛。
话说,这两个“脑”都是查询层面的优化,如果把它们掀开,还会看到更底层的技术。
比如如何优化“存储机制”和“索引机制”,相当于在脑区里怎么摆布这些信息才能最快回忆出来,那些知识太艰深,咱们暂且略过,把有限的篇幅留给更有趣的故事。
看了“懦夫警探追凶”和“支付宝抓骗子”的案例,估计你会有这样的感觉:图数据库是用来抓坏人的。
但我要说,仅仅把图数据库当做抓坏人的武器,虽不能说大材小用,但属实思路太保守了。
接下来我不妨给你提供一些“吹牛素材”——在跟别人吃饭聊天时,你应该怎样把图数据库放在一个宏大的世界观里讲给他听嘞?
(二)数据库的“特斯拉时刻”
话说,人类发展有这么个奇怪的剧本:
发明家总是先发明一个东西的“高级形态”;
然后实干家为了降低成本,只能用“低级形态”把它量产;
然后等到技术进步到某个时刻,一个疯子会冲出来说:咱们已经能量产它的“高级形态”啦!
车就是个典型的例子。
在轿车发明的很长时间里,它都是由电驱动的,设计简单,故障率低。哪怕到了1900年,美国制造的汽车中,电车都有15万辆,油车只有可怜的936辆。
但当时的电池技术实在太落后,开着开着就没电了,实干家福特一看,还是落后的燃油车更适合当下,于是他引入流水线,生产“T型车”,这才开启了油车时代。
后来的故事大家也知道,3C产业发展让电池技术突飞猛进,疯子马斯克突然拍大腿,汽车本该用电驱动啊!!
于是有了特斯拉电动车的爆发。
货币也是一个例子。
太平洋上的雅浦岛有很多石盘,人们用它当货币,但这东西太沉,花钱成了体力活儿,于是大家发明了“记账”。
我给你四分之一个石盘,就让村支书在账本上记一笔,这疙瘩的所有权就转移到你身上了。
可在世界其他地方,人太多,经济规模太大,村支书记不过来,只好转回低级形态——把实物金银/货币作为交换的中间物。
后来的故事大家也知道,计算机系统发展起来,银行借此恢复了货币的高阶形态,重新用“账户记账”这种方式管理每个人的财富。
雅浦岛上的石头货币
数据库也是一个例子。
1970年左右,科学家发明数据库的时候,就长成“图”的样子。
但是 IBM 和 Oracle 一看,您这玩意儿99%的计算机都跑不动啊,不如把数据库拍扁了,起码让一部分人先用起来!这才有了二维“关系型数据库”的崛起。
但今天,计算机的算力、软件的代码基础都已经发生了飞跃,难道我们不该用回数据库的“高级形态”——图数据库吗?
这就是数据库的“特斯拉时刻”。
可是看到这,我猜会有人撇嘴:我就是个打工人,远在天边的数据库高级不高级,跟我有毛关系嘞?
这就要说到数据的本质目的。
没有数据的日子,我们人类茹毛饮血天天打猎也活了几万年。可见数据不是我们生活的必需品。但那个时候人类面临很多飞来横祸,洪水干旱,隔壁野人来袭,根本没有办法抵御。
部落首领冥思苦想,要抵御灾祸,咱得有点儿“预测未来”的能力。
数据的本质目的就是预测未来。
最早的数据是龟甲上的裂痕,最早的数据工程师是大祭司。但他们预测的准确率实在是一言难尽,纯纯的50%。因为他们的数据完全没能拟合真实世界。
最早的数据库
往事越千年,咱们有了数据库,存进去的数据真能拟合世界:
我发了一条微博,数据库里存下了这段话,(大概率)证明我就是有过这个想法;
我给小卖部老板转了20块,(大概率)证明我真买过一次东西。
于是,数据才开始有了预测未来的能力。当数据库里的数据细密交织,组成了完整的体系,马云所说的“DT 时代”也就到来了。
洪春涛告诉我,为了增加预测准确度,需要不断向系统里注入新的维度的数据,并且对更多维度的数据进行联合分析。这时就会发现,旧有的“关系型数据库”的抽象成本会迅速升高。
这里提到了一个高级的生词:抽象成本。
不妨给你举个例子。
在日心说的世界观里,星体围绕太阳做简单的圆周运动;在地心说的世界观里,星球们做着复杂的翻花儿运动。他俩都可以预测星球轨道,但为啥今天我们不用地心说了呢?因为地心说的抽象成本高!
同样预测50天后火星的位置,用地心说的计算量是日心说的成百上千倍。
**敲黑板!!如果你不想预测复杂的事情,那两种数据库都一样,甚至在很多基础计算中传统数据库更快。**一旦预测复杂的事情,那差距就大!了!去!了!
举个例子:
现在很多公司的领导都喜欢用“BI 看板”——就是老板出道应用题,数据一通算,在看板上呈现答案。
比如,负责营销的老板可能会问这样的问题:
30-35岁的已婚男士中,最喜欢买“杜蕾斯001”的这群人里,他们的媳妇喜欢买什么商品呀?
你看,这问题里涉及复杂关系。如果用一般的数据库,得把好多平面表格集合在一起才能算。
数据工程师熬夜三天掉一把头发然后把结果发给老板,老板看了看说:诶,我突然有了新点子,你再重新给我算一遍喜欢给孩子买泡泡玛特盲盒的爸爸,他们的媳妇更喜欢哪种口红?
如果你是数据工程师,你肯定会说:35岁的秃顶程序员最想买的是订书机,把老板的嘴钉上!
但之所以数据工程师觉得老板可憎,是因为在数据爆炸的时代,他们还在用地心说理论计算50天后的火星位置。。。
那要是用图数据库,这种复杂分析是怎么做嘞?
其实说白了就两步:
1)把老板的话转述成一组可以被计算机理解的“命令”;
2)“大数据引擎”在一整张大图上跑一遍命令,算出结果。
这里提到了“大数据”。
“大数据”当然不是什么新朋友,但我们知道的大数据引擎都是和普通数据库配套的。
图数据库比普通数据库多定义出了一层“关系”属性,原有的大数据系统不能直接算这种关系。这就需要老师傅出手,做一个能和图数据库组CP的“图大数据引擎”。
说到图大数据引擎在蚂蚁内部的诞生故事,还是和坏人有关系。
缅北的诈骗产业园
(三)坏蛋学会了“分身术”
2018年双11开始,支付宝基于图数据库的风控系统上线,每次转账都会查一下“AB关系”。
大批的骗子马上发现:骗钱难度进入了“地狱模式”,如果总用一个账号收钱,行为异常太明显,分分钟会被系统标记为高危,然后封堵。
于是他们开始“进化”,养了一堆账号,不仅每个账号活动的频率降低,金额也被打散了,单独账号的异常特征就弱化了。
这相当于骗子学会了“分身术”!
这个号“不小心”被封了,没关系,用另一个顶上,反正号有的是。
如此,犯罪团伙就变成了软粘的八爪鱼,断了这个爪,还有别的爪↓↓↓
这可咋办?
诶,既然是影分身,就和真正的人不一样。毕竟从关系上讲,控制这堆账户的人还是一个团伙,这些账户总会在某些方面表现出一致的性质。支付宝老师傅要做的就是:找出这些隐秘的规律!
这时,我们就得隆重请上一个新角色:“安全数据分析师”。
分析师干啥呢?
举个栗子,警察蜀黍抓了一个诈骗团伙,然后缴获了他们手上的所有支付宝账号,然后这些账号会给到支付宝的数据分析师,他们就像“神探狄仁杰”,仔细研究:这堆号之间,有怎样的关系模式?然后把这些洞察写成一组识别规则**。**
至于这些规则具体是啥,我就不举例了,因为这玩意儿说出来你能看到,坏人也能看到。。。
总之,一组规则就像一个“海捕文书”,“衙役”们需要照着这个公文把所有的账户都筛查一遍。这个衙役,就是“大数据引擎”了。
注意,“海捕”一次的工作量可比只查一次AB两点之间的关系要大多了,因为要把所有用户、设备拢共上万亿个点和边都拉网式筛查一遍嘛!
20毫秒,那可是断然干不完了,大概需要几个小时的时间才能通盘算一遍。而这样的计算一般每天凌晨执行一次。
每天一次其实够了。犯罪团伙嘛,比较稳定,不太可能今天你们几个还是团伙,明天就从良了——每天地毯式围剿一遍,足以压制。
左边是分析师的规则,右边是图数据库。两个汇总在图大数据引擎里,算出下面的答案。
这种“狄仁杰+海捕文书+衙役”的组合,就成为了一个经典的图计算模式,也叫“迭代计算”。
迭代计算这玩意儿可太香了,隔壁银行都馋哭了。
当时很多银行来找蚂蚁,想让老师傅帮忙用迭代计算抓坏人。只不过,这些坏人的“坏法儿”不太一样。
比如,某国有大行曾经被犯罪团伙盯上。团伙会在某个小区门口搭个桌子,假装帮用户办信用卡,收集人家个人信息,却把卡寄到了自己的地址,然后用这些卡套现,然后当然就不还了。
银行刚发现几起这样的行为,就警觉了,想把骗子还没来得及套现的信用卡统统找出来,停掉。
但是骗子用了“分身大法”,搞了几十个手机号,十几个地址,接收几百张信用卡。
单纯知道其中一张卡有问题,是没办法根据它预留的地址和电话把几百张卡一锅端出来的。
这时,银行和 TuGraph 的老师傅把数据导入图数据库,然后两边的风控专家(狄仁杰)凑在一起想出了一整套识别规则(海捕文书),交给大数据系统(衙役)去跑,很快符合条件的高危账户就浮现出来,接下来,不仅那些卡都被停了,物理世界的真警察蜀黍也重拳出击抓个痛快!
再比如,银行还会面对一种叫做“连环担保”的风险。
意思就是A公司想向银行借钱,得有人给它担保嘛!
结果B给A担保,C给B担保,D给C担保,E给D担保,F给E担保,A给F担保。绕了一圈结果是“左脚踩右脚”,等于没担保。。。
一般情况下,6度以下的担保被认为是风险很高的,所以,他们的海捕文书就可以这样写:“兹有连环担保风险,凡构成6度以内圆环者,悉数缉拿归案!”
本来某些企业觉得多套几层担保就会天衣无缝,殊不知他们的小动作早就被捕快看得一清二楚。
图里的红圈就构成了连环担保
说到这,你大概能领略图计算的威力了吧?
可是,永远不要低估坏人推陈出新的能力,毕竟他们是真正的“按劳分配”,最有动力去改革。
这不,从2020年开始,一种新的作案方式兴起,我把它称作:“迅雷不及掩耳盗铃式花呗套现”。
套现大家都知道,本来花呗是借钱给他,结果他刷出去的钱又通过某种途径回到他手里,然后这钱就被他花了,花呗很可能就不还了。。。
在图上发现“套现”和发现“连环担保”有点类似,都是找出“圆环”。过去几年,花呗反套现系统也一直是这么干的。
但是!你还记得吧,迭代计算最快要几个小时才能算一次,后来经过优化也得一小时跑一次。
也就是说,如果坏人能在一小时内完成套现的全部操作,他就已经把钱取走了,你再发现就晚了。
坏人们于是搞出了一整套自动化套现服务,先跑整个圆环的前面几步,然后积攒很大的数量,突然完成最后的套现闭环:一个小时别说跑1次,跑100次都可以。
这可咋办?
洪春涛告诉我,当时老师傅被逼无奈,开发出了一种比实时查询(20毫秒)要慢,但比迭代计算(1小时)要快的计算引擎,这就是“流式图计算引擎”(TuGraph-Analytics)。
它的思想也很简单:
我不攒着一块儿算。每一笔转账发生,我都算一步,这样当你完成作恶的最后环节时,我也只需要完成最后一步计算。
这个速度就快多了:1分钟内就能出结果,阻断套现链条。
你看,为了怼坏人,把好人都逼成啥样了?从图数据库本身,到迭代图计算引擎,到流式图计算引擎,不同系统如鳞次栉比的宫殿,依次建立。
正应了那句话:成功需要朋友,巨大的成功需要敌人。。。
不过说到这,我得提醒一下:
人们之所以使用新技术,可不仅仅是馋新技术的效率高,更是因为新技术能做老技术做不了的事情!
我们还拿电动车和货币来解释:
眼下,油车也能开,电车也能开,电车不过就是提速&制动更快。
但往未来看,汽车的终极形态是机器人,要想做出灵活的动作,必须靠电机。
而发动机体系再先进,受限于传动结构的复杂,灵活度也是大幅受限的。
眼下,现金也能用,银行转账也能用,转账不过就是更方便些。
但往未来看,交易会被切到极其细碎,可能一个人/公司会同时和大量的系统交易,每笔交易能低至几分钱。
这种情况现金完全无法应对,必须用记账系统,甚至还要用分布式记账系统和智能合约(即区块链)。
那么,以此类推,图数据库肯定也有些了不得的用法,是传统数据库想都不敢想的,那会是啥嘞?
洪春涛告诉我:“图学习”很可能是答案之一。
(四)图学习:留给人工智能的花园
如今我们身边的大多数任务都是“人机协作”完成的。
但有一个问题不言而喻:人机协作的流程中,“机”越发达,“人”就越成为瓶颈。
举个栗子:饿了么外卖。
商家注册饿了么的时候,会人工填写一堆关键词。比如肯德基,它的关键词可能是:快餐、西餐、薯条、汉堡、可乐。
这样一来,我作为一个用户去搜索这些关键词的时候,对应的商家就会跳出来。比如我搜索薯条,就能搜索出“肯德基”。
可是,人是一种很不靠谱的存在,填关键词的时候,经常想不了这么全面。
假设你在麦当劳打工,负责填写关键词,你写了:快餐、西餐、汉堡、可乐等等,但漏掉了薯条。。。
于是我搜索“薯条”,麦当劳就不会出现,但显然麦当劳有薯条嘛!
这样一来,我少了一种选择,麦当劳丢了一单生意,双输啊。。。
这时,人工智能就可以派上用场!
AI 对图数据库进行推理,发现麦当劳和肯德基连接了很多画像相似的用户,而他们分别都连接了“快餐”、“西餐”、“汉堡”、“可乐”,而肯德基又连接了薯条。
那是不是意味着,我可以大胆地在“麦当劳”和“薯条”之间加上一根连线,让用户可以通过薯条搜索到麦当劳?
再举一个栗子:芝麻信用。
说个真事儿。过去,洪春涛的芝麻信用分很低。这不是因为他干了啥事,而是因为他“没干啥事儿”。
他在家是个甩手掌柜,很少用支付宝,买啥东西都是太太去买,所以太太的芝麻分奇高,有800多。
在图数据库里,洪春涛这个点就是比较“白”的,没有足够数据,就很难评,不知道他是个好人还是坏人,只能先当个坏人打个低分吧。。。
但是,如果交给人工智能,AI 就能通过图数据库给他估算一个分。
大体原理是酱的:洪春涛和太太两个人,在图数据库里的关系很近,他们的登录环境一致,两人又有密切的转账记录。AI 一想,一个芝麻分奇高的人不太可能和一个坏蛋如此亲密互动,所以,洪春涛就沾了太太的光,芝麻分被拉高到了一个体面的程度。
你还记得刚才我们说的,数据的本质目的是预测吧?
而“图学习”,就是让人工智能利用图数据库,对各个维度的空白点位做出“细粒度”的数据预测。
这种预测可以同时发生在上万亿点边组成的信息海洋中,每一朵浪花的细节上。预测之密集,在人类历史上并无先例。
这仿佛摩西劈开红海,是一种神迹。
结论呼之欲出:藉由图学习,人类预测世界的能力可能产生一个飞跃。这件事,靠传统数据库或人类专家手搓,都是决计不可能实现的。
不过,既然叫“图学习”,它预测能力的天花板,就不仅取决于图的水平,还取决于 AI 的水平。
说到这,我们就必须请上今年异军突起的新技术——“大模型”。
小模型可以模拟人在图上做“数据补全”之类的简单脑力劳动;
大模型的凶狠之处在于,它可以在图上模拟人脑的高级脑力劳动——逻辑洞察。
你还记得那个烦人的老板么?他让数据工程师去反复计算不同人群和商品的关系,其实本质是为了找到其中隐藏的逻辑,从而制定商业策略,实现利润目标。
就像那个经典的故事:
超市把啤酒和尿布放在一起,因为知道背后隐藏的逻辑是奶爸会被安排买尿布,他来到货架上如果看到啤酒就会倾向于买,超市销售额就会增加。
如果有一个“大模型助手”,它就可以用这种逻辑思维审视全图,直接建议去调查“特定人群和类目之间的多跳关系”,然后生成精细的促销策略,以达成老板设定的商业目标。
比如他的策略可能是这样的:
我建议,在32岁-35岁在北京海淀区的妈妈中,挑出每个月买了1次盲盒以上的人群;
再从中挑选出浏览过汽车用品的人群;
再从这群人的一度关系人中挑出过去3个月内买过200元以上啤酒的这群,
为他们推荐位于北京昌平区的某个新开的度假乐园的优惠券。
要是能精确至此,想必这个推荐不会对用户造成打扰,更可能是雪中送炭!
普通的 AI 可以补全图,但不一定理解图。要想达到深层的理解,还得靠更大的模型。
但说起来简单,要做出此等聪明的大模型谈何容易。
这种大模型不同于 ChatGPT 这样的通用语言模型,它不仅要掌握逻辑推理能力,还要对图数据库的本质有深刻理解。所以蚂蚁的老师傅们尝试把“自然语言样本”和“图数据库样本”融合在一起训练,这就叫“大图模型”(Large Graph Model)。
虽说大图模型才刚上路,但洪春涛寄予厚望。他的判断来自两个先例:
谷歌,之所以会在世纪之交爆火,是因为当时 MapReduce 让大规模并行计算的成本突然降低,这使得“搜索”这种古老的想象作为一种商业模式首次得以成立。
字节跳动的今日头条和抖音,之所以能在几年前爆火,是因为那时大数据分析的成本突然降低。由此,通过数据对一个人的行为进行动态分析,然后找到他此时最可能喜欢的内容怼在眼前,这种商业模式得以首次成立。
历史可能押韵。
如果图学习(大模型+图计算+图数据库)的成本继续下降,会发生什么呢?
我猜,根据图类型的不同,可能在各个领域出现不同的应用:
大模型加上浓缩了世界知识的超大图(知识图谱),就会产生类似孔子那样“有教无类”的个人老师。
大模型加上蚂蚁擅长的那种金融关系图,那就是能对各种风险精确定价甚至能预测经济危机的精算师。
大模型加上工业设备拓扑图,那就是能自己优化效率、降低工业成本和商品售价的产业链神经中枢。
这样的例子不胜枚举,但背后的基本逻辑很清晰:
一个有能力解释并改造世界的模型,必须和一个有能力体现世界多维细节的数据库相配合,才能发挥出它本来的价值。
当然,为了让历史发生,洪春涛和蚂蚁的老师傅此时必须做一件事,那就是——玩儿命降低图数据库的成本!
(五)图数据库的星火燎原
洪春涛告诉我,目前图数据库主要有三个成本:
1、计算成本。也就是计算所需的硬件和软件。
2、人员成本。也就是懂得图数据库技术栈的老师傅的工钱。
3、使用成本。也就是图数据库和传统数据、AI、大数据等上下游系统对接时的投入。
实话说,目前这仨成本都很高,全有继续下降的空间,但要说空间最大的,最迫切的,其实是“第3条”。
我们不妨把视角拉开,目前在中国,除了蚂蚁集团在图数据库一马当先,还有百度、华为、腾讯、阿里等大厂也宣布了图数据库,此外还有悦数科技、海致星图、创邻科技、枫清科技等创业公司在做图数据库。
百花齐放当然是好事,但各家图数据库的接口标准和查询语句都不尽相同,相当于战国七雄,大家都说不同的方言,用不同的文字。
这会造成啥问题呢?
刚才说过,各行各业用图计算的姿势都不同,图数据库厂商很难自己服务所有行业,需要靠第三方生态伙伴在中间帮忙。
如果各家图数据库的标准不同,生态伙伴今天学会了蚂蚁,明天还得学百度、华为;对客户来说,今天用了你家的图数据库,明天想换成他家的,整个接口都得重来一遍。
折腾的成本巨大,让很多企业望而却步,这是阻碍图数据库飞入寻常百姓家的一座大山。
既然有山,就得有愚公。
TuGraph,作为中国图数据库里最能打的那个,准备参与一下“愚公移山”的历史进程。
2022年,蚂蚁老师傅联合国际标准组织 ISO 帮助制定图数据库的“普通话”——通用查询语言 GQL;
2023年,他们还联合图数据库的国际组织 LDBC,制定了 FinBench 金融图数据库测试标准,其中就定义了标准的数据接口。
FinBench 的标准流程
光靠降低“协作成本”,老师傅还觉得不过瘾,一个更大胆的想法冒出来。。。
2022年,他们直接把 TuGraph 的单机版给开源了!
这不仅可以让有需要的企业直接“零元购”这套顶级的图数据库,还能让更多对图数据库感兴趣的老师傅毫无鸭梨地研究它。
话说,虽然不要钱,企业们也不可能一上来就让图数据库承担重任,这些老师傅也不可能一上来就适应图数据库的思维逻辑,但不可否认,他们都是星星之火。
TuGraph 宣布开源
有趣的是:因为谁都能下载,洪春涛也不知道究竟谁在用。
但在一些偶然的场合,他遇到了一些小伙伴,他们来自小米和米哈游这样有技术激情的公司。
对方告诉洪春涛,自己的公司已经开始用 TuGraph 了。没啥主动安利的情况下,却能在这些优秀企业里生根发芽,这让洪春涛对 TuGraph 的生命力信心大增!
洪春涛给我画了一张图:随着图数据库的成本降低,它能进入的领域会越来越多。
事情的发展,也在逐渐印证这张图。
就在不久前,TuGraph 团队帮蚂蚁内部做了一个和金融本身没那么大关系的事儿——“数据血缘工程”。
故事是酱的:
在蚂蚁业务中使用的传统数据库里,有一些包含了我国的“行政区划”信息。
这些数据来自最初的那张原始表格,但由于各个业务需求不同,后来有的从中提取了一部分使用,有的把别人的表格拿来再引用。
最后的情况变成了,大大小小一万多张表里都含有最初那张表的“基因”。
这本来没什么问题,但是随着国家的发展,行政区划是会变化的。2021年,蚂蚁集团内部决定更新一下最初的那张行政区划表。
麻烦来了,这个动作究竟会对这一万多张表产生啥影响?这一万多张表都重新修改的话,会对系统造成哪些冲击?应该用怎样的顺序替换?
TuGraph 团队帮忙把这些表格的元信息都导入图数据库,用图算法一跑,其中关系,也就是“数据血缘”立刻浮现出来。
血缘显示,其中有两个表格极其重要。后续很多表格都是它的“后代”,于是这两个表格的负责人被邀请进入了项目组,大家在所有表格上引用数据的点位都做好了关联,这边切换,那边与之相关的点位也同步切换。
这样,不仅避免了这次变更潜在的数据冲突,还盘活了数据库之间的血脉,以后再想变更,直接操作就行!
利用类似的思想,TuGraph 团队还帮某档案馆做了一个“档案血缘”方案,源头档案的内容一变,所有相关的引用就瞬间更改。
他们还帮某海关把报关单的内容都放进图数据库里,可以从中发现全球商品的流动特征,还能探测到虚假报关的行为。
他们还帮一家能源集团把电网中的设备拓扑都归纳在图数据库中,模拟其中某些节点出现故障之后对系统整体造成的影响,从而制定更精确的维护策略。
这些应用五花八门,在洪春涛介绍前,我完全无法想象。
**“那图数据库到底能用在哪些行业呢?”**我刨根问底。
“所有行业,只要图数据库的成本足够低!”洪春涛说,“现在看来,各个行业都在单独的点上尝试,但你站在远处看,这些点逐渐增多,就会连成片。这就是星火燎原的真实过程。”
这是评价一项新技术的 Hyper Cycle,洪春涛认为图数据库所在的位置已经走出了“幻灭之谷”。
他的话让我突然想起了130年前,1893年的芝加哥世界博览会。
那届博览会为了庆祝哥伦布发现新大陆400年,决定使用当时方兴未艾的新技术,电。
主会场中,12万个灯泡同时闪亮,如同白昼。那是人类第一次创造出一个纯电照明的建筑环境,宛如神迹。
而那之后,人类开启了“电”飞入寻常百姓家的汹涌进程,自此历史再不回头。
而电的应用也从“电灯”开始,逐渐进入了取暖、烹调、工业炼化、机械车床,最终它驱动了电子计算机,成为了承载下一代科技浪潮的基石。
如此看来,新一代科技浪潮,不正在我们脚下涌动吗?
(六)怕风险,更怕“从前慢”
2021年,人民日报发表了一篇文章,名叫《高性能图计算:尖端科技下一个前沿》。
其中低调地说了一句: 在我国发展高性能图计算,具备良好的技术基础和现实条件。
亲身经历这段历史,洪春涛当然知道这些“基础和条件”有多么来之不易。
毫不意外,图数据库最早的企业级生态诞生在美国,2007年创业团队 Neo4j 开拓了图数据库的商业应用,但由于当时数据分析需求不够旺盛,随即进入了长达8年的低潮。
到了2015年,数据量开始暴涨,风口来临,彼时中美两国的老师傅们几乎同时大举杀入图数据库,那一波我们的投入丝毫不逊于美国。
之所以中国人这么有信心,源自我们巨大的人口基数,和建立于其上的全世界最大的移动互联网生态。
这场决绝的投入,换回的结果就是:在图数据库和图计算领域,中国一骑绝尘跑在世界前沿,没有任何人卡我们的脖子。
不是不想,而是不能。
其中,清华大学在学术赛道保持领先,蚂蚁在产业赛道冲在最前面。
而在2020年,洪春涛和他的老师陈文光所代表的来自清华的团队加入了蚂蚁集团,学术界和产业界最强的两支队伍会师,成为了中国图数据库的一个里程碑。
这次会师的结果就是:在最新的权威基准测试中,TuGraph 的成绩提升到了之前美国最强的 TigerGraph 的 2.84 倍。
纵然美国的图数据库面对国际市场,能从全世界吸引最强的人才,综合实力还是领先,但是中国图数据库的性能摆在这里,虽说没必要骄傲,但也没理由妄自菲薄。
而我们更该关心的是,怎么找到一个“快进键”,把物理世界中复杂缠绕的数据尽快塞进图数据库这个基础设施,编织出专属于下一个时代的生产力?
这里,仍有一些值得警惕的事实:
在采用图计算的意愿上,中国企业并没有美国企业那么激进。
银行业,就是一个突出的例子。
虽说我们的很多银行都已使用图计算,但却把它作为解决特定风险的专用工具,没有像蚂蚁那样放进每一笔交易的核心流程里。
但由于银行的风控策略更为严格,对企业贷款的资质信用要求很高,许多中小企业相对缺乏帮助判断的信息,在资金获取方面遇到了困难。
这样并非长久之计。
最近两年,国家大力推进普惠金融,鼓励银行加大对小微企业的贷款支持力度,银行业的风控需求也在进一步向深水区跋涉,新技术的应用可能就是一把钥匙。
银行业只是千行百业的代表。在政策的引导下,能源行业、先进制造业、医药、教育都在进行数字化改造,进一步尝试数据分析和洞察。
这些先行者们是否会像核聚变一样点燃中国图计算新一轮爆炸?蚂蚁这群老师傅站在时光的河流岸边,像纤夫一样用微薄之力拉动这一切发生。
遥想当年,就在美国芝加哥世博会开幕时,大洋对岸甲午战争正在酝酿,中国大地风雨如晦,有识之士仍在快步疾行,寻找德先生和赛先生。
而今,头顶的天空碧蓝,我们找不到理由怀念“从前慢”。
毕竟,“车、马、邮件都慢”和“冒着热气的豆浆店”无法载着我们的世界飞速前进,就让它们留在诗句里吧!
**Art work By
**
Yoshi Sedeoka
往期推荐:
👉****黑客为什么不攻击支付宝?
👉当AI成为逆子:我们该给丫一个逼兜,还是给它一个拥抱?****
👉****我认识了一位阿里巴巴“禁卫军”
👉****像素时代的黄昏和“淘宝叛军”
👉****我在淘宝买到了“生活解药”
无法浮现的真相
并不是真相
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。**我的日常是和各路大神聊天。**如果想和我做朋友,**可以搜索微信:**shizhongmax。
哦对了,如果喜欢文章,请别吝惜你的**“在看”或“分享”****。让有趣的灵魂有机会相遇,会是一件很美好的事情。**
Thx w****ith in Beijing