2021 年过去了,又是公司全员忙碌的一年,我也懒得写什么个人和公司年度总结了。写了几年的 IP 库相关的文章的阅读量和关注的粉丝都不如打两场官司关注的多,何苦呢?何必呢?
不过有个朋友来提了一个好问题,他问我你们一年从头忙到尾,到底干了多少活?正好我们的国外同行发了一篇同类的博客文章,我看了一下,对他们的结论并不太认同,但是需要数据支撑,所以我元旦期间写了一个简单的对比程序,跑了一晚上得出了以下的结果:
中国国家级未变化
404315150
中国国家级有变化
13232484
中国省级未变化
395994078
中国省级有变化
8321072
中国城市级未变化
388271876
中国城市级有变化
7722202
国外国家级未变化
3281667181
国外国家级有变化
42104353
国外省级未变化
3066665620
国外省级有变化
215001561
国外城市级未变化
3002714588
国外城市级有变化
63951032
中国有变化总数
29275758
国外有变化总数
321056946
整体有变化合计
350332704
以上为 IPv4 的对比结果,IPv6 因为没想好怎么算对比量,按个数还是按 CIDR,所以先略过。
对比数据的两端取自 2020 年 12 月 31 日和 2021 年 12 月 31 日的最后提交的 IP 数据,只进行了中国和国外的数据统计,其中中国包含港澳台地区。
国家级变化表示在国家级标注上就有变化,比如中国变成美国,美国变成中国这种,数字累加后不会再进行下一级对比,省级也是如此。
那么可以看到中国部分有变化的 IP 总数为 29275758 个 IP,大概占中国 IP 总数(国家级数字见:https://www.ipip.net/support/data.html )的 7% 多一点。
而变化的 IP 总数为 350332704 个 IP,虽然 IPv4 按道理应该有 42 亿多个,但实际如果去掉 0.0.0.0/8,10.0.0.0/8,100.64.0.0/10,127.0.0.0/8,169.254.0.0/16,172.16.0.0/12,192.168.0.0/16,224.0.0.0/3 等以及一些小规模保留地址的部分,应该只有 36 亿多一点的 IP 可用于公网使用。按照这个 36 亿的值计算的话,我们一年下来,我们整体更改了非常接近 10% 的 IP 数量。
而如果按照 2021 年有 250 个工作日计算的话,我们平均每天要更改 140 万个以上的 IP。单从工作量上讲,大家可以考虑一下,这在技术活之外,是不是一个辛苦活?附带说明一下,2021 年初的时候我们的 IPv4 文本行数是 726 万行,到了年底则增加到了 840 万行。见下图:
还要牢记一点,看变化不要只跟总数比,因为国内外还都有为数不少的 IP 没有启用,各个国家比例不同。所以不要觉得好像中国只更改了 7%,而全球只有 10% 的变化,就觉得数据持续更新的价值不大,按照常理大家也能理解,即使按照平均值计算,每个 IP 背后一般也都不是只有一个用户在用的。我们去年有上市公司级客户主动回流就已经证明了,即使每年真的只有 7% 的变化也不代表你就可以忽略它。更何况也也只是代表我们自己的数据的变更情况,各个同行们数据质量基础不同,方法不同,更新数量和频度代表的意义也不尽不同。同行就算同样有 7% 的变化甚至更多的变化,如果是错误的,或者是抄的呢?
还要特别强调一下的是,这是年初到年尾的年度 IP 变化量,如果有部分 IP 在一年内变化了两次三次甚至更多的时候,比如一些小规模 VPS 服务商和某些以 IP 租赁服务为生意的公司所属的 IP 段的地理位置变更就非常频繁,如此算下来,恐怕我们的实际日变化累计工作量应该会超过 10% 了。有空可以让我同事写个快速对比的对比程序,按日统计下。
说到这里,我就想问问那些无论是以前还是现在,曾经跟我说过要自己做 IP 库的(前)客户的员工们,你们是否真的认知到位了,还是只是给了自己一个增加团队 HC 增加 OKR/KPI 的理由?当然,高估自己,低估别人,是大互联网公司甚至是 IT 行业的常态了。从 2020 年开始,我学会不在意,不用担心,你搞不定,可以继续找我们来兜底,我们的商务同事会认真跟你们谈价格的。
当然,我们还有一些国家还在城市级数据的艰难推进中,集中在拉美,非洲,中东地区,这些也会被计算到这个工作量中。理论上这些不应该算数据的变更,但是你也理解,这些国家的总体 IP 拥有量跟总量相比并不算多,我也懒得去做排除了,就当我偶尔标题党,一年下来允许我骄傲这么一次吧。这些地区也希望在 2022 年都能进入收尾阶段。
有人可能会觉得不算啥,但是这个仅仅是工作量,你不但面对巨大的变化,还要面对你如何保证修正的都是符合实际情况的巨大难题。
想说明这个,可能拿个老段子给大家讲讲比较好理解一些。
当年机电专家卡尔·奥古斯特·鲁道夫·斯坦门茨有一个故事。福特公司的巨型发电机不能工作了,请来了这位专家, 他检查过后在机器外壳上用粉笔划了一道白线,告诉工人此处 线圈减 16 圈,果然发电机就正常工作了。他的要价是 10000 美元,福特的老板觉得 10000 美元有点贵,便让斯坦门茨给出价格的明细 来。斯坦门茨给出了明细。这个明细呢,只有两项—— 1、用粉笔划一道白线 1 美元;2、知道在哪里划这根线 9999 美元。福特的老板看过之后爽快的付钱了。
虽然这个故事有争议,知乎上也有过讨论。但是我觉得明白想表达的道理就好了。
平均每天更改 140 万 IP 只是工作中最简单的部分,但是知道哪些该更改,要把错的数据改对,还不能冤枉对的数据,才是整件事情的核心。
当然,除了这个工作以外,我们还有 IPv6 的数据也要维护,还要维护很多 IP 地理位置之外的工作,这些都是我们的工作量的体现,都是为了把这个数据库做的更好。
说到地理位置本身,我又要吐槽我们同行了,最近这次的问题是有朋友来反馈我们的同行貌似把城市张冠李戴到别的州去了,就好比我们之前提过的某个同行把美国伦敦给解析成了英国伦敦,我们确认了一下,朋友说的没错,这次他们是把某个云服务商上的 IP 给变更到了美国某个很偏僻的州去了,明显是没有做位置约束或者围栏检查的。而且那地方连运营商都很少,我是没看到哪个大公司跑到那里去建数据中心的,这是行业常识啊。
这位同行是把收到的钱都给了销售还是都给了律师了呢?我们百思不得其解啊。
前面说到 IPv6,曾经有客户说我们 IPv6 数据做的不如 IPv4 好。很大原因是在于作为一家小公司,收入不够,就会导致投入和数据储备不足,你又不能因为客户批评你,你就去抄吧?不过最近有些突破,也算是 2021 年给自己和客户一个交代,请看下图:
好啦,去年的 IP 变更情况回顾完了,这些数据都是过去式,2021 年也已经过去,2022 年我们希望能够做得更好,不辜负我们自己做一个 100% 质量的产品的期望,已经坚持了八年,不差再坚持几年。同样也不想辜负客户对我们的期望。2022 年继续努力工作,也会继续努力打官司。:D
题图:2021 年底上的新服务器,用于承载更多数据。