**知识
**
案例
随笔
声音
其他
编者按
做数据分析这些年,有一条颠簸不破的规律,即所谓智能算法不过是过眼云烟,最根本的还是数据查询检索……。作者利用课余时间,自己动手搭建大数据查询平台,总结了一套入门级的做法,大家都可以试一试。
一、技术路线
1、D****ocker——为什么要用Docker实现?最根本的原因,紧急时能够快速解构,消除一切证据,毕竟做数据工作,风险还是很大。
2、Solr——为什么要用Solr,原因就不必细说了,跟数据量和查询效率有直接关系。
3、DataleakMonitor——这是小编自己编写的代理程序,主要功能是:从公网接受数据检索需求并发送到局域网内,在局域网内进行查询,把包含查询结果的数据(已通过星号进行了混淆)传输到公网,显示给用户,等待时间:约15秒。
4、MySQL+PHP——网站,接受查询需求并访问结构化数据库,此处的结构化数据库主要保存查询需求、已经响应的情况等。
5、数据保存在局域网——防止被拖库。
二、数据平台情况
1、硬件情况
内存:8GB;CPU:INTEL Atom C2538,2.4GHZ,4核;硬盘:600GB/21TB。
2、数据情况
用来进行测试的数据主要包括:姓名、用户名、密码、电子邮件、电话号码、网络昵称、身份证号码以及其他信息。测试总数据量:约7亿+条,查询响应时间:约0.5秒。
3、没有花里胡哨的界面。
三、声明
仅提供研究之用,如有其他需要,可以单独联系作者,也可以通过本号转达信息。