大家好,很久没更新文章了。有了输入才能输出,最近有点儿躺平、摆烂就没学习。。今天和大家聊一下RSS这个东西,开篇我想先介绍几个概念
信息茧房
信息茧房是指人们关注的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。
百度百科:https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E8%8C%A7%E6%88%BF/12661227
推荐算法
推荐算法是计算机专业中的一种算法,通过一些数学算法,推测出用户可能喜欢的东西,应用推荐算法比较好的地方主要是网络
百度百科:https://baike.baidu.com/item/%E6%8E%A8%E8%8D%90%E7%AE%97%E6%B3%95/6560536
用户 A 是个体育迷,那么 A 获取的信息大多是跟体育相关的,很难获取音乐或者军事等其它相关的资讯,因为平台追求点击率,会一直推送 A 感兴趣的内容以获取高广告浏览量。
怎么破?此时我们需要知道另外一个东西。
RSS
RSS(英文全称:RDF Site Summary 或 Really Simple Syndication[2]),中文译作简易信息聚合,也称聚合内容,是一种消息来源格式规范,用以聚合多个网站更新的内容并自动通知网站订阅者。使用 RSS 后,网站订阅者便无需再手动查看网站是否有新的内容,同时 RSS 可将多个网站更新的内容进行整合,以摘要的形式呈现,有助于订阅者快速获取重要信息,并选择性地点阅查看。
用户 B 追星王某某,B 需要关注其微博、知乎、博客等等(因为我不追星实在想不到其他的)之后可以顺利的掌握其动态。现在只需要通过 RSS 将信息汇总到一起,只关注一个地方即可
推荐算法是由平台决定你喜欢的内容,RSS 是由你决定你喜欢的内容
RSS 其实不是什么新兴事物,它的历史可以追溯到 1999 年。那为什么现在几乎绝迹了呢?
其实并没有,博客园、知乎、CSDN 等等站点依然支持 RSS 规范,甚至于一些大佬的个人站点如阮一峰、廖雪峰都是支持的,只是他们支持的版本可能有所不同
那为什么你没有听说或者使用过呢?
其实很简单 RSS 不会为站点带来流量,在这个流量为王的时代,没有流量就意味着没有收入。所以各大新兴的媒体平台很默契的都关掉了 RSS 的支持
后面聊聊在当前这个时间节点我们如何使用 RSS 收集并阅读信息
从前文中 RSS 的定义中可以看出,RSS 本身只是一种规范。说白了就是只规定了格式,具体的内容由各个平台自行填充
默认不支持 RSS 订阅的站点就需要我们自己想办法了,这里我推荐两个开源项目
国人开发的一个 RSS 源,支持国内新兴媒体站点的解析。默认情况下 RSS 规范是不支持全文解析的,但是 RSSHub 支持了
GitHub 地址:https://github.com/DIYgod/RSSHub
我最近使用的下来的缺点大致如下
不支持自定义站点解析(至少不能很方便的自定义)
据说作者润欧洲了,最近抓取的规则更新不频繁经常出现失效的情况
官方站点不知道是访问人数多还是什么原因,总是获取数据失败。
安装官方文档自行搭建的站点(具体搭建流程后续我再写篇文章):http://rss.coder163.com
Hugin 和 Munin,是北欧神话奥丁养的两只乌鸦,它们两个每天早上一破晓就飞到人间,到了晚上再回去跟奥丁报告
Huginn 是一个用于在线执行自动任务的建筑代理的系统。他们可以阅读网络。
GitHub 地址:https://github.com/huginn/huginn
和很明显它不是单纯的为了 RSS 而生,但是却可以提供 RSS 需要的功能。RSSHub 相比它的自定义话很方便,而且真的可以做到对任何网页内容的抓取
如果说有什么缺点的话就是部署比较麻烦。虽然作者已经给出了部署的详细文档,但是因为网络问题总是会失败。
同时作者也给出了使用 docker 的部署方式。按照文档来就行,基本无错
这个服务我也正在搭建(后续整理成文章再分享)
仅有解析站是没用的,我还需要将 RSS 的内容做成我们容易看的。这就是阅读器的任务了
Google 曾经有一款阅读器名字是 Google Reader,可惜在 2013 年 7 月 1 日关闭了。大概也就是从这时候网络上开始唱衰 RSS
fluent-reader:https://github.com/yang991178/fluent-reader
irreader:http://irreader.fatecore.com/
相比较而言更推荐 fluent-reader 毕竟是开源、跨平台的的
其实我自己写了一个阅读器,只是功能还不完善。等做的差不多了再和大家建模
采用 RSS 的形式进行信息管理,个人感觉是信息收集的最优解。只是限于当前的环境很多需要我们自己动手,我已经在努力了······
老规矩,推一下另外一个号。感觉大家都不太感兴趣。。。。