抱怨一句:恼人的联合早报

联合早报又没更新。

发现并不是代码的问题。

有的网站是肯定抓不到全文的,这点咱服,玩不起的躲着。最烦的就是联合早报这种留下了种种漏洞让你能抓到全文的,最近的方法又不行了。

早报其实还算良心,订户专区的文章本来就不多,但谁让咱有强迫症呢。

之所以说又,把我能想起来的抓取过程念叨一下:

1.文件头head里藏着,虽然是全文,但没有格式,费挺大劲格式化这字符串。

2.一些在线博彩网站可能为了引流,会镜像联合早报的所有新闻,用过一段时间,总觉得膈应,现在也没有这类网站了。

3.发现用中国大陆代理可以免费看订户专区并且跟官网的都不是一套代码。说明它有判断用户来源来分配不同网页。用了很长一段时间。

4.大陆代理失效,什么也看不到了,偶然发现香港代理还是能得到全文。

这几天不更新了,即使用代理,也和官网看到的是一样的代码了,说明它关掉了这个福利。

其实早就发现了uzaobao.com这个网站,它不是简单的镜像(要不早就用了),还自己改了标题,但正文内容应该是一样的,我对比过。为了全文,可能会启用这根最后的稻草了。

有洁癖的知悉一下,早报的文章将来并不是来自官网。

教程:任意网页输出为RSS

发现写满了注释就没啥好说的了,姑且称为教程吧。

需要自己操作的核心只是$regex_item和$regex_item2这两个正则的修改。如有兴趣,可另开教程。

聪明的你可能会发现这两个匹配的内容不是一样的吗,那为什么不合二为一呢?

自己体会。 继续

尽量用.net订阅

忽然想到的一个小问题。

有用户说inoreader不能订阅,去inoreader看了看,发现用pw和net订阅的人数基本一样多,这就有点资源浪费了。

备用域名本就是方便国内用户反向代理的net,能用net的就直接用net吧。这样既不减少net的权重又减轻了服务器负担还可以一劳永逸,只有.net是永久的,pw、co之类的备用域名每年都会换。

如果用feedly、inoreader或自建服务,尽量用.net的网址订阅吧,就是把你看到的订阅地址中的pw改成net。

 

RSS全文订阅-南方周末

全文输出南方周末首页推荐最新内容。

比它网站上的要好些,因为取自APP,有些网站需要登录才能看的都可以直接拿到全文。

输出参考:

http://www.infzm.com/

更新频率:每天6次

订阅

RSS全文订阅-维基百科英文首页

全文输出维基百科英文首页最新内容。

同样做了半年没发布……

维基有自己的全文输出,不过我大言不惭地觉得我这个比原版的要好。

输出参考:

https://en.wikipedia.org

更新频率:每天一次

订阅

RSS全文订阅-每日古诗文

全文输出古诗文网随机内容。

选自古诗文网app,完全随机,每日1-2篇。原文、译注、赏析、创作背景、作者简介大部分都有。

输出参考:

https://www.gushiwen.org

更新频率:每天一次

订阅

RSS全文订阅-韩国中央日报

全文输出韩国中央日报最新内容。

做完了有半年了,一直没发布,如果够细心,应该也早就订阅上了吧。

输出参考:

https://chinese.joins.com/gb/common/rss.aspx

更新频率:每小时一次

订阅

祝你平安

这世道,一言难尽。

一场肺炎,各路牛鬼蛇神悉数登场。

昨天一直在折腾,服务器没有能用的,换一个封一个。还把网友留的言给弄没了。

这世道,自求多福。

大家都还好吧

太长时间没登录网站看看了……

一些在免费空间上放的源(help.feedx.net)都没了,没备份。主站的一些源也失效了,有些答应做的源没有做。

精力是真有限,不过放心,会在的,会继续维护的。