我的公众号

FeedX

不要发消息,作用仅限于在必要的时候提供墙内域名(目前为feedx.top),所以能稳定FQ也不用加。

没梯子的看过来

备用域名随时可能被封,你可能随时与本站无缘。(我只用了一个多月的pw域名,TMD)

因为本站域名只是被污染了,国内访问墙会指向别人的IP,自然就访问不了了。而本机设置hosts是可以破解这个限制的。所以解决思路很简单,只要能得到本站的真实IP就OK了。 继续

.pw挂了

pw的域名挂了,刚刚两个月不到。

感谢他们的祖宗十八辈。

墙内该改订阅地址的改订阅地址吧(pw->xyz),我想静静。

抱怨一句:恼人的联合早报

联合早报又没更新。

发现并不是代码的问题。

有的网站是肯定抓不到全文的,这点咱服,玩不起的躲着。最烦的就是联合早报这种留下了种种漏洞让你能抓到全文的,最近的方法又不行了。

早报其实还算良心,订户专区的文章本来就不多,但谁让咱有强迫症呢。

之所以说又,把我能想起来的抓取过程念叨一下:

1.文件头head里藏着,虽然是全文,但没有格式,费挺大劲格式化这字符串。

2.一些在线博彩网站可能为了引流,会镜像联合早报的所有新闻,用过一段时间,总觉得膈应,现在也没有这类网站了。

3.发现用中国大陆代理可以免费看订户专区并且跟官网的都不是一套代码。说明它有判断用户来源来分配不同网页。用了很长一段时间。

4.大陆代理失效,什么也看不到了,偶然发现香港代理还是能得到全文。

这几天不更新了,即使用代理,也和官网看到的是一样的代码了,说明它关掉了这个福利。

其实早就发现了uzaobao.com这个网站,它不是简单的镜像(要不早就用了),还自己改了标题,但正文内容应该是一样的,我对比过。为了全文,可能会启用这根最后的稻草了。

有洁癖的知悉一下,早报的文章将来并不是来自官网。

教程:任意网页输出为RSS

发现写满了注释就没啥好说的了,姑且称为教程吧。

需要自己操作的核心只是$regex_item和$regex_item2这两个正则的修改。如有兴趣,可另开教程。

聪明的你可能会发现这两个匹配的内容不是一样的吗,那为什么不合二为一呢?

自己体会。 继续