全文输出光明日报当天最新内容。
输出参考:
https://epaper.gmw.cn/gmrb
更新频率:每天1次
RSS全文订阅
FeedX
不要发消息,作用仅限于在必要的时候提供墙内域名(目前为feedx.best,有效期至2023年12月)及新订阅通知。
pw的域名挂了,刚刚两个月不到。
感谢他们的祖宗十八辈。
墙内该改订阅地址的改订阅地址吧(pw->xyz),我想静静。
联合早报又没更新。
发现并不是代码的问题。
有的网站是肯定抓不到全文的,这点咱服,玩不起的躲着。最烦的就是联合早报这种留下了种种漏洞让你能抓到全文的,最近的方法又不行了。
早报其实还算良心,订户专区的文章本来就不多,但谁让咱有强迫症呢。
之所以说又,把我能想起来的抓取过程念叨一下:
1.文件头head里藏着,虽然是全文,但没有格式,费挺大劲格式化这字符串。
2.一些在线博彩网站可能为了引流,会镜像联合早报的所有新闻,用过一段时间,总觉得膈应,现在也没有这类网站了。
3.发现用中国大陆代理可以免费看订户专区,并且跟官网的都不是一套代码。说明它有判断用户来源来分配不同网页。用了很长一段时间。
4.大陆代理失效,什么也看不到了,偶然发现香港代理还是能得到全文。
这几天不更新了,即使用代理,也和官网看到的是一样的代码了,说明它关掉了这个福利。
其实早就发现了uzaobao.com这个网站,它不是简单的镜像(要不早就用了),还自己改了标题,但正文内容应该是一样的,我对比过。为了全文,可能会启用这根最后的稻草了。
有洁癖的知悉一下,早报的文章将来并不是来自官网。
忽然想到的一个小问题。
有用户说inoreader不能订阅,去inoreader看了看,发现用pw和net订阅的人数基本一样多,这就有点资源浪费了。
备用域名本就是方便国内用户反向代理的net,能用net的就直接用net吧。这样既不减少net的权重又减轻了服务器负担还可以一劳永逸,只有.net是永久的,pw、co之类的备用域名每年都会换。
如果用feedly、inoreader或自建服务,尽量用.net的网址订阅吧,就是把你看到的订阅地址中的pw改成net。