抓取别太频繁,时刻都在抓取是不是有点太过分了。
咱是个小站,仅凭着几分热情苟延残喘至今。
装了个日志分析软件,很容易看出哪个ip异常,当然可能会误伤,不可避免,有问题留言。
———————
10.22更新
15分钟是底线。(暂定)
———————
10.23更新
测试时未发现错误,如果正好赶上正在收取RSS,会出现抓取频繁,禁止访问……不好意思,打扰了。
RSS全文订阅
抓取别太频繁,时刻都在抓取是不是有点太过分了。
咱是个小站,仅凭着几分热情苟延残喘至今。
装了个日志分析软件,很容易看出哪个ip异常,当然可能会误伤,不可避免,有问题留言。
———————
10.22更新
15分钟是底线。(暂定)
———————
10.23更新
测试时未发现错误,如果正好赶上正在收取RSS,会出现抓取频繁,禁止访问……不好意思,打扰了。
站长大大用的什么阅读器啊,我许久没用reeder发现从reeder里同步feedly的内容要翻墙了,是这样子吗?
基本只用自己的这个在线看了。
可能分地区和时段吧,有一段时间我也需要fq才能用,现在倒不用了。
您是说直接在网站上看,不使用app吗
是的
不过我比较奇怪的是从feedly网站登录完全没问题,从reeder访问feedly就被墙。。。
给个小建议,能否在github开源这些各个rss的抓取程序?
教程里有,只需要自己改一下正则
最近网站访问的速度相当极其缓慢,至少湖南电信这边是这样,丢包严重,难道被GFW干扰了?
这几个月都是同一个线路,我这倒是一直没啥变化,通常ip被墙才换个ip。
好像我被封了,显示异常频繁访问。
因为一开始订阅,本站有很多源,就一个个尝试过去,留下适合自己的,导致抓取频繁。
我再减少几个,可以解封吗?
不是多的问题,订阅所有的也是没问题的,是抓取间隔太短。
封的几乎都是一直在抓取的,比如只订阅一个的,但每分钟抓取好多次。
我从原网站抓取最快也只是半小时一次,所以合适的从本网站抓取的时间间隔很容易计算。
服务器地址说一下。(不用写全,能让我知道哪个就成)
我是在telegram的SabiaRSS中订阅的,不知道间隔是多少!
服务器地址哪里能查到?安卓的。
我自己装了个telegram试了下,相当于在一个公共资源(bot)上订阅,这个公共资源可能不止你一个人订阅了本站的资源。
所以封的不是你个人,而是这台bot服务器。暂时不想解封,这个实在不可控。
等两天吧,我看看有没有别的办法。
你好,SabiaRSS,凌晨时接受成功一次,后来至现在显示异常了。
然后我加讨论群问了一下这个rss抓取频率,管理员说是5分钟抓取一次。
这两天把我的源都放在feedburner上,让你的机器人去那里抓,就不涉及被封的问题了。
考研要看经济学人 全靠贵站了哈哈 感谢感谢
使用kindleear抓取3个rss,不知道频率,不会被封吧,每天晚上23:59
正常用的都没问题,放心吧。有问题的都是自己用服务器装的客户端那些,多着也就1%。所以对绝大部分人都不会有影响,封掉占用带宽多的那几个,可能您的访问速度还会快一些。
Inoreader上提示“抓取过于频繁,禁止访问”……
不好意思,我在做测试。把本站所有的链接都重定向到错误页了
我是用ifttt服务订阅的rss,刚突然发现访问频繁异常,不会是把ifttt的封了吧
ifttt网址:https://ifttt.com
不好意思,我在做测试。把本站所有的链接都重定向到错误页了
看到后能不能把我刚才的IP地址回复删除,谢谢
好,已解封。
我觉得站主可以根据 RSS 的性质,顺带着在服务器上配置 “推荐的更新周期”,像观止的那个 RSS Feed 配置为半天或者一天都很合理。我使用的 RSS Reader 是 Outlook,默认情况下,Outlook 的 RSS 功能使用发布商的更新建议并进行更新。这样的话可以避免误伤一部分人,比如几千号人共用一个 IP 出口的情况,譬如学校。
爆栈的相关提问:
https://stackoverflow.com/questions/6389255/rss-feed-how-to-recommend-an-update-interval
微软的帮助页面:
https://support.office.com/zh-cn/article/%E6%9B%B4%E6%94%B9-rss-%E6%BA%90%E7%9A%84%E8%AE%BE%E7%BD%AE-74a8bbbe-dfa4-40bc-b6da-c7f69cb4b3e9
好的,谢谢。
误伤的可能性其实不大,因为不是写的自动脚本封的,我会去看日志。
封的几个完全是用的自己的服务器装的RSS客户端,一分钟几次24小时不停抓取,基本排除是手机或个人电脑。
有的客户端还好,虽然抓的也很频繁,但会有对比,返回的是304,并没有实际下载,这样的也没有封。
有3个feed也收到了“抓取过于频繁,禁止访问”的推送,但是好像后续也正常收到订阅了。查了下inoreader的抓取频率,应该没有小于30m的,应该不会被封吧?
那是个事故……测试的时候没发现,那个时段对本站的所有请求都会收到那个错误页面。
站主, 请问可以提供下发送到 Kindle 的服务吗?
能fq的话可以自己装个kindleear,搜索关键字有很多教程,跟着一步步做就可以了。
Hi,ip 被封求解封 61.164.*.*/60.12.*.*。早期程序无优化可能造成频繁抓取导致被封(不知道上面 ip 能否删除或者打码)。
解除了
联合早报的rss是不是挂了哦,好像2天没看到联合早报的新闻。
站长你好,我一直都是通过reeder来同步Feedly来看,订阅源全部都是您提供的,可是从10月13日到现在就一直没办法更新了,是您这边设置的原因吗?请排查一下为盼,谢谢了。
我的网络环境是可以墙外的。
feedly一直在正常更新,是不可能禁的。如果直接在feedly可以浏览的话应该不是我这边的问题。
站长,IP59.*7.*1.84 并没有频繁抓取,只是自己写程序在半夜下载到本地,为什么被封呢?
对天发誓这个IP并没封禁,一共就这几个,并在慢慢减少。
谢谢,我发现自11月17日起经济学人-接收的就是同一个内容,以为被封。我再测试一下,另,经济学人能否分不同栏目更新呢?比如business,china等等
个人习惯是不做细分的,这个习惯目前不想改
哈哈,好吧,谢谢站长。我也在北京,喜欢用技术做有用的事。有机会可以见面探讨。
为什么朝日获取不了内容?
啥平台?在浏览器里能打开应该就没啥大问题
注册发来的邮箱设置不了密码,现在这个ip是被禁了?
邮箱里的链接不要直接点击,复制,然后打开。
个别邮箱直接点击会因为链接地址出现 “<" ">” 无法修改密码。
请问,我的客户端是inoreader,但是我没有去设置他,我看了下有几个被自动设置到了10min,然后边上显示此订阅源已被其他用户增强,请问我如何修改,一天大概我也就看两次inoreader
正常使用不用管它,只封那些几乎每秒钟都在收取的。inoreader这种有它自己的缓存,您一天看多少次对本站也没影响。