教程:任意网页输出为RSS

发现写满了注释就没啥好说的了,姑且称为教程吧。

需要自己操作的核心只是$regex_item和$regex_item2这两个正则的修改。如有兴趣,可另开教程。

聪明的你可能会发现这两个匹配的内容不是一样的吗,那为什么不合二为一呢?

自己体会。

例一:微博热搜

图一,此为表达式$regex_item匹配内容,即所谓结构统一且必包含所需元素。

例二:百度知道9图轮播

两个例子应该够用了,举一反三吧。

代码下载:http://feedx.net/rss/tutorial/tutorial200316.tgz

12条评论

  1. 感谢!不过我不太习惯这种写在一起的正则,头大了,而且我试了写了下,有点麻烦,容易出奇怪的问题,比如你这个微博热搜的就出问题了(我没有修改代码),你可以自己测试下。我运行的结果http://209.250.231.104/rss/weibotop.xml 。

    其实我觉得分开写比较好吧,我比较习惯分开,直接抓网页源代码暴力匹配,因为再怎么复杂也有规律,比如微博热搜
    标题:td-02\”>\n.*(.*)
    小括号内的为匹配内容
    我测试是51条结果(没有遗漏),标题和链接一一对应,再用正则替换就完美了,只是我不会写代码

  2. 我写的正则匹配:http://209.250.231.104/rss/1.png 直接贴文字有问题

    1. 程序稍微改改就正常了,少了一步判断。
      但程序流程应该就是这样了。

  3. 我还没试,但是做好了xml,用什么订阅呢?feedx还是rsshub投稿?我没自建哈。
    PS,怎么网站不能登陆了,没看到登陆选项

  4. 这两个例子没有看到输出全文,希望能有一个复杂一点的案例,谢谢

  5. RSS遗老遗少,感谢站长的无私奉献。
    站长有没有抓取「观察者」网的计划?谢谢

发表评论

电子邮件地址不会被公开。 必填项已用*标注