教程:新浪微博的抓取

其实,我这只算是投机取巧。

技术是死的,人是活的,如果只在一棵树上吊死,岂不是浪费了整片森林。

网上类似教程更多的是教你一条路走到黑。

“哎呀,这个抓不到数据呀,我查了好像得要模拟登录。”

“嗯,你说的没错,正好我这儿有一篇教程是教怎么模拟登录的,你好好看看,学习一下。”

这可以解决问题,但路不止一条。去订阅

教程:RSS全文输出,自己动手做。(一)

这里以PHP版为例,尽量说得通俗点吧,水平实在有限,见谅。虽然并没有多高深,但请转载者注意起码的礼貌。

目前我这里所有的获取全文输出的网站大概是三种情况:

  1. 要输出的内容集中在一页上,也就是看似列表页的页面里集中了你想要的所有内容,并不需要点击“更多”或“继续阅读”才能看到文章整体。比如糗事百科、wiki。
  2. 有列表页,要查看相应文章必须点击链接进入。
  3. json方式写入。特征就是查看源文件并不能找到你在浏览器中看到的内容。比如腾讯新闻图片(链接),它的真正内容在这(链接)。

第一种最省事,第二种最常见,第三种稍麻烦。

今天先讲第二种。

去订阅