写程序去抓取采集别人网站上的内容是合法的吗?

百度、谷歌可以缓存别人的网页,按道理来讲个人爬虫应该也是可以的吗?别人网站自己写的 Terms of Service 具有法律效应?
已邀请:
大力

大力 - 天行健,君子以自强不息

赞同来自:

我是做过站长的,我来说一下吧

谷歌百度作为搜索引擎抓取别人网站内容,最终的流量导向依然是对方的网站

用户需要点进对方网站才能看到内容,用户不点只能看到一个标题

所以,这是一个双赢的现象,对网站方没有任何损失

但是如果你来抓取,意义就不太一样了。。。

作为网站方辛辛苦苦整理的内容,尤其是原创内容,不可能希望任何人抓取复制自己网站内容的

但是并不是不希望别人不复制,别人就不会复制的,追究责任成本又太大

所以呢,通常内容被复制抓取,网站方通常是很无奈的

如果你真的需要抓取,就在内容页面底部给人留个版权链接之类的信息吧,这样就算很良心了
简朴

简朴 - 志不立,天下无可成之事

赞同来自:

如果非要抓取别人网站的内容,最佳实践就是,有官方 API 的,尽量用官方 API;征求站长的同意;光明正大地在爬虫的 user agent 里写明你是谁、给出网址解释为啥要抓取他们家的内容;咨询律师。

参与讨论请先登录注册