本圈子主要讨论网络爬虫技术。讨论爬虫的一些具体技术问题,如爬Ajax网站,爬需要验证的网站,分布式爬虫等等网页采集难题。主要是Java开源组件Heritrix,nutch爬虫的源码剖析,功能扩展,当然还可以其他的爬虫。
公告
刚刚成立,欢迎大家加入。

小组成员31人 浏览1037次 成员列表

发起人: sole
管理员: sole

新加入成员

圈子信息