手机
当前位置:查字典教程网 >编程开发 >Java >使用webmagic实现爬虫程序示例分享
使用webmagic实现爬虫程序示例分享
摘要:复制代码代码如下:packagecom.letv.cloud.spider;importjava.util.HashSet;importja...

复制代码 代码如下:

package com.letv.cloud.spider;

import java.util.HashSet;

import java.util.List;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

public class MoviePaperPageProcessor implements PageProcessor {

private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);

public Site getSite() {

return page;

}

public void process(Page page) {

List<String> links = page.getHtml().links().regex(

"http://posters.aa.com/poster/d+").all();

links = removeDuplicate(links);

page.addTargetRequests(links);

page.putField("title", page.getHtml().xpath(

"//div[@id='imdbleftsecc']/center/h1/text()").toString());

page.putField("imgurl", page.getHtml().xpath(

"//div[@id='imdbleftsecc']/center/img/@src").toString());

}

public static void main(String[] args) {

for (int i = 1; i <= 3; i++) {

Spider.create(new MoviePaperPageProcessor()).addUrl(

"http://posters.aa.co/poster_page/" + i).thread(5).run();

}

}

public static List removeDuplicate(List list) {

HashSet hs = new HashSet(list);

list.clear();

list.addAll(hs);

return list;

}

}

【使用webmagic实现爬虫程序示例分享】相关文章:

使用java实现http多线程断点下载文件(二)

java 实现约瑟夫环的实例代码

java使用Memcached简单教程

用Java实现希尔排序的示例

redis实现多进程数据同步工具代码分享

在java中使用dom解析xml的示例分析

java中实现汉字按照拼音排序(示例代码)

JAVA实现多线程的两种方法实例分享

java dom4j解析xml文件代码实例分享

java信号量控制线程打印顺序的示例分享

精品推荐
分类导航