手机
当前位置:查字典教程网 >编程开发 >Java >使用webmagic实现爬虫程序示例分享
使用webmagic实现爬虫程序示例分享
摘要:复制代码代码如下:packagecom.letv.cloud.spider;importjava.util.HashSet;importja...

复制代码 代码如下:

package com.letv.cloud.spider;

import java.util.HashSet;

import java.util.List;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

public class MoviePaperPageProcessor implements PageProcessor {

private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);

public Site getSite() {

return page;

}

public void process(Page page) {

List<String> links = page.getHtml().links().regex(

"http://posters.aa.com/poster/d+").all();

links = removeDuplicate(links);

page.addTargetRequests(links);

page.putField("title", page.getHtml().xpath(

"//div[@id='imdbleftsecc']/center/h1/text()").toString());

page.putField("imgurl", page.getHtml().xpath(

"//div[@id='imdbleftsecc']/center/img/@src").toString());

}

public static void main(String[] args) {

for (int i = 1; i <= 3; i++) {

Spider.create(new MoviePaperPageProcessor()).addUrl(

"http://posters.aa.co/poster_page/" + i).thread(5).run();

}

}

public static List removeDuplicate(List list) {

HashSet hs = new HashSet(list);

list.clear();

list.addAll(hs);

return list;

}

}

【使用webmagic实现爬虫程序示例分享】相关文章:

java使用dom4j解析xml配置文件实现抽象工厂反射示例

java字符串反转示例分享

java使用rmi传输大文件示例分享

java 实现约瑟夫环的实例代码

java信号量控制线程打印顺序的示例分享

redis实现多进程数据同步工具代码分享

Java调用DOS实现定时关机的实例

java使用Memcached简单教程

java使用数组和链表实现队列示例

java使用JSONObject实例

精品推荐
分类导航