Python实现从脚本里运行scrapy的方法_python教程-查字典教程网

Python实现从脚本里运行scrapy的方法

摘要：本文实例讲述了Python实现从脚本里运行scrapy的方法。分享给大家供大家参考。具体如下：复制代码代码如下:#!/usr/bin/pyt...

本文实例讲述了Python实现从脚本里运行scrapy的方法。分享给大家供大家参考。具体如下：

复制代码代码如下:#!/usr/bin/python

import os

os.environ.setdefault('SCRAPY_SETTINGS_MODULE', 'project.settings') #Must be at the top before other imports

from scrapy import log, signals, project

from scrapy.xlib.pydispatch import dispatcher

from scrapy.conf import settings

from scrapy.crawler import CrawlerProcess

from multiprocessing import Process, Queue

class CrawlerScript():

def __init__(self):

self.crawler = CrawlerProcess(settings)

if not hasattr(project, 'crawler'):

self.crawler.install()

self.crawler.configure()

self.items = []

dispatcher.connect(self._item_passed, signals.item_passed)

def _item_passed(self, item):

self.items.append(item)

def _crawl(self, queue, spider_name):

spider = self.crawler.spiders.create(spider_name)

if spider:

self.crawler.queue.append_spider(spider)

self.crawler.start()

self.crawler.stop()

queue.put(self.items)

def crawl(self, spider):

queue = Queue()

p = Process(target=self._crawl, args=(queue, spider,))

p.start()

p.join()

return queue.get(True)

# Usage

if __name__ == "__main__":

log.start()

"""

This example runs spider1 and then spider2 three times.

"""

items = list()

crawler = CrawlerScript()

items.append(crawler.crawl('spider1'))

for i in range(3):

items.append(crawler.crawl('spider2'))

print items

希望本文所述对大家的Python程序设计有所帮助。

【Python实现从脚本里运行scrapy的方法】相关文章：

★ python去掉字符串中重复字符的方法

★ python实现定制交互式命令行的方法

★ 使用python编写android截屏脚本双击运行即可

★ python实现rest请求api示例

★ python实现哈希表

★ 盘点提高 Python 代码效率的方法

★ python列表去重的二种方法

★ 使用python 获取进程pid号的方法

★ Python中针对函数处理的特殊方法

★ python中定义结构体的方法

上一篇： Python中用memcached来减少数据库查询次数的教程

下一篇： Python实现在线程里运行scrapy的方法

学习工具