手机
当前位置:查字典教程网 >脚本专栏 >python >Python打印scrapy蜘蛛抓取树结构的方法
Python打印scrapy蜘蛛抓取树结构的方法
摘要:本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下:通过下面这段代码可以一目了然的知道scrap...

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下:

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单

#!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0): urls = allurls[referer] for url in urls: print ' '*indent + referer if url in allurls: print_urls(allurls, url, indent+2) def main(): log_re = re.compile(r'<GET (.*?)> (referer: (.*?))') allurls = defaultdict(list) for l in fileinput.input(): m = log_re.search(l) if m: url, ref = m.groups() allurls[ref] += [url] print_urls(allurls, 'None') main()

希望本文所述对大家的Python程序设计有所帮助。

【Python打印scrapy蜘蛛抓取树结构的方法】相关文章:

python条件和循环的使用方法

Python调用C/C++动态链接库的方法详解

python中定义结构体的方法

使用python 获取进程pid号的方法

Python批量修改文件后缀的方法

python判断windows隐藏文件的方法

python去掉字符串中重复字符的方法

Python操作列表的常用方法分享

python实现dnspod自动更新dns解析的方法

python调用shell的方法

精品推荐
分类导航