使用Python编写简单网络爬虫抓取视频下载资源

摘要：我第一次接触爬虫这东西是在今年的5月份，当时写了一个博客搜索引擎，所用到的爬虫也挺智能的，起码比电影来了这个站用到的爬虫水平高多了！回到用P...

我第一次接触爬虫这东西是在今年的5月份，当时写了一个博客搜索引擎，所用到的爬虫也挺智能的，起码比电影来了这个站用到的爬虫水平高多了！

回到用Python写爬虫的话题。

Python一直是我主要使用的脚本语言，没有之一。Python的语言简洁灵活，标准库功能强大，平常可以用作计算器，文本编码转换，图片处理，批量下载，批量处理文本等。总之我很喜欢，也越用越上手，这么好用的一个工具，一般人我不告诉他。。。

因为其强大的字符串处理能力，以及urllib2，cookielib，re，threading这些模块的存在，用Python来写爬虫就简直易于反掌了。简单到什么程度呢。我当时跟某同学说，我写电影来了用到的几个爬虫以及数据整理的一堆零零散散的脚本代码行数总共不超过1000行，写电影来了这个网站也只有150来行代码。因为爬虫的代码在另外一台64位的黑苹果上，所以就不列出来，只列一下VPS上网站的代码，tornadoweb框架写的

使用Python编写简单网络爬虫抓取视频下载资源1

[xiaoxia@307232 movie_site]$ wc -l *.py template/*

156 msite.py

92 template/base.html

79 template/category.html

94 template/id.html

47 template/index.html

77 template/search.html

下面直接show一下爬虫的编写流程。以下内容仅供交流学习使用，没有别的意思。

以某湾的最新视频下载资源为例，其网址是

http://某piratebay.se/browse/200

因为该网页里有大量广告，只贴一下正文部分内容：

使用Python编写简单网络爬虫抓取视频下载资源2

对于一个python爬虫，下载这个页面的源代码，一行代码足以。这里用到urllib2库。

>>> import urllib2

>>> html = urllib2.urlopen('http://某piratebay.se/browse/200').read()

>>> print 'size is', len(html)

size is 52977

当然，也可以用os模块里的system函数调用wget命令来下载网页内容，对于掌握了wget或者curl工具的同学是很方便的。

使用Firebug观察网页结构，可以知道正文部分html是一个table。每一个资源就是一个tr标签。

使用Python编写简单网络爬虫抓取视频下载资源3

而对于每一个资源，需要提取的信息有：

1、视频分类

2、资源名称

3、资源链接

4、资源大小

5、上传时间

就这么多就够了，如果有需要，还可以增加。

首先提取一段tr标签里的代码来观察一下。

<tr>

<td>

(<a href="/browse/205" title="此目录中更多">电视</a>)

</center>

</td>

<td>

<div><a href="/torrent/7782194/The_Walking_Dead_Season_3_Episodes_1-3_HDTV-x264" title="细节 The Walking Dead Season 3 Episodes 1-3 HDTV-x264">The Walking Dead Season 3 Episodes 1-3 HDTV-x264</a>

</div>

<font>已上传 <b>3分钟前</b>, 大小 2GiB, 上传者 <a href="/user/paridha/" title="浏览 paridha">paridha</a></font>

</td>

</tr>

下面用正则表达式来提取html代码中的内容。对正则表达式不了解的同学，可以去 http://docs.python.org/2/library/re.html 了解一下。

为何要用正则表达式而不用其他一些解析HTML或者DOM树的工具是有原因的。我之前试过用BeautifulSoup3来提取内容，后来发觉速度实在是慢死了啊，一秒钟能够处理100个内容，已经是我电脑的极限了。。。而换了正则表达式，编译后处理内容，速度上直接把它秒杀了！

提取这么多内容，我的正则表达式要如何写呢？

根据我以往的经验，“.*?”或者“.+?”这个东西是很好使的。不过也要注意一些小问题，实际用到的时候就会知道

使用Python编写简单网络爬虫抓取视频下载资源1

对于上面的tr标签代码，我首先需要让我的表达式匹配到的符号是

<tr>

表示内容的开始，当然也可以是别的，只要不要错过需要的内容即可。然后我要匹配的内容是下面这个，获取视频分类。