手机
当前位置:查字典教程网 >脚本专栏 >python >Phantomjs抓取渲染JS后的网页(Python代码)
Phantomjs抓取渲染JS后的网页(Python代码)
摘要:最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。Python调用Phanto...

最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库(如果有,请告知小编),漫步了一圈,发现只有pyspider提供了现成的方案。

简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。 轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery(pyspider用来解析HTML),更不用忍受浏览器写Python的糟糕体验(偷笑)。

所以花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux!)。

准备工作

你当然要有Phantomjs,废话!(Linux下最好用supervisord守护,必须保持抓取的时候Phantomjs一直处于开启状态)

用项目路径下的phantomjs_fetcher.js启动:phantomjs phantomjs_fetcher.js [port]

安装tornado依赖(使用了tornado的httpclient模块)

调用是超级简单的

from tornado_fetcher import Fetcher # 创建一个爬虫 >>> fetcher=Fetcher( user_agent='phantomjs', # 模拟浏览器的User-Agent phantomjs_proxy='http://localhost:12306', # phantomjs的地址 poolsize=10, # 最大的httpclient数量 async=False # 同步还是异步 ) # 开始连接Phantomjs的代码,可以渲染JS! >>> fetcher.fetch(url) # 渲染成功后执行额外的JS脚本(注意用function包起来!) >>> fetcher.fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

代码 https://github.com/2shou/PhantomjsFetcher

【Phantomjs抓取渲染JS后的网页(Python代码)】相关文章:

布同 统计英文单词的个数的python代码

删除目录下相同文件的python代码(逐级优化)

python 自动提交和抓取网页

centos下更新Python版本的步骤

PHP webshell检查工具 python实现代码

使用Python下载Bing图片(代码)

可用于监控 mysql Master Slave 状态的python代码

python抓取网页内容示例分享

python抓取京东商城手机列表url实例代码

ssh批量登录并执行命令的python实现代码

精品推荐
分类导航