手机
当前位置:查字典教程网 >脚本专栏 >python >python提取页面内url列表的方法
python提取页面内url列表的方法
摘要:本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:frombs4importBeautifulS...

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup import time,re,urllib2 t=time.time() websiteurls={} def scanpage(url): websiteurl=url t=time.time() n=0 html=urllib2.urlopen(websiteurl).read() soup=BeautifulSoup(html) pageurls=[] Upageurls={} pageurls=soup.find_all("a",href=True) for links in pageurls: if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls: Upageurls[links.get("href")]=0 for links in Upageurls.keys(): try: urllib2.urlopen(links).getcode() except: print "connect failed" else: t2=time.time() Upageurls[links]=urllib2.urlopen(links).getcode() print n, print links, print Upageurls[links] t1=time.time() print t1-t2 n+=1 print ("total is "+repr(n)+" links") print time.time()-t scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

【python提取页面内url列表的方法】相关文章:

Python 开发Activex组件方法

python实现定制交互式命令行的方法

Python中文件遍历的两种方法

tornado捕获和处理404错误的方法

python 测试实现方法

python调用shell的方法

Python批量修改文件后缀的方法

简单文件操作python 修改文件指定行的方法

python中stdout输出不缓存的设置方法

python抓取京东商城手机列表url实例代码

精品推荐
分类导航