手机
当前位置:查字典教程网 >脚本专栏 >python >python提取页面内url列表的方法
python提取页面内url列表的方法
摘要:本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:frombs4importBeautifulS...

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup import time,re,urllib2 t=time.time() websiteurls={} def scanpage(url): websiteurl=url t=time.time() n=0 html=urllib2.urlopen(websiteurl).read() soup=BeautifulSoup(html) pageurls=[] Upageurls={} pageurls=soup.find_all("a",href=True) for links in pageurls: if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls: Upageurls[links.get("href")]=0 for links in Upageurls.keys(): try: urllib2.urlopen(links).getcode() except: print "connect failed" else: t2=time.time() Upageurls[links]=urllib2.urlopen(links).getcode() print n, print links, print Upageurls[links] t1=time.time() print t1-t2 n+=1 print ("total is "+repr(n)+" links") print time.time()-t scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

【python提取页面内url列表的方法】相关文章:

Python 开发Activex组件方法

如何运行Python程序的方法

python3访问sina首页中文的处理方法

python中stdout输出不缓存的设置方法

python提取页面内url列表的方法

python批量下载图片的三种方法

python33 urllib2使用方法细节讲解

Python生成随机数的方法

Python和php通信乱码问题解决方法

python解析json实例方法

精品推荐
分类导航