手机
当前位置:查字典教程网 >脚本专栏 >python >python提取页面内url列表的方法
python提取页面内url列表的方法
摘要:本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:frombs4importBeautifulS...

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup import time,re,urllib2 t=time.time() websiteurls={} def scanpage(url): websiteurl=url t=time.time() n=0 html=urllib2.urlopen(websiteurl).read() soup=BeautifulSoup(html) pageurls=[] Upageurls={} pageurls=soup.find_all("a",href=True) for links in pageurls: if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls: Upageurls[links.get("href")]=0 for links in Upageurls.keys(): try: urllib2.urlopen(links).getcode() except: print "connect failed" else: t2=time.time() Upageurls[links]=urllib2.urlopen(links).getcode() print n, print links, print Upageurls[links] t1=time.time() print t1-t2 n+=1 print ("total is "+repr(n)+" links") print time.time()-t scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

【python提取页面内url列表的方法】相关文章:

python生成指定长度的随机数密码

python调用shell的方法

Python编写检测数据库SA用户的方法

简单文件操作python 修改文件指定行的方法

python中的yield使用方法

Python批量修改文件后缀的方法

python33 urllib2使用方法细节讲解

python发送伪造的arp请求

Python 开发Activex组件方法

python解析json实例方法

精品推荐
分类导航