手机
当前位置:查字典教程网 >脚本专栏 >python >python提取页面内url列表的方法
python提取页面内url列表的方法
摘要:本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:frombs4importBeautifulS...

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup import time,re,urllib2 t=time.time() websiteurls={} def scanpage(url): websiteurl=url t=time.time() n=0 html=urllib2.urlopen(websiteurl).read() soup=BeautifulSoup(html) pageurls=[] Upageurls={} pageurls=soup.find_all("a",href=True) for links in pageurls: if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls: Upageurls[links.get("href")]=0 for links in Upageurls.keys(): try: urllib2.urlopen(links).getcode() except: print "connect failed" else: t2=time.time() Upageurls[links]=urllib2.urlopen(links).getcode() print n, print links, print Upageurls[links] t1=time.time() print t1-t2 n+=1 print ("total is "+repr(n)+" links") print time.time()-t scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

【python提取页面内url列表的方法】相关文章:

python3访问sina首页中文的处理方法

python 七种邮件内容发送方法实例

浅析python 内置字符串处理函数的使用方法

Python中文件遍历的两种方法

python调用shell的方法

python解析json实例方法

Python批量修改文件后缀的方法

Python生成随机数的方法

python函数返回多个值的示例方法

tornado捕获和处理404错误的方法

精品推荐
分类导航