手机
当前位置:查字典教程网 >脚本专栏 >python >python 采集中文乱码问题的完美解决方法
python 采集中文乱码问题的完美解决方法
摘要:近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录1.在正常情况...

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持查字典教程网~

【python 采集中文乱码问题的完美解决方法】相关文章:

wxpython 最小化到托盘与欢迎图片的实现方法

用python删除java文件头上版权信息的方法

python调用shell的方法

Python去掉字符串中空格的方法

Python下singleton模式的实现方法

python抓取网页时字符集转换问题处理方案分享

rhythmbox中文名乱码问题解决方法

Python中的Function定义方法第1/2页

python操作日期和时间的方法

python sqlobject(mysql)中文乱码解决方法

精品推荐
分类导航