推荐书: Python开发最佳实践

Python教程:[41]判断抓取的网页的编码方式

分享时@该用户已经被封, 我就能回答你的问题奥!

在抓取网页的时候经常遇到网页编码问题,我们需要将抓取的网页进行解码以后才能正确得到网页上的 内容,那么怎么获取网页的编码方式呢?很多人还在手动去查看网页源码,然后找到charset吗?下面是百度经验的编辑器页面的编码方式。

  • 引入两个模块,urllib2用于获取源码,chardet用于检测编码方式
  • 先获取网页,存放于f中
  • 读取网页的内容,存放在txt中
  • 使用detect方法来获得网页的编码方式
  • 我们读取一下网页编码方式:

转载请注明来自DataScience.

邮箱: 675495787@qq.com