本文共 819 字,大约阅读时间需要 2 分钟。
在开始之前让我先放上代码
from bs4 import BeautifulSoupimport urllib2req = urllib2.urlopen("https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1")ht = req.read()soup1 = BeautifulSoup(ht,'lxml')f = open('t.txt','w')for string2 in soup1.strings: f.write(string2)f.closed
看起来挺正常的代码,在我执行后就出现了如下问题
Traceback (most recent call last): File "test.py", line 109, inf.write(string2)UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
这里解决方案参考了
好吧,先放上解决方案import sysreload(sys)sys.setdefaultencoding('utf-8')
由于我之前是ascii编码方式,所以python2.7会自然而然的用ascii的解码方式,而在上述的代码中由于我抓取的是起点中文网(就是有很多中文),所以导致当前的字符流不在ascii范围中,然后就抛出了ordinal not in range(128)的错误。
于是我们要通过修改默认编码方式,对就是用setdefaultencoding(’utf-8’)最后说一下好像python3.X没有这种问题出现。
个人见解,如有错误请帮忙指出,谢谢
转载地址:http://bwhci.baihongyu.com/