python爬网页中文乱码问题


再用python爬取网页时,用模拟浏览器登陆,得到的中文字符出现乱码,该怎么解决呢?

url = “http://newhouse.hfhouse.com/”
    req = urllib2.Request(url,headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0" })
    reqHtml = urllib2.urlopen(req).read()
    #print reqHtml
    songtasteHtmlEncoding='utf-8'
    soup = BeautifulSoup.BeautifulStoneSoup(reqHtml,fromEncoding=songtasteHtmlEncoding)
    #print soup
    re_h = re.compile('</?\w+[^>]*>')
    s = len(soup.findAll('a',{"class":"area_list"}))
    finda = soup.findAll('a',{"class":"area_list"}) 
    i = 0
    while(i<s):
        quyuz = re_h.sub('',str(finda[i])).strip()
        try:
            quyu = quyuz.decode('utf-8').encode('gbk')
        except:
            if quyuz[:3] == codecs.BOM_UTF8:
                quyu = quyuz[3:]   
                print quyu.decode("utf-8").encode('gbk')
        #quyu = quyu.decode('utf-8').encode('gbk')
        #number = int(filter(str.isdigit, quyuz))
        #dir2 = make_dir(dir1,quyu)
        value = finda[i]['val']
        houseid = finda[i]['href']
        print houseid,value,quyu

总是报eUnicodeEncodeError: 'gbk' codec can't encode character u'\xe7' in position 0: illegal multibyte sequence,网页head里编码是utf-8该怎么办呢?

优质内容筛选与推荐>>
1、C++知识点(六)数组、指针与字符串导学
2、转:ASP.NET项目中多个web.config配置文件
3、解决VS Code保存时候自动格式化
4、万维网之父公布“拯救互联网”计划:不能让网络成为恶土
5、JavaScript大杂烩9 - 理解BOM


长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

    阅读
    好看
    已推荐到看一看
    你的朋友可以在“发现”-“看一看”看到你认为好看的文章。
    已取消,“好看”想法已同步删除
    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号