关于\x开头的字符串编码转换中文解决方法-HQY 一个和谐有爱的空间

关于\x开头的字符串编码转换中文解决方法

做爬虫可能经常遇到爬取到的数据存在编码问题，简直让人头疼，比如爬取到的是这样的：

例如：
\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c
中文是：你好世界

上面这个是utf-8编码，但数据类型是字符串类型，而不是bytes类型的utf-8编码。

这样会导致一个结果：如果直接输出，显示的是乱码，也不能使用decode进行utf-8解码得到中文。

在python2中，中文指定utf-8格式，字符串存入内存就是utf-8编码格式，直接输出就是中文，就不存在这个问题；

而python3中，字符串存入内存是以unicode编码格式存入的，输出的是默认的utf-8编码格式，所以得到的是乱码。

可能有人会说，既然得到的是utf-8编码，在前面加上 " b " ，字符串就是bytes类型了，再利用decode进行解码不就可以得到中文吗？但显然，这是行不通的，你不可能去手动一个个添加，那有没有其他方法呢？

答案肯定是有的，既然知道这个字符串是utf-8编码的，那么我换种方式，只要将字符串中的 " \x " 改为 " % " 利用urllib中的unquote方法解码就可以得到中文了，因为url中的中文utf-8编码和这里的区别就是url中编码是%开头。

那么其实只要对utf-8字符串反向转换就行，先将字符串编码指定为unicode_escape

s = '\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c's = s.encode('unicode_escape')12

得到bytes类型数据（单斜杠变成双斜杠）

b'\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd\\xe4\\xb8\\x96\\xe7\\x95\\x8c'1

接着再对bytes类型进行utf-8解码，得到字符串，将字符串中的 " \x " 替换为 " % "

ss = s.decode('utf-8').replace('\\x', '%')1

替换作用就是将字符串改为url的utf-8编码格式

%e4%bd%a0%e5%a5%bd%e4%b8%96%e7%95%8c1

最后利用urllib中的unquote方法将url编码解码，得到中文

un = parse.unquote(ss)1

推荐本站淘宝优惠价购买喜欢的宝贝:

本文链接：https://hqyman.cn/post/4919.html 非本站原创文章欢迎转载，原创文章需保留本站地址！

分享到：

休息一下~~

作者:hqy | 分类:技术文章 | 浏览:1928 | 评论:0

本站推荐小工具: MSDN ISO 磁力地址版本1

MSDN ISO 磁力地址版本2

Windows系统下载仓储站

微软原版软件官方镜像下载列表

Windows kms激活

Office kms激活

VMware ESXi8.0 补丁免费下载

Vmpatch镜像站

领淘宝优惠券

在线小工具

BING精品壁纸图片

360精品4K壁纸图片，每日词霸

Today今日热点

Unlock Music 音乐解锁 (React)

在线查IP |WhatIsMyIPAddress

在线下载测速

百家姓暗号

在线fc小游戏

圈住猫的游戏

2048的游戏

找色差小游戏

今天吃什么呢

毒鸡汤网页

每日笑话精选

在线查QQ价值

html在线编辑预览器

在线it-tools工具箱

在线it-tools工具箱(备站)

微软密钥在线检测

在线WinXP虚拟机

whois在线查询

开发者资源的宝库

Linux工具箱一键脚本

Linux工具箱

城通网盘

宝塔服务器面板

阿里云特价VPS服务器

腾讯云特价VPS服务器

华为云特价VPS服务器

京东云特价VPS服务器

cloudcone特价VPS服务器

racknerd特价VPS服务器

恒创VPS特价服务器

简云免费虚拟云主机

PrivacyPolicy

网站分类

最新留言

文章归档

网站收藏

友情链接

孙悟空