从什么到什么的四字词语还有什么(1 分钟带你认识从 “” 到 “锟斤拷”)

作者 | 石头哥 责编 | 八宝粥

来源 | 程序猿石头(id: tangleithu)

以一首五言绝句作为开篇,你知道背后说的是什么吗?

手持两把锟斤拷

口中疾呼烫烫烫

脚踏千朵屯屯屯

笑看万物锘锘锘

为何物?

在前不久石头哥的这篇文章中 —— 你可能也会掉进这个简单的 String 的坑,讲述了因字符编码问题而连续踩坑的经历,文中有一个神奇的字符 “”。

其实,这个 “” 真是无处不在,比如大名鼎鼎的微信:

微信中的

再比如,封面图中,单价22元的“锟斤拷锟斤拷”,再随便百度一把:

随处可见的

要弄清这个问题,还得先从编码谈起。

因为在计算机的眼里,都是二进制,具体用哪些二进制数字表示哪个符号,这就是编码。不要把编码【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.想象得太复杂,其实就是一个很简单的 mapping。

比如大家所熟知的 ASCII 编码,规定了 二进制的0100 0001,也就是十进制的65,代表的含义就是大写字母 A。

ASCII 编码

也是一种编码字符,就跟上面的 A 一样一样的,它是 UNICODE 编码方式中的一个特殊的字符,也就是 0xFFFD(65533),语义是一个占位符,用来表达这套编码系统中未知的,自己不认识的东西。

比如上篇文章中的实验截图的,红色部分圈出来的对应的字符,UTF-8 编码都不认识,所以按照 UNICODE 的定义,我就只好用统一的一个占位符 —— 0xFFFD(65533) 来表示。

为什么会出现“锟斤拷”?

我们【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.接着上篇的例子来看, 如下图所示,仍然从 “程序猿石头” 对应二进制编码截取部分:

如上图所示,第 18 行的字节数组

new byte {-25, -119, -25, -116},UTF-8

恰好都不认识,因此只能用占位符替换。

这种情况,在编码转换过程中确实也比较常见,如果双方没沟通清楚,确实很容易出现互相不认识的情况。

在中文系统中,常见的字符编码是 GBK,这个时候,因为大家没提前商量清楚,我就默认按照 GBK 给你编码看看。

“锟斤拷”在此

惊不惊喜意不意外……

其实是因为, 用 UTF-8 编码后变成了 0xEFBFBD(就是上面的字节数组 [-17, -65, -67]),两个连起来就是 0x【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.EFBFBDEFBFBD,也就是上面的字节数组[-17, -65, -67, -17, -65, -67]

而 GBK 编码依然采用双字节编码方案,因此上面的 6 字节 0xEFBFBDEFBFBD,就被拆成了 3 个 2 字节字符即 0xEFBF, 0xBDEF, 0xBFBD 对应 GBK 编码里面就是:锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)。

锟斤拷(可向右滑动)

现在,你知道了吗?

留个作业题:开篇的五言绝句,你知道另外的梗是来自哪里吗?欢迎留言讨论。

推荐阅读

给力项目线报网会员可免费下载 加入会员
友情提醒: 请尽量登录购买,防止付款了不发货!
QQ交流群:226333560 站长微信:qgzmt2
温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。用户必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!

给TA打赏
共{{data.count}}人
人已打赏
行业资讯

仓鼠能不能单养(辟谣:只养一只仓鼠它会感到孤独吗?不会,独居动物不需要小伙伴)

2024-9-14 8:38:27

行业资讯

要什么样的呢?(到底要是什么样子,才能被称为“萝莉”?)

2024-9-14 8:58:44

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索