菜鸟笔记
提升您的技术认知

utf-ag真人游戏

最近发现数据库中的一个字段值数据异常的问题,业务场景中不允许这个字符串字段中出现空格,但是发现有部分数据依然有'空格',反复验证过之后发现自己写的代码的的确确会把空格trim掉,反复调试后发现代码没有问题,但是什么情况使得这些数据逃过了业务代码的校验?

难道我肉眼看到的'空格',不是我们平常见到或者理解的'空格'?

带着这个疑问,我搜索了一下相关的问题,发现果不其然,很多人都遇到了c2 a0这个不可见字符,那么这个字符到底是什么呢?

打开utf-8的编码表,https://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=dec 找到对应的字符

首先明确c2 a0代表的编码序号是多少,很显然我们只需要将这个十六进制转为十进制,即c2=194 a0=160,这个在编码表中对应的是

u 00a0   194 160 no-break space

而我们一般意义上将的空格的编码是32

u 0020   32 space

那们我们通过代码来模拟一下上面两个字符

普通的空格 unicode code point为u 0020即32

c2 a0空格 unicode code point为u 00a0即160

找到原因之后,我们想办法把这种c2 a0空格给去除掉

源代码见下 

package com.lingyejun.dating.chap11;
import java.nio.charset.standardcharsets;
import java.util.regex.matcher;
import java.util.regex.pattern;
public class specialspace {
    public static void main(string[] args) {
        string str1 = "lingyejun ";
        byte[] str1bytes = str1.getbytes();
        string space = new string(str1bytes, standardcharsets.utf_8);
        system.out.println("带有32 space的字符串:"   space);
        system.out.println("使用trim去掉32 -> space:"   space.trim());
        byte[] str2bytes = new byte[11];
        system.arraycopy(str1bytes, 0, str2bytes, 0, str1bytes.length);
        str2bytes[9] = (byte) 0xc2;
        str2bytes[10] = (byte) 0xa0;
        string nobreakspace = new string(str2bytes, standardcharsets.utf_8);
        system.out.println("带有c2 a0 -> no-break space的字符串:"   nobreakspace);
        system.out.println("使用trim无法去掉c2 a0 -> no-break space:"   nobreakspace.trim());
        // 32为我们平常谈论的space空格 -> space
        byte[] bytes1 = new byte[]{(byte) 0x20};
        string space1 = new string(bytes1, standardcharsets.utf_8);
        system.out.println("utf-8 字符编码号32 -> 0x1f 输出:"   space1);
        // 0xc2=194 0xa0=160  -> no-break space
        byte[] bytes2 = new byte[]{(byte) 0xc2, (byte) 0xa0};
        string space2 = new string(bytes2, standardcharsets.utf_8);
        char[] chars3 = space2.tochararray();
        system.out.println("utf-8 字符编码号194 -> 0xc2 160 -> 0xa0 输出:"   space2);
        byte[] bytes3 = new byte[]{(byte) 0xc2, (byte) 0xa0};
        string c2a0space = new string(bytes3, standardcharsets.utf_8);
        pattern p = pattern.compile(c2a0space);
        matcher m = null;
        m = p.matcher(nobreakspace);
        nobreakspace = m.replaceall("");
        system.out.println("使用正则去掉c2 a0 -> no-break space:"   nobreakspace);
    }
}
网站地图