php字符串的高低位怎么区分 • Worktile社区

worktile

Worktile官方账号

在PHP中，字符串的高低位是指字符串中每个字符的编码方式。在默认情况下，PHP使用的是UTF-8编码，其中一个字符可以由多个字节组成。UTF-8编码的特点是：对于英文字符，使用一个字节表示；对于中文字符，使用三个字节表示。

在UTF-8编码中，一个字符的最高位（即第一个字节的最高位）用来标识该字符由多少个字节组成，UTF-8使用以下规则：

– 如果最高位为0，表示该字符只占用一个字节，是ASCII字符（即英文字符）；
– 如果最高位为1，表示该字符由多个字节组成，且连续的1的个数越多，表示该字符使用的字节数越多。

以下是几个例子来说明如何区分字符串的高低位：

1. 英文字符（ASCII字符）：
在UTF-8编码下，英文字符只占用一个字节，该字节的最高位为0。例如，字符’A’的UTF-8编码为0x41，即01000001。

2. 中文字符：
在UTF-8编码下，中文字符占用三个字节，第一个字节的最高位为1，后面两个字节的最高位均为10。例如，字符’中’的UTF-8编码为0xE4B8AD，即111001001011100010110100。

根据上述规则，我们可以根据字符串的字节表示来判断其高低位。如果字符串中的字节的最高位为0，则表示是英文字符；如果字符串中的字节的最高位为1，并且连续的1的个数为2或3，则表示是中文字符。需要注意的是，这里所说的高低位是相对于UTF-8编码而言的，其他编码方式可能不同。

综上所述，PHP中字符串的高低位可以通过判断字符串的字节编码来区分，通过观察字节的最高位的值和连续1的个数来确定字符占用的字节数。

2年前 0条评论

不及物动词

这个人很懒，什么都没有留下～

在PHP中，字符串的高低位是指字符串的字节顺序。在计算机中，数据存储是以字节为单位进行的，一个字节包含8个二进制位（位）。对于多字节字符，如Unicode字符，它们的字节顺序可以是高位在前（Big-Endian）或低位在前（Little-Endian）。

要区分字符串的高低位，可以使用以下方法：

1. 使用mb_strlen函数：mb_strlen函数是PHP的一个内置函数，用于获取字符串的长度。当指定编码为UTF-16时，mb_strlen会根据字符的实际长度来计算字符串的长度。如果字符串的字节顺序是Big-Endian，则可以通过比较mb_strlen(“A”)和mb_strlen(“B”)的结果来判断。如果结果是一样的，则字符串是Big-Endian；如果结果相差为1，则字符串是Little-Endian。

2. 使用ord函数：ord函数返回指定字符的ASCII值。可以将字符串的每个字符与ASCII中的特殊字符进行比较。如果该字符的ASCII值是奇数，则字符串是Little-Endian；如果是偶数，则字符串是Big-Endian。

3. 使用mb_detect_encoding函数：mb_detect_encoding函数可以检测字符串的编码。可以将字符串的二进制数据转化为ASCII编码，然后使用mb_detect_encoding函数进行检测。如果检测结果是UTF-16BE，则字符串是Big-Endian；如果是UTF-16LE，则字符串是Little-Endian。

4. 使用pack和unpack函数：pack函数可以将指定的数据按照指定的格式打包成一个字符串。可以使用pack函数将一个整数打包成二进制数据，然后使用unpack函数解包。如果打包和解包得到的结果是一样的，则字符串是Big-Endian；如果结果不一样，则字符串是Little-Endian。

5. 使用正则表达式：使用正则表达式匹配字符串中的特定字节顺序标识。可以使用正则表达式来搜索字符串中的特定字节顺序标识，例如”\xFE\xFF”表示Big-Endian，”\xFF\xFE”表示Little-Endian。

需要注意的是，PHP中的字符串类型是以字节为单位的，而不是以字符为单位的。因此，在判断高低位时，需要将字符串转化为二进制形式进行处理。

2年前 0条评论

fiy

Worktile&PingCode市场小伙伴

在PHP中，字符串的高低位实际上与其编码方式有关。在传统的编码方式中，比如ASCII编码中，每个字符由一个字节表示，因此没有高低位之分。而在现代的编码方式中，比如UTF-16编码中，字符由两个字节表示，因此存在高低位的区分。

下面将从两个方面来讲解PHP中字符串的高低位区分：UTF-16编码和UTF-8编码。

1. UTF-16编码：
UTF-16编码使用16位来表示一个字符，有时候使用一个16位的编码单元就可以表示一个字符，这种情况下不存在高低位之分。但是对于一些特殊字符（如Emoji表情），一个字符需要使用两个16位的编码单元表示。这时，一个编码单元称为高位（High Surrogate），另一个称为低位（Low Surrogate）。

在PHP中，可以通过以下步骤将一个UTF-16编码的字符串转换为字符数组：
1）使用mb_convert_encoding或iconv函数将字符串从UTF-16编码转换为UTF-8编码。
2）使用mb_strlen函数获取UTF-8编码的字符串的长度。
3）使用mb_substr函数以及循环结构获取每个字符的UTF-8编码表示。

2. UTF-8编码：
UTF-8编码是一种变长的编码方式，一个字符的编码长度可以是1到4个字节。由于UTF-8的编码方式较为复杂，字符的高低位并不直接表示字符本身，而是表示字符的字节位置。

在PHP中，可以通过以下步骤将一个UTF-8编码的字符串转换为字符数组：
1）使用mb_strlen函数获取UTF-8编码的字符串的长度。
2）使用mb_substr函数以及循环结构获取每个字符的UTF-8编码表示。

总结：
在传统的编码方式中，没有高低位之分，每个字符由一个字节表示。在现代的编码方式中，高低位的区分与编码方式有关。UTF-16编码中，一个字符由两个16位的编码单元表示，其中一个为高位，另一个为低位。UTF-8编码中，一个字符的编码长度可以是1到4个字节，高低位表示字节位置而非字符本身。在PHP中，可以通过使用相关的函数将UTF-16和UTF-8编码的字符串转换为字符数组，以便进行后续操作。

2年前 0条评论