有没有真正判断文本是否为utf8文本的方式呢？

anyuezhiji · 发表于 2024-7-9 20:00:59

调试输出 (是否UTF8编码 (“我”))
调试输出 (是否UTF8编码 (“路边”))
调试输出 (是否UTF8编码 (“5646”, 真))
调试输出 (是否UTF8编码 (“5646”))
调试输出 (是否UTF8编码 (编码_gb2312到utf8 (“路边”)))

子程序名	返回值类型	公开	备注
是否UTF8编码	逻辑型		判断字符是不是UTF-8类型
参数名	类型	参考	可空	数组	备注
字符串	文本型
全Ascii不当成Utf8	逻辑型

变量名	类型	静态	数组	备注
计次
字节数
字符
全是Ascii	逻辑型
长度
待判断	字节集

待判断＝到字节集 (字符串)
长度＝取字节集长度 (待判断)
字节数＝ 0

如果 (全Ascii不当成Utf8)

全是Ascii ＝真

全是Ascii ＝假

判断循环首 (计次＜长度)
计次＝计次＋ 1
字符＝待判断 [计次]

如果真 (字符 ≤ 57 且字符 ≥ 48) ' 0-9

到循环尾 ()

如果真 (字符 ≤ 122 且字符 ≥ 97) ' a-z

到循环尾 ()

如果真 (字符 ≤ 90 且字符 ≥ 65) ' A-Z

到循环尾 ()

如果真 (位与 (字符, 128) ≠ 0)

全是Ascii ＝假

如果 (字节数＝ 0) ' //如果不是ASCII码,应该是多字节符,计算字节数

如果 (字符 ≥ 128)

判断 (字符 ≥ 252 且字符 ≤ 253)

字节数＝ 6

判断 (字符 ≥ 248)

字节数＝ 5

判断 (字符 ≥ 240)

字节数＝ 4

判断 (字符 ≥ 224)

字节数＝ 3

判断 (字符 ≥ 192)

字节数＝ 2

返回 (假)

' 调试输出 (字节数)

字节数＝字节数－ 1

如果真 (位与 (字符, 192) ≠ 128)

返回 (假)
字节数＝字节数－ 1

' //多字节符的非首字节,应为 10xxxxxx

如果真 (位与 (字符, 192) ≠ 128)

返回 (假)

字节数＝字节数－ 1

判断循环尾 ()

如果真 (字节数＞ 0) ' //违返规则

返回 (假)

如果真 (全是Ascii) ' //如果全部都是ASCII, 说明不是UTF-8

返回 (假)
返回 (真)

i支持库列表	支持库注释
spec	特殊功能支持库

.版本 2<br />
.支持库 spec<br />
<br />
<br />
调试输出 (是否UTF8编码 (“我”))<br />
调试输出 (是否UTF8编码 (“路边”))<br />
调试输出 (是否UTF8编码 (“5646”, 真))<br />
<br />
调试输出 (是否UTF8编码 (“5646”))<br />
调试输出 (是否UTF8编码 (编码_gb2312到utf8 (“路边”)))<br />
<br />
<br />
.子程序 是否UTF8编码, 逻辑型, 公开, 判断字符是不是UTF-8类型<br />
.参数 字符串, 文本型<br />
.参数 全Ascii不当成Utf8, 逻辑型, 可空<br />
.局部变量 计次<br />
.局部变量 字节数<br />
.局部变量 字符<br />
.局部变量 全是Ascii, 逻辑型<br />
.局部变量 长度<br />
.局部变量 待判断, 字节集<br />
<br />
待判断 ＝ 到字节集 (字符串)<br />
长度 ＝ 取字节集长度 (待判断)<br />
字节数 ＝ 0<br />
.如果 (全Ascii不当成Utf8)<br />
    全是Ascii ＝ 真<br />
.否则<br />
    全是Ascii ＝ 假<br />
.如果结束<br />
.判断循环首 (计次 ＜ 长度)<br />
    计次 ＝ 计次 ＋ 1<br />
    字符 ＝ 待判断 [计次]<br />
    .如果真 (字符 ≤ 57 且 字符 ≥ 48)  ' 0-9<br />
        到循环尾 ()<br />
    .如果真结束<br />
    .如果真 (字符 ≤ 122 且 字符 ≥ 97)  ' a-z<br />
        到循环尾 ()<br />
    .如果真结束<br />
    .如果真 (字符 ≤ 90 且 字符 ≥ 65)  ' A-Z<br />
        到循环尾 ()<br />
    .如果真结束<br />
    .如果真 (位与 (字符, 128) ≠ 0)<br />
        全是Ascii ＝ 假<br />
    .如果真结束<br />
    .如果 (字节数 ＝ 0)  ' //如果不是ASCII码,应该是多字节符,计算字节数<br />
        .如果 (字符 ≥ 128)<br />
            .判断开始 (字符 ≥ 252 且 字符 ≤ 253)<br />
                字节数 ＝ 6<br />
            .判断 (字符 ≥ 248)<br />
                字节数 ＝ 5<br />
            .判断 (字符 ≥ 240)<br />
                字节数 ＝ 4<br />
            .判断 (字符 ≥ 224)<br />
                字节数 ＝ 3<br />
            .判断 (字符 ≥ 192)<br />
                字节数 ＝ 2<br />
<br />
            .默认<br />
<br />
                返回 (假)<br />
            .判断结束<br />
            ' 调试输出 (字节数)<br />
            字节数 ＝ 字节数 － 1<br />
        .否则<br />
            .如果真 (位与 (字符, 192) ≠ 128)<br />
<br />
                返回 (假)<br />
            .如果真结束<br />
            字节数 ＝ 字节数 － 1<br />
        .如果结束<br />
<br />
    .否则<br />
        ' //多字节符的非首字节,应为 10xxxxxx<br />
        .如果真 (位与 (字符, 192) ≠ 128)<br />
            返回 (假)<br />
        .如果真结束<br />
<br />
        字节数 ＝ 字节数 － 1<br />
<br />
    .如果结束<br />
<br />
.判断循环尾 ()<br />
.如果真 (字节数 ＞ 0)  ' //违返规则<br />
    返回 (假)<br />
.如果真结束<br />
.如果真 (全是Ascii)  ' //如果全部都是ASCII, 说明不是UTF-8<br />
    返回 (假)<br />
.如果真结束<br />
返回 (真)

补充内容 (2024-7-9 20:03):
调试输出 (是否UTF8编码 (到文本 (编码_Ansi到Unicode (“路边”))))

补充内容 (2024-7-9 20:05):
如果有判断失误的例子请回复下

7ian · 发表于 2024-7-9 21:00:42

判断一个字节序列是否为UTF-8格式，需要理解UTF-8编码的规则。UTF-8是一种可变长度的编码方式，它使用1到4个字节来表示一个Unicode字符。根据UTF-8的编码规则，一个字节序列是有效的UTF-8格式，当且仅当它满足以下条件：

单字节的字符必须具有0xxxxxxx的模式（即最高位为0）。
多字节的字符序列的第一个字节以1开头，后续字节以10开头。
具体来说，对于多字节字符：
- 两个字节序列的第一个字节以110xxxxx开头，第二个字节以10xxxxxx开头。
- 三个字节序列的第一个字节以1110xxxx开头，第二个和第三个字节以10xxxxxx开头。
- 四个字节序列的第一个字节以11110xxx开头，第二个、第三个和第四个字节以10xxxxxx开头。

用汇编写了个，测试了下还不错，别人的测试不通过的情况是：前面是UTF8 后面不是的情况也是返回真

子程序名	返回值类型	公开	备注
字节集_是否为UFT8	逻辑型		by.7ian.541980200
参数名	类型	参考	可空	数组	备注
数据	字节集
长度	整数型

置入代码 ({ 199, 69, 248, 0, 0, 0, 0, 199, 69, 236, 0, 0, 0, 0, 235, 9, 139, 69, 236, 131, 192, 1, 137, 69, 236, 139, 69, 236, 59, 69, 12, 15, 131, 180, 0, 0, 0, 139, 69, 8, 139, 0, 131, 192, 8, 3, 69, 236, 138, 8, 136, 77, 227, 131, 125, 248, 0, 117, 113, 15, 182, 69, 227, 131, 248, 127, 127, 2, 235, 202, 15, 182, 69, 227, 61, 194, 0, 0, 0, 124, 20, 15, 182, 69, 227, 61, 223, 0, 0, 0, 127, 9, 199, 69, 248, 1, 0, 0, 0, 235, 171, 15, 182, 69, 227, 61, 224, 0, 0, 0, 124, 20, 15, 182, 69, 227, 61, 239, 0, 0, 0, 127, 9, 199, 69, 248, 2, 0, 0, 0, 235, 140, 15, 182, 69, 227, 61, 245, 0, 0, 0, 124, 23, 15, 182, 69, 227, 61, 244, 0, 0, 0, 127, 12, 199, 69, 248, 3, 0, 0, 0, 233, 106, 255, 255, 255, 48, 192, 235, 81, 235, 40, 15, 182, 69, 227, 61, 128, 0, 0, 0, 124, 25, 15, 182, 69, 227, 61, 191, 0, 0, 0, 127, 14, 139, 69, 248, 131, 232, 1, 137, 69, 248, 233, 64, 255, 255, 255, 48, 192, 235, 39, 233, 55, 255, 255, 255, 131, 125, 248, 0, 117, 12, 199, 133, 24, 255, 255, 255, 1, 0, 0, 0, 235, 10, 199, 133, 24, 255, 255, 255, 0, 0, 0, 0, 138, 133, 24, 255, 255, 255, 201, 194, 8, 0 })
返回 (假)

补充内容 (2024-7-9 21:11):
你给的那几个Unicode只有“我”是符合utf8的，所以这种情况很难判断，比如“你我她飞”都是

police0909 · 发表于 2024-7-10 22:23:42

anyuezhiji 发表于 2024-7-9 20:00
[e=0].版本 2
.支持库 spec

.版本 2
.支持库 spec

数据＝编码_Ansi到Utf8_yc (字符 (#Tab键), )
启动＝取启动时间 ()

.计次循环首 (10, )
结果3 ＝是否UTF8编码 (数据, )

.计次循环尾 ()
调试输出 (取启动时间 () －启动, 结果3)
这个判断会失败

police0909 · 发表于 2024-7-10 22:31:26

anyuezhiji 发表于 2024-7-9 20:00
[e=0].版本 2
.支持库 spec

好像包含有单字符的符号，就会判断错误。

比如“士大夫.”

		自动登录	找回密码
密码			注册

[已解决] 有没有真正判断文本是否为utf8文本的方式呢？

浏览过的版块

精易论坛 - 有你更精彩 /1