編碼表,雙字節字符編碼范圍:
1. gbk (gb2312/gb18030)
x00-xff gbk雙字節編碼范圍
xa1-xff 中文 gb2312
x80-xff 中文 gbk
2. utf-8 (unicode)
u4e00-u9fa5 (中文)
x3130-x318f (韓文
xac00-xd7a3 (韓文)
u0800-u4e00 (日文)
中文判斷問題,其實有很多學問,底層的內部編碼,涉及utf-8,gbk,gb13800的各種不同。曾經研究過如何區分一個字符是什么字符的問題,關聯細節太多。