为了解决GBK中文分词
1美元。结果=爆炸(|
这样的问题很多:因为GBK编码的编码范围为0×8140-0xfefe,所以理论上,任何低字节是7c的话会有这样的问题,例如:
1。(827c)、赖(837c亿),Chao(b17c)、卡伊(e57c)......对于这种情况,
1。首先,你可以使用转换为UTF8,然后爆炸,然后转回来,这是一个比较麻烦的方法。
2。第二,我们可以使用常规的匹配,而不是分开。
(3.preg_match_all /({ / / xFe } { X81后部接口 / / xFe X40 }),gbk_str美元,$匹配+ / / / );写死这个数组$matches编码,0号是相应的索引数组结果。