substr截取中文字符出現(xiàn)亂碼的解決方案
作者:佚名 時間:2012-04-11 分享到:
這里提供一個函數(shù)可較好地解決substr遇到中文字符的問題。中文字符按2個長度單位來計算,使得中英文混用環(huán)境下字符串截取結(jié)果最后的顯示長度接近;舍棄最后一個不完整字符,保證不會出現(xiàn)顯示上的亂碼;且兼容了中文字符常用的utf-8編碼和GB2312編碼,有很好的通用性。
function getstr($string, $length, $encoding = 'utf-8') {
$string = trim($string);
if($length && strlen($string) > $length) {
//截斷字符
$wordscut = '';
if(strtolower($encoding) == 'utf-8') {
//utf8編碼
$n = 0;
$tn = 0;
$noc = 0;
while ($n < strlen($string)) {
$t = ord($string[$n]);
if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
$tn = 1;
$n++;
$noc++;
} elseif(194 <= $t && $t <= 223) {
$tn = 2;
$n += 2;
$noc += 2;
} elseif(224 <= $t && $t < 239) {
$tn = 3;
$n += 3;
$noc += 2;
} elseif(240 <= $t && $t <= 247) {
$tn = 4;
$n += 4;
$noc += 2;
} elseif(248 <= $t && $t <= 251) {
$tn = 5;
$n += 5;
$noc += 2;
} elseif($t == 252 || $t == 253) {
$tn = 6;
$n += 6;
$noc += 2;
} else {
$n++;
}
if ($noc >= $length) {
break;
}
}
if ($noc > $length) {
$n -= $tn;
}
$wordscut = substr($string, 0, $n);
} else {
for($i = 0; $i < $length - 1; $i++) {
if(ord($string[$i]) > 127) {
$wordscut .= $string[$i].$string[$i + 1];
$i++;
} else {
$wordscut .= $string[$i];
}
}
}
$string = $wordscut;
}
return trim($string);
}
// 示例
echo getstr("0一二三四五六七",1).'
'; // 0
echo getstr("0一二三四五六七",2).'
'; // 0
echo getstr("0一二三四五六七",3).'
'; // 0一
echo getstr("0一二三四五六七",4).'
'; // 0一
echo getstr("0一二三四五六七",5).'
'; // 0一二
echo getstr("0一a二b三四五六七",1).'
'; // 0
echo getstr("0一a二b三四五六七",2).'
'; // 0
echo getstr("0一a二b三四五六七",3).'
'; // 0一
echo getstr("0一a二b三四五六七",4).'
'; // 0一a
echo getstr("0一a二b三四五六七",5).'
'; // 0一a