本文件效率较低,于是考虑把文本文件转换为二进制文件,然后用折半法查找这个文件,而不需要把整个文件读入内存。文件格式为:文件头2字节,存储记录数;接着一条接一条记录存入文件,每条记录4字节,前2字节对应GB代码,后2字节对应Unicode代码。转换程序如下:
<?php $arrLines = file("gb_unicode.txt"); foreach ($arrLines as $strLine) { $arrCodeTable[hexdec(substr($strLine, 0, 6))] = hexdec(substr($strLine, 7, 6)); } ksort($arrCodeTable); $intCount = count($arrCodeTable); $strCount = chr($intCount % 256) . chr(floor($intCount / 256)); $fileGBU = fopen("gbu.dat", "wb"); fwrite($fileGBU, $strCount); foreach ($arrCodeTable as $k => $v) { $strData = chr($k % 256) . chr(floor($k / 256)) . chr($v % 256) . chr(floor($v / 256)); fwrite($fileGBU, $strData); } fclose($fileGBU); ?> 执行程序后就获得了二进制的GB->Unicode对照表gbu.dat,并且数据记录按GB代码排了序,便于折半法查找。使用gbu.dat进行转码的函数如下:
function GB2UTF8_FILE1($strGB) { if (!trim($strGB)) return $strGB; $fileGBU = fopen("gbu.dat", "rb"); $strBuf = fread($fileGBU, 2); $intCount = ord($strBuf{0}) + 256 * ord($strBuf{1}); $strRet = ""; $intLen = strlen($strGB); for ($i = 0; $i < $intLen; $i++) { if (ord($strGB{$i}) > 127) { $strCurr = substr($strGB, $i, 2); $intGB = hexdec(bin2hex($strCurr)) - 0x8080; $intStart = 1; $intEnd = $intCount; while ($intStart < $intEnd - 1) { // 折半法查找 $intMid = floor(($intStart + $intEnd) / 2); $intOffset = 2 + 4 * ($intMid - 1); fseek($fileGBU, $intOffset); $strBuf = fread($fileGBU, 2); $intCode = ord($strBuf{0}) + 256 * ord($strBuf{1}); if ($intGB == $intCode) { $intStart = $intMid; break; } if ($intGB > $intCode) $intStart = $intMid; else $intEnd = $intMid; } $intOffset = 2 + 4 * ($intStart - 1); fseek($fileGBU, $intOffset); $strBuf = fread($fileGBU, 2); $intCode = ord($strBuf{0}) + 256 * ord($strBuf{1}); if ($intGB == $intCode |