Source for file core.php

Documentation is available at core.php

  1. <?php
  2. /**
  3. @version $Id: core.php,v 1.1 2007/09/09 20:39:50 pitlinz Exp $
  4. @package utf8
  5. @subpackage strings
  6. */
  7.  
  8. /**
  9. * Define UTF8_CORE as required
  10. */
  11. if !defined('UTF8_CORE') ) {
  12.     define('UTF8_CORE',TRUE);
  13. }
  14.  
  15. //--------------------------------------------------------------------
  16. /**
  17. * Unicode aware replacement for strlen(). Returns the number
  18. * of characters in the string (not the number of bytes), replacing
  19. * multibyte characters with a single byte equivalent
  20. * utf8_decode() converts characters that are not in ISO-8859-1
  21. * to '?', which, for the purpose of counting, is alright - It's
  22. * much faster than iconv_strlen
  23. * Note: this function does not count bad UTF-8 bytes in the string
  24. * - these are simply ignored
  25. @author <chernyshevsky at hotmail dot com>
  26. @link   http://www.php.net/manual/en/function.strlen.php
  27. @link   http://www.php.net/manual/en/function.utf8-decode.php
  28. @param string UTF-8 string
  29. @return int number of UTF-8 characters in string
  30. @package utf8
  31. @subpackage strings
  32. */
  33. function utf8_strlen($str){
  34.     return strlen(utf8_decode($str));
  35. }
  36.  
  37.  
  38. //--------------------------------------------------------------------
  39. /**
  40. * UTF-8 aware alternative to strpos
  41. * Find position of first occurrence of a string
  42. * Note: This will get alot slower if offset is used
  43. * Note: requires utf8_strlen amd utf8_substr to be loaded
  44. @param string haystack
  45. @param string needle (you should validate this with utf8_is_valid)
  46. @param integer offset in characters (from left)
  47. @return mixed integer position or FALSE on failure
  48. @see http://www.php.net/strpos
  49. @see utf8_strlen
  50. @see utf8_substr
  51. @package utf8
  52. @subpackage strings
  53. */
  54. function utf8_strpos($str$needle$offset NULL{
  55.     
  56.     if is_null($offset) ) {
  57.     
  58.         $ar explode($needle$str2);
  59.         if count($ar{
  60.             return utf8_strlen($ar[0]);
  61.         }
  62.         return FALSE;
  63.         
  64.     else {
  65.         
  66.         if !is_int($offset) ) {
  67.             trigger_error('utf8_strpos: Offset must be an integer',E_USER_ERROR);
  68.             return FALSE;
  69.         }
  70.         
  71.         $str utf8_substr($str$offset);
  72.         
  73.         if FALSE !== $pos utf8_strpos($str$needle) ) ) {
  74.             return $pos $offset;
  75.         }
  76.         
  77.         return FALSE;
  78.     }
  79.     
  80. }
  81.  
  82. //--------------------------------------------------------------------
  83. /**
  84. * UTF-8 aware alternative to strrpos
  85. * Find position of last occurrence of a char in a string
  86. * Note: This will get alot slower if offset is used
  87. * Note: requires utf8_substr and utf8_strlen to be loaded
  88. @param string haystack
  89. @param string needle (you should validate this with utf8_is_valid)
  90. @param integer (optional) offset (from left)
  91. @return mixed integer position or FALSE on failure
  92. @see http://www.php.net/strrpos
  93. @see utf8_substr
  94. @see utf8_strlen
  95. @package utf8
  96. @subpackage strings
  97. */
  98. function utf8_strrpos($str$needle$offset NULL{
  99.     
  100.     if is_null($offset) ) {
  101.     
  102.         $ar explode($needle$str);
  103.         
  104.         if count($ar{
  105.             // Pop off the end of the string where the last match was made
  106.             array_pop($ar);
  107.             $str join($needle,$ar);
  108.             return utf8_strlen($str);
  109.         }
  110.         return FALSE;
  111.         
  112.     else {
  113.         
  114.         if !is_int($offset) ) {
  115.             trigger_error('utf8_strrpos expects parameter 3 to be long',E_USER_WARNING);
  116.             return FALSE;
  117.         }
  118.         
  119.         $str utf8_substr($str$offset);
  120.         
  121.         if FALSE !== $pos utf8_strrpos($str$needle) ) ) {
  122.             return $pos $offset;
  123.         }
  124.         
  125.         return FALSE;
  126.     }
  127.     
  128. }
  129.  
  130. //--------------------------------------------------------------------
  131. /**
  132. * UTF-8 aware alternative to substr
  133. * Return part of a string given character offset (and optionally length)
  134. *
  135. * Note arguments: comparied to substr - if offset or length are
  136. * not integers, this version will not complain but rather massages them
  137. * into an integer.
  138. *
  139. * Note on returned values: substr documentation states false can be
  140. * returned in some cases (e.g. offset > string length)
  141. * mb_substr never returns false, it will return an empty string instead.
  142. * This adopts the mb_substr approach
  143. *
  144. * Note on implementation: PCRE only supports repetitions of less than
  145. * 65536, in order to accept up to MAXINT values for offset and length,
  146. * we'll repeat a group of 65535 characters when needed.
  147. *
  148. * Note on implementation: calculating the number of characters in the
  149. * string is a relatively expensive operation, so we only carry it out when
  150. * necessary. It isn't necessary for +ve offsets and no specified length
  151. *
  152. @author Chris Smith<chris@jalakai.co.uk>
  153. @param string 
  154. @param integer number of UTF-8 characters offset (from left)
  155. @param integer (optional) length in UTF-8 characters from offset
  156. @return mixed string or FALSE if failure
  157. @package utf8
  158. @subpackage strings
  159. */
  160. function utf8_substr($str$offset$length NULL{
  161.     
  162.     // generates E_NOTICE
  163.     // for PHP4 objects, but not PHP5 objects
  164.     $str = (string)$str;
  165.     $offset = (int)$offset;
  166.     if (!is_null($length)) $length = (int)$length;
  167.     
  168.     // handle trivial cases
  169.     if ($length === 0return '';
  170.     if ($offset && $length && $length $offset)
  171.         return '';
  172.     
  173.     // normalise negative offsets (we could use a tail
  174.     // anchored pattern, but they are horribly slow!)
  175.     if ($offset 0{
  176.         
  177.         // see notes
  178.         $strlen strlen(utf8_decode($str));
  179.         $offset $strlen $offset;
  180.         if ($offset 0$offset 0;
  181.         
  182.     }
  183.     
  184.     $Op '';
  185.     $Lp '';
  186.     
  187.     // establish a pattern for offset, a
  188.     // non-captured group equal in length to offset
  189.     if ($offset 0{
  190.         
  191.         $Ox = (int)($offset/65535);
  192.         $Oy $offset%65535;
  193.         
  194.         if ($Ox{
  195.             $Op '(?:.{65535}){'.$Ox.'}';
  196.         }
  197.         
  198.         $Op '^(?:'.$Op.'.{'.$Oy.'})';
  199.         
  200.     else {
  201.         
  202.         // offset == 0; just anchor the pattern
  203.         $Op '^';
  204.         
  205.     }
  206.     
  207.     // establish a pattern for length
  208.     if (is_null($length)) {
  209.         
  210.         // the rest of the string
  211.         $Lp '(.*)$';
  212.         
  213.     else {
  214.         
  215.         if (!isset($strlen)) {
  216.             // see notes
  217.             $strlen strlen(utf8_decode($str));
  218.         }
  219.         
  220.         // another trivial case
  221.         if ($offset $strlenreturn '';
  222.         
  223.         if ($length 0{
  224.             
  225.             // reduce any length that would
  226.             // go passed the end of the string
  227.             $length min($strlen-$offset$length);
  228.             
  229.             $Lx = (int)$length 65535 );
  230.             $Ly $length 65535;
  231.             
  232.             // negative length requires a captured group
  233.             // of length characters
  234.             if ($Lx$Lp '(?:.{65535}){'.$Lx.'}';
  235.             $Lp '('.$Lp.'.{'.$Ly.'})';
  236.             
  237.         else if ($length 0{
  238.             
  239.             if $length ($offset $strlen) ) {
  240.                 return '';
  241.             }
  242.             
  243.             $Lx = (int)((-$length)/65535);
  244.             $Ly (-$length)%65535;
  245.             
  246.             // negative length requires ... capture everything
  247.             // except a group of  -length characters
  248.             // anchored at the tail-end of the string
  249.             if ($Lx$Lp '(?:.{65535}){'.$Lx.'}';
  250.             $Lp '(.*)(?:'.$Lp.'.{'.$Ly.'})$';
  251.             
  252.         }
  253.         
  254.     }
  255.     
  256.     if (!preg_match'#'.$Op.$Lp.'#us',$str$match )) {
  257.         return '';
  258.     }
  259.     
  260.     return $match[1];
  261.     
  262. }
  263.  
  264. //---------------------------------------------------------------
  265. /**
  266. * UTF-8 aware alternative to strtolower
  267. * Make a string lowercase
  268. * Note: The concept of a characters "case" only exists is some alphabets
  269. * such as Latin, Greek, Cyrillic, Armenian and archaic Georgian - it does
  270. * not exist in the Chinese alphabet, for example. See Unicode Standard
  271. * Annex #21: Case Mappings
  272. * Note: requires utf8_to_unicode and utf8_from_unicode
  273. @author Andreas Gohr <andi@splitbrain.org>
  274. @param string 
  275. @return mixed either string in lowercase or FALSE is UTF-8 invalid
  276. @see http://www.php.net/strtolower
  277. @see utf8_to_unicode
  278. @see utf8_from_unicode
  279. @see http://www.unicode.org/reports/tr21/tr21-5.html
  280. @see http://dev.splitbrain.org/view/darcs/dokuwiki/inc/utf8.php
  281. @package utf8
  282. @subpackage strings
  283. */
  284. function utf8_strtolower($string){
  285.     
  286.     static $UTF8_UPPER_TO_LOWER NULL;
  287.     
  288.     if is_null($UTF8_UPPER_TO_LOWER) ) {
  289.         $UTF8_UPPER_TO_LOWER array(
  290.     0x0041=>0x00610x03A6=>0x03C60x0162=>0x01630x00C5=>0x00E50x0042=>0x0062,
  291.     0x0139=>0x013A0x00C1=>0x00E10x0141=>0x01420x038E=>0x03CD0x0100=>0x0101,
  292.     0x0490=>0x04910x0394=>0x03B40x015A=>0x015B0x0044=>0x00640x0393=>0x03B3,
  293.     0x00D4=>0x00F40x042A=>0x044A0x0419=>0x04390x0112=>0x01130x041C=>0x043C,
  294.     0x015E=>0x015F0x0143=>0x01440x00CE=>0x00EE0x040E=>0x045E0x042F=>0x044F,
  295.     0x039A=>0x03BA0x0154=>0x01550x0049=>0x00690x0053=>0x00730x1E1E=>0x1E1F,
  296.     0x0134=>0x01350x0427=>0x04470x03A0=>0x03C00x0418=>0x04380x00D3=>0x00F3,
  297.     0x0420=>0x04400x0404=>0x04540x0415=>0x04350x0429=>0x04490x014A=>0x014B,
  298.     0x0411=>0x04310x0409=>0x04590x1E02=>0x1E030x00D6=>0x00F60x00D9=>0x00F9,
  299.     0x004E=>0x006E0x0401=>0x04510x03A4=>0x03C40x0423=>0x04430x015C=>0x015D,
  300.     0x0403=>0x04530x03A8=>0x03C80x0158=>0x01590x0047=>0x00670x00C4=>0x00E4,
  301.     0x0386=>0x03AC0x0389=>0x03AE0x0166=>0x01670x039E=>0x03BE0x0164=>0x0165,
  302.     0x0116=>0x01170x0108=>0x01090x0056=>0x00760x00DE=>0x00FE0x0156=>0x0157,
  303.     0x00DA=>0x00FA0x1E60=>0x1E610x1E82=>0x1E830x00C2=>0x00E20x0118=>0x0119,
  304.     0x0145=>0x01460x0050=>0x00700x0150=>0x01510x042E=>0x044E0x0128=>0x0129,
  305.     0x03A7=>0x03C70x013D=>0x013E0x0422=>0x04420x005A=>0x007A0x0428=>0x0448,
  306.     0x03A1=>0x03C10x1E80=>0x1E810x016C=>0x016D0x00D5=>0x00F50x0055=>0x0075,
  307.     0x0176=>0x01770x00DC=>0x00FC0x1E56=>0x1E570x03A3=>0x03C30x041A=>0x043A,
  308.     0x004D=>0x006D0x016A=>0x016B0x0170=>0x01710x0424=>0x04440x00CC=>0x00EC,
  309.     0x0168=>0x01690x039F=>0x03BF0x004B=>0x006B0x00D2=>0x00F20x00C0=>0x00E0,
  310.     0x0414=>0x04340x03A9=>0x03C90x1E6A=>0x1E6B0x00C3=>0x00E30x042D=>0x044D,
  311.     0x0416=>0x04360x01A0=>0x01A10x010C=>0x010D0x011C=>0x011D0x00D0=>0x00F0,
  312.     0x013B=>0x013C0x040F=>0x045F0x040A=>0x045A0x00C8=>0x00E80x03A5=>0x03C5,
  313.     0x0046=>0x00660x00DD=>0x00FD0x0043=>0x00630x021A=>0x021B0x00CA=>0x00EA,
  314.     0x0399=>0x03B90x0179=>0x017A0x00CF=>0x00EF0x01AF=>0x01B00x0045=>0x0065,
  315.     0x039B=>0x03BB0x0398=>0x03B80x039C=>0x03BC0x040C=>0x045C0x041F=>0x043F,
  316.     0x042C=>0x044C0x00DE=>0x00FE0x00D0=>0x00F00x1EF2=>0x1EF30x0048=>0x0068,
  317.     0x00CB=>0x00EB0x0110=>0x01110x0413=>0x04330x012E=>0x012F0x00C6=>0x00E6,
  318.     0x0058=>0x00780x0160=>0x01610x016E=>0x016F0x0391=>0x03B10x0407=>0x0457,
  319.     0x0172=>0x01730x0178=>0x00FF0x004F=>0x006F0x041B=>0x043B0x0395=>0x03B5,
  320.     0x0425=>0x04450x0120=>0x01210x017D=>0x017E0x017B=>0x017C0x0396=>0x03B6,
  321.     0x0392=>0x03B20x0388=>0x03AD0x1E84=>0x1E850x0174=>0x01750x0051=>0x0071,
  322.     0x0417=>0x04370x1E0A=>0x1E0B0x0147=>0x01480x0104=>0x01050x0408=>0x0458,
  323.     0x014C=>0x014D0x00CD=>0x00ED0x0059=>0x00790x010A=>0x010B0x038F=>0x03CE,
  324.     0x0052=>0x00720x0410=>0x04300x0405=>0x04550x0402=>0x04520x0126=>0x0127,
  325.     0x0136=>0x01370x012A=>0x012B0x038A=>0x03AF0x042B=>0x044B0x004C=>0x006C,
  326.     0x0397=>0x03B70x0124=>0x01250x0218=>0x02190x00DB=>0x00FB0x011E=>0x011F,
  327.     0x041E=>0x043E0x1E40=>0x1E410x039D=>0x03BD0x0106=>0x01070x03AB=>0x03CB,
  328.     0x0426=>0x04460x00DE=>0x00FE0x00C7=>0x00E70x03AA=>0x03CA0x0421=>0x0441,
  329.     0x0412=>0x04320x010E=>0x010F0x00D8=>0x00F80x0057=>0x00770x011A=>0x011B,
  330.     0x0054=>0x00740x004A=>0x006A0x040B=>0x045B0x0406=>0x04560x0102=>0x0103,
  331.     0x039B=>0x03BB0x00D1=>0x00F10x041D=>0x043D0x038C=>0x03CC0x00C9=>0x00E9,
  332.     0x00D0=>0x00F00x0407=>0x04570x0122=>0x0123,
  333.             );
  334.     }
  335.     
  336.     $uni utf8_to_unicode($string);
  337.     
  338.     if !$uni {
  339.         return FALSE;
  340.     }
  341.     
  342.     $cnt count($uni);
  343.     for ($i=0$i $cnt$i++){
  344.         if isset($UTF8_UPPER_TO_LOWER[$uni[$i]]) ) {
  345.             $uni[$i$UTF8_UPPER_TO_LOWER[$uni[$i]];
  346.         }
  347.     }
  348.     
  349.     return utf8_from_unicode($uni);
  350. }
  351.  
  352. //---------------------------------------------------------------
  353. /**
  354. * UTF-8 aware alternative to strtoupper
  355. * Make a string uppercase
  356. * Note: The concept of a characters "case" only exists is some alphabets
  357. * such as Latin, Greek, Cyrillic, Armenian and archaic Georgian - it does
  358. * not exist in the Chinese alphabet, for example. See Unicode Standard
  359. * Annex #21: Case Mappings
  360. * Note: requires utf8_to_unicode and utf8_from_unicode
  361. @author Andreas Gohr <andi@splitbrain.org>
  362. @param string 
  363. @return mixed either string in lowercase or FALSE is UTF-8 invalid
  364. @see http://www.php.net/strtoupper
  365. @see utf8_to_unicode
  366. @see utf8_from_unicode
  367. @see http://www.unicode.org/reports/tr21/tr21-5.html
  368. @see http://dev.splitbrain.org/view/darcs/dokuwiki/inc/utf8.php
  369. @package utf8
  370. @subpackage strings
  371. */
  372. function utf8_strtoupper($string){
  373.     
  374.     static $UTF8_LOWER_TO_UPPER NULL;
  375.     
  376.     if is_null($UTF8_LOWER_TO_UPPER) ) {
  377.         $UTF8_LOWER_TO_UPPER array(
  378.     0x0061=>0x00410x03C6=>0x03A60x0163=>0x01620x00E5=>0x00C50x0062=>0x0042,
  379.     0x013A=>0x01390x00E1=>0x00C10x0142=>0x01410x03CD=>0x038E0x0101=>0x0100,
  380.     0x0491=>0x04900x03B4=>0x03940x015B=>0x015A0x0064=>0x00440x03B3=>0x0393,
  381.     0x00F4=>0x00D40x044A=>0x042A0x0439=>0x04190x0113=>0x01120x043C=>0x041C,
  382.     0x015F=>0x015E0x0144=>0x01430x00EE=>0x00CE0x045E=>0x040E0x044F=>0x042F,
  383.     0x03BA=>0x039A0x0155=>0x01540x0069=>0x00490x0073=>0x00530x1E1F=>0x1E1E,
  384.     0x0135=>0x01340x0447=>0x04270x03C0=>0x03A00x0438=>0x04180x00F3=>0x00D3,
  385.     0x0440=>0x04200x0454=>0x04040x0435=>0x04150x0449=>0x04290x014B=>0x014A,
  386.     0x0431=>0x04110x0459=>0x04090x1E03=>0x1E020x00F6=>0x00D60x00F9=>0x00D9,
  387.     0x006E=>0x004E0x0451=>0x04010x03C4=>0x03A40x0443=>0x04230x015D=>0x015C,
  388.     0x0453=>0x04030x03C8=>0x03A80x0159=>0x01580x0067=>0x00470x00E4=>0x00C4,
  389.     0x03AC=>0x03860x03AE=>0x03890x0167=>0x01660x03BE=>0x039E0x0165=>0x0164,
  390.     0x0117=>0x01160x0109=>0x01080x0076=>0x00560x00FE=>0x00DE0x0157=>0x0156,
  391.     0x00FA=>0x00DA0x1E61=>0x1E600x1E83=>0x1E820x00E2=>0x00C20x0119=>0x0118,
  392.     0x0146=>0x01450x0070=>0x00500x0151=>0x01500x044E=>0x042E0x0129=>0x0128,
  393.     0x03C7=>0x03A70x013E=>0x013D0x0442=>0x04220x007A=>0x005A0x0448=>0x0428,
  394.     0x03C1=>0x03A10x1E81=>0x1E800x016D=>0x016C0x00F5=>0x00D50x0075=>0x0055,
  395.     0x0177=>0x01760x00FC=>0x00DC0x1E57=>0x1E560x03C3=>0x03A30x043A=>0x041A,
  396.     0x006D=>0x004D0x016B=>0x016A0x0171=>0x01700x0444=>0x04240x00EC=>0x00CC,
  397.     0x0169=>0x01680x03BF=>0x039F0x006B=>0x004B0x00F2=>0x00D20x00E0=>0x00C0,
  398.     0x0434=>0x04140x03C9=>0x03A90x1E6B=>0x1E6A0x00E3=>0x00C30x044D=>0x042D,
  399.     0x0436=>0x04160x01A1=>0x01A00x010D=>0x010C0x011D=>0x011C0x00F0=>0x00D0,
  400.     0x013C=>0x013B0x045F=>0x040F0x045A=>0x040A0x00E8=>0x00C80x03C5=>0x03A5,
  401.     0x0066=>0x00460x00FD=>0x00DD0x0063=>0x00430x021B=>0x021A0x00EA=>0x00CA,
  402.     0x03B9=>0x03990x017A=>0x01790x00EF=>0x00CF0x01B0=>0x01AF0x0065=>0x0045,
  403.     0x03BB=>0x039B0x03B8=>0x03980x03BC=>0x039C0x045C=>0x040C0x043F=>0x041F,
  404.     0x044C=>0x042C0x00FE=>0x00DE0x00F0=>0x00D00x1EF3=>0x1EF20x0068=>0x0048,
  405.     0x00EB=>0x00CB0x0111=>0x01100x0433=>0x04130x012F=>0x012E0x00E6=>0x00C6,
  406.     0x0078=>0x00580x0161=>0x01600x016F=>0x016E0x03B1=>0x03910x0457=>0x0407,
  407.     0x0173=>0x01720x00FF=>0x01780x006F=>0x004F0x043B=>0x041B0x03B5=>0x0395,
  408.     0x0445=>0x04250x0121=>0x01200x017E=>0x017D0x017C=>0x017B0x03B6=>0x0396,
  409.     0x03B2=>0x03920x03AD=>0x03880x1E85=>0x1E840x0175=>0x01740x0071=>0x0051,
  410.     0x0437=>0x04170x1E0B=>0x1E0A0x0148=>0x01470x0105=>0x01040x0458=>0x0408,
  411.     0x014D=>0x014C0x00ED=>0x00CD0x0079=>0x00590x010B=>0x010A0x03CE=>0x038F,
  412.     0x0072=>0x00520x0430=>0x04100x0455=>0x04050x0452=>0x04020x0127=>0x0126,
  413.     0x0137=>0x01360x012B=>0x012A0x03AF=>0x038A0x044B=>0x042B0x006C=>0x004C,
  414.     0x03B7=>0x03970x0125=>0x01240x0219=>0x02180x00FB=>0x00DB0x011F=>0x011E,
  415.     0x043E=>0x041E0x1E41=>0x1E400x03BD=>0x039D0x0107=>0x01060x03CB=>0x03AB,
  416.     0x0446=>0x04260x00FE=>0x00DE0x00E7=>0x00C70x03CA=>0x03AA0x0441=>0x0421,
  417.     0x0432=>0x04120x010F=>0x010E0x00F8=>0x00D80x0077=>0x00570x011B=>0x011A,
  418.     0x0074=>0x00540x006A=>0x004A0x045B=>0x040B0x0456=>0x04060x0103=>0x0102,
  419.     0x03BB=>0x039B0x00F1=>0x00D10x043D=>0x041D0x03CC=>0x038C0x00E9=>0x00C9,
  420.     0x00F0=>0x00D00x0457=>0x04070x0123=>0x0122,
  421.             );
  422.     }
  423.     
  424.     $uni utf8_to_unicode($string);
  425.     
  426.     if !$uni {
  427.         return FALSE;
  428.     }
  429.     
  430.     $cnt count($uni);
  431.     for ($i=0$i $cnt$i++){
  432.         ifisset($UTF8_LOWER_TO_UPPER[$uni[$i]]) ) {
  433.             $uni[$i$UTF8_LOWER_TO_UPPER[$uni[$i]];
  434.         }
  435.     }
  436.     
  437.     return utf8_from_unicode($uni);
  438. }

Documentation generated on Thu, 08 Jan 2009 17:40:15 +0100 by phpDocumentor 1.4.0a2