如何随机生成指定数目的国标汉字?

为了使每一个汉字有一个全国统一的代码,1980年,我国颁布了第一个汉字编码的国家标准: GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。由于国标码是四位十六进制,为了便于交流,大家常用的是四位十进制的区位码。所有的国标汉字与符号组成一个94×94的矩阵。在此方阵中,每一行称为一个"区",每一列称为一个"位",因此,这个方阵实际上组成了一个有94个区(区号分别为0 1到94)、每个区内有94个位(位号分别为01到94)的汉字字符集。一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的"区位码"。在汉字的区位码中,高两位为区号,低两位为位号。 在区位码中,01-09区为682个特殊字符,16~87区为汉字区,包含6763个汉字 。其中16-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列)。

所以,当我们需要n个任意汉字时,我们不必建一个全部汉字表,而是利用区位码实现常用汉字的提取。

下面的代码可以实现任意数目汉字的生成:

/// <summary>
        
/// 此函数为生成指定数目的汉字
        
/// </summary>
        
/// <param name="charLen">汉字数目</param>
        
/// <returns>所有汉字</returns>

        public static string[] CreateGBChar(int charLen)
        
{
            
int area,code;//汉字由区位和码位组成(都为0-94,其中区位16-55为一级汉字区,56-87为二级汉字区,1-9为特殊字符区)
            string[] charArrary = new string[charLen];
            Random rand 
= new Random();
            
for (int i = 0; i < charLen; i++)
            
{
                area 
= rand.Next(1688);
                
if (area == 55)//第55区只有89个字符
                {
                    code 
= rand.Next(190);
                }

                
else
                
{
                    code 
= rand.Next(194);
                }

                charArrary[i] 
= Encoding.GetEncoding("GB2312").GetString(new byte[] { Convert.ToByte(area+160), Convert.ToByte(code+160) });
            }

            
return charArrary;
        }

下面代码是解析汉字的区位码:

 1        /// <summary>
 2        /// 获取汉字的区位码
 3         /// </summary>
 4        /// <param name="gbChar">汉字</param>
 5        /// <returns>汉字的区位码</returns>

 6        public static string GetAreaCode(char gbChar)
 7        {
 8            byte[] gbBytes = Encoding.GetEncoding("GB2312").GetBytes(new char[] { gbChar });//解析汉字成二进制数组
 9            return string.Format("{0}:{1}", gbBytes[0].ToString("X"), gbBytes[1].ToString("X"));
10        }

下面代码是根据区位码获取汉字:

        /// <summary>
        
/// 将区位码转换成汉字
         
/// </summary>
        
/// <param name="areaCode">区位码(长度为4)</param>
        
/// <returns>汉字</returns>

        public static char GetGBChar(string areaCode)
        
{
            
return Convert.ToChar(Encoding.GetEncoding("GB2312").GetString(new byte[] { Convert.ToByte(areaCode.Substring(02), 16), Convert.ToByte(areaCode.Substring(22), 16) }));
        }
原文地址:https://www.cnblogs.com/wudingfeng/p/1310598.html