瞬间模糊检索1000万基本句型的语言算法

http://newitfarmer.com/bbs/read.php?tid=4034

汉语是我们母语，汉字承载了我们五千年的文明，但汉语的信息化始终是我们民族现代化道路上的一道坎。目前使用分词算法和N元文法统计模型进行音字转换，准确率不能满足需要，所以我自2004年以来提出“基于参考句型的语言处理方法”，并给出了相关算法：汉语语句的总数是难以穷尽的，所以一一列举的“基于实例的方法”是不可行的。但许多语句有共同的组成部分，称为“基本句型”，也可以称为“短语”，如： “他毕业五年了”、“他早就毕业了”、“他明年六月毕业”中的“他毕业”。另一方面，一个语句也可以有多个“交叉”“重叠”的“基本句型”，如：“这人的英语说得不流利”中的“这人说英语”、“英语流利”、“不流利”。如果建立起汉语的基本句型数据库，设拼音输入、语音输入中有拼音串“zheren de yingyu shuo de bu liuli”，在数据库中找出“zheren*shuo*yingyu/这人说英语”，“yingyu*liuli/英语流利”、“bu*liuli /不流利”等作为参考句型。从多个参考句型中，首先选用最长的“这人说英语”，第2步以其中的“英语”去联想“英语流利”，第3步用“流利”去联想“不流利”，则可以处理为“这人de英语说得不流利”，最后用语法、词频等方法作补充，应能大幅度提高准确率。计算机处理语言给出参考句型，就好比绘图中给出模板：要徒手画一个2厘米的等边三角形是很难的，更别说复杂的图案，如果给出许多的大小不一的各种形状模板，利用这些模板可以组合出千变万化的图案，再复杂的图案也可以画得八九不离十。同样，对于一种语言如果给出数百万乃至数千万的基本句型，利用这些基本句型交叉重叠就可能很好地解决音字转换问题。由于语言中普遍存在的交叉现象，传统的索引方法不能发现“shixian-weida-lixiang/实现伟大理想”、“lixiang-yijing -shixian/理想已经实现”同数据库“shixian*lixiang/实现理想”有内在联系。当然，对字符串进行“逐字符比较”，也能发现两者之间存在包含关系，但响应速度不能满足需要。所以我提出质数代换、位标记等方法来提高参考句型的查找速度，对比字符匹配，将速度提高了5-10倍，最高可以提高30倍。用VC独立编程模拟测试表明，一般情况下，在赛扬800的CPU上0.1-0.5秒能从400万条记录中查找出参考句型。据此推算，在高档微机0.1-0.5秒能为一个拼音串从 1000万个句型中找到参考句型，在未来3-5年内，0.1-0.5秒应能从4000万个句型中比对出参考句型。 “基于参考句型”的语言算法完全兼容了“分词”算法，并采用“非连续音节的转移概率”进行语句生成决策，比“N元文法统计模型”采用的“连续音节的转移概率”，更符合语言的规律，用若干个“参考句型”确定了一个拼音串的主干后，再用语法分析做补充，应能大幅度提高拼音输入、语音输入的水平，有重要的社会意义、学术意义、经济价值。我解决了算法，但提取1000万-4000万个最有代表性的基本句型需要社会各界的支持！诚邀业界人士参与讨论分析，推进技术的发展！ 2006-7-18 联系方式：hztj2005@yahoo.com.cn 完整的方案《语言处理技术》见北大中文论坛下面网页的附件下面网页的附件： http://www.pkucn.com/viewthread.php?tid=176820&page=1&extra=page%3D3#pid1218072646