CharFilterFactories

　　字符过滤器是一个预处理输入字符的组件,字符过滤器可以链接如token过滤器,并放置在Tokenizer(分词器)的前面,字符过滤器可以添加，更改或删除字符，同时保留原有的字符偏移量，以支持如高亮的功能.

solr.MappingCharFilterFactory

　　这个过滤器创建了org.apache.lucene.analysis.MappingCharFilter,可以用来改变字符.如规范化é 为 e.

　　例子:

<analyzer>
    <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-FoldToASCII.txt" />
</analyzer>

　　这个顾虑器创建了org.apache.solr.analysis.HTMLStripCharFilter,这个过滤器从输入流中剥离HTML标签,传递结果给另一个字符过滤器或者分词器(Tokenizer).

这个过滤器:

　　下面是一些例子:

输入	输出
my <a href="www.foo.bar">link</a>	my link
<br>hello<!--comment-->	hello
hello<script><!-- f('<!--internal--></script>'); --></script>	hello
if a<b then print a;	if a<b then print a;
hello <td height=22 nowrap align="left">	hello
a<b &#65 Alpha&Omega	a<b A Alpha&Omega

　　参数:

　　　　pattern:对于传入文本使用的正则表达式.

　　　　replaceWith:用来替换匹配模式(pattern)的文本.

<analyzer>
    <charFilter class="solr.PatternReplaceCharFilterFactory"
        pattern="([nN][oO].)s*(d+)" replaceWith="$1$2" />
</analyzer>

下面是基于正则模式替换的例子: