文本提取工具 TextHelper

文本提取工具

可以从一段文本中提取中特定格式的文本。

举例：
1. 从HTML源代码中提取出所有jpg类型的图片地址输出。

处理代码：
$Regex:http://.+/?\.jpg$
$@0$

输出结果：所以匹配正则表达式的内容

2. 为文本中所有TextHelper按先后顺序编号，并转换为小写。

处理代码：
$Regex:TextHelper$
$declare @count Integer(0,1)$
$@count.Next()$: $ToLower(@0)$

输出结果：
1：texthelper
2：texthelper
3：texthelper
......

语法说明

程序中的所有代码需要包含在二个$中才会被识别

“处理代码”区

· 代码语法

1. 输入正则表达式
$Regex:在此输入正则表达式$

2. 注释
$*这是注释*$

1. 定义类型为Integer的对象@VarName
$declare @VarName Integer(0,1)$

2. 输出对象@VarName
$@VarName$

3. 调用对象@VarName的Next方法并输出返回值
$@VarName.Next()$

4. 调用函数ToLower将变量@VarName转换为小写字符串
$ToLower(@VarName)$

· 序列类型

1. Integer(start,step)
整型序列类型
参数
start: 类型初始值
step:步进值，每次调用Next方法时增加
成员方法
Next() 获取下一个值

2. Decimal(start,step)
浮点序列类型
参数
start: 类型初始值
step:步进值，每次调用Next方法时增加
成员方法
Next() 获取下一个值

· 函数

1. ToLower(object)
将变量或字符串转换为小写形式
参数
object:待转换的对象；可为字符串或对象变量

2. ToUpper (object)
将变量或字符串转换为大写形式
参数
object:待转换的对象；可为字符串或对象变量

· 内置变量

正则表达式的组可做为内置变量使用。

1. 整个表达式匹配的值可以变量@0引用

2. 表达式第一个组匹配的值可以用变量@1引用，其它以此类推

3. 如果捕获组限定了组名，则只能通过组名的变量引用
如正则表达式：\b(?<GName>word)\b
可以通过变量@GName引用这个组

· 字符转义
\$
转义$字符，使其失去原有意义

“源文本”区

· 导入文本
除在源文本区输入文本外也可以使用指令从外部导入文本，语法如下：

1. 以默认的字符编码导入一个文本
$include:http://www.a.com/test.html$

2. 以utf-8编码方式导入一个文本
$include<utf-8>:http://www.a.com/test.html$

3. 以默认的字符编码导入多个文本(每个文本以换行分隔)
$include:{
http://www.a.com/test.html
d:\dir\test.html
}$

4.以utf-8的字符编码导入多个文本(每个文本以换行分隔)
$include<utf-8>:{
http://www.a.com/test.html
d:\dir\test.html
}$

下载地址：单击下载