mahout处理路透社语料步骤，转换成须要的格式

首先下载路透社语料（百度就能够下载）：

然后上传Linux 并解压到指定文件夹。Tips:此处我放在可 /usr/hadoop/mahout/reutersTest/reuters

tar -zxvf /usr/hadoop/mahout/reutersTest/reuters/reuters21578.tar.gz

接下来转换语料格式。要求步骤是：

.sgm文件 ===> .txt文件 ===> sequence文件 ===> vector 文件

结合写一个java代码。使用mahout的org.apache.lucene.benchmark.utils.ExtractReuters类依照

一个新闻一个文档的形式把格式转换为.txt文件。

<strong><span style="font-size:18px;">/***
 * @author YangXin
 * @info 处理路透社语料编程.txt格式
 */
package unitEight;

import java.io.File;

import org.apache.lucene.benchmark.utils.ExtractReuters;

public class TestExtractReuters {
	public static void main(String[] args) {
	    // TODO Auto-generated method stub
	    File inputFolder = new File("G:\reuter"); 
	    File outputFolder = new File("G:\reuters-Text");
	    ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);
	    extractor.extract();
		}
}</span></strong>

数据比較多，我就截了一部分：

接着输入：

mahout seqdirectory -c UTF-8 -i /usr/hadoop/mahout/reutersTest/reuters-Text -o reuters-seqfiles

然后能够查看到hdfs上出现了例如以下文件夹：

接着输入：

mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow

最后能够下载下来查看。