mahout处理路透社语料步骤,转换成须要的格式

首先下载路透社语料(百度就能够下载):



然后上传Linux 并解压到指定文件夹。Tips:此处我放在可 /usr/hadoop/mahout/reutersTest/reuters


tar -zxvf /usr/hadoop/mahout/reutersTest/reuters/reuters21578.tar.gz





接下来转换语料格式。要求步骤是:


.sgm文件  ===> .txt文件  ===>  sequence文件  ===> vector 文件


结合写一个java代码。使用mahout的org.apache.lucene.benchmark.utils.ExtractReuters类依照

一个新闻一个文档的形式 把格式转换为.txt文件。



<strong><span style="font-size:18px;">/***
 * @author YangXin
 * @info 处理路透社语料编程.txt格式
 */
package unitEight;

import java.io.File;

import org.apache.lucene.benchmark.utils.ExtractReuters;

public class TestExtractReuters {
	public static void main(String[] args) {
	    // TODO Auto-generated method stub
	    File inputFolder = new File("G:\reuter"); 
	    File outputFolder = new File("G:\reuters-Text");
	    ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);
	    extractor.extract();
		}
}</span></strong>


数据比較多,我就截了一部分:



接着输入:

mahout seqdirectory -c UTF-8 -i /usr/hadoop/mahout/reutersTest/reuters-Text -o reuters-seqfiles


然后能够查看到hdfs上出现了例如以下文件夹:




接着输入:

mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow





最后能够下载下来查看。



原文地址:https://www.cnblogs.com/liguangsunls/p/7122057.html