Hadoop-Mapreduce-英文单词计数

  1 package mapred;
  2 
  3 import java.io.IOException;
  4 import java.util.StringTokenizer;
  5 import org.apache.hadoop.conf.Configuration;
  6 
  7 import org.apache.hadoop.fs.Path;
  8 import org.apache.hadoop.io.IntWritable;
  9 import org.apache.hadoop.io.Text;
 10 import org.apache.hadoop.io.WritableComparable;
 11 import org.apache.hadoop.mapreduce.Job;
 12 import org.apache.hadoop.mapreduce.Mapper;
 13 
 14 import org.apache.hadoop.mapreduce.Reducer;
 15 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 16 import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;
 17 
 18 import org.apache.hadoop.mapreduce.lib.map.InverseMapper;
 19 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 20 import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
 21 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
 22 
 23 public class WordCount {
 24 
 25     // 自定义Mapper静态内部Class 继承父类 Mapper类，进一步实现map过程
 26     public static class TokenizerMapper extends
 27             Mapper<Object, Text, Text, IntWritable> {
 28         public void map(Object key, Text value, Context context)
 29                 throws IOException, InterruptedException {
 30             System.out.println(key);
 31             // Key
 32             Text keyOut;
 33             // 定义整数1， 每个单词计数一次
 34             IntWritable valueOut = new IntWritable(1);
 35 
 36             // 构造一个用来解析输入value值的StringTokenizer对象
 37             StringTokenizer token = new StringTokenizer(value.toString());
 38             while (token.hasMoreTokens()) {
 39                 // 返回从当前位置到下一个分割符的字符串
 40                 keyOut = new Text(token.nextToken());
 41                 // map过程输出键值对：输出每个被拆分出来的单词，以及计数1
 42                 context.write(keyOut, valueOut);
 43             }
 44         }
 45     }
 46 
 47     // 自定义Reducer Class 继承父类 Reducer类，进一步实现reduce过程
 48     public static class IntSumReducer extends
 49             Reducer<Text, IntWritable, Text, IntWritable> {
 50         private IntWritable result = new IntWritable();
 51 
 52         public void reduce(Text key, Iterable<IntWritable> values,
 53                            Context context) throws IOException, InterruptedException {
 54             int sum = 0;
 55             for (IntWritable val : values) {
 56                 sum += val.get();
 57             }
 58             result.set(sum);
 59             context.write(key, result);
 60         }
 61     }
 62 
 63     // 自定义实现降序
 64     // Hadoop默认对IntWritable按升序排序，重写IntWritable.Comparator类实现降序
 65     private static class IntWritableDecreaseingComparator extends IntWritable.Comparator {
 66         @Override
 67         public int compare(WritableComparable a, WritableComparable b) {
 68             return -super.compare(a, b);// 比较结果取负数即可降序
 69         }
 70         @Override
 71         public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
 72             return -super.compare(b1, s1, l1, b2, s2, l2);
 73         }
 74     }
 75 
 76     // 入口
 77     public static void main(String[] args) throws Exception {
 78         // 任何作用的配置信息必须通过Configuration传递，通过Configuration可以实现在多个mapper和多个reducer任务之间共享信息
 79         Configuration conf = new Configuration();
 80 
 81         // 定义一个临时目录：hdfs://localhost:9000/wordcount1 是hdfs上不存在的目录（hdfs://localhost:9000/肯定存在）
 82         // 自定义一个临时目录，如果目录存在请先删除目录后，再运行
 83         Path tempDir = new Path("hdfs://localhost:9000/wordcount1");
 84 
 85         try {
 86             // 创建作业 job
 87             Job job = Job.getInstance(conf, "word count ");
 88 
 89             //  通过传入的WordCount类Class 设置job的jar包
 90             job.setJarByClass(WordCount.class);
 91 
 92             //  设置Mapper类Class
 93             job.setMapperClass(TokenizerMapper.class);
 94             //  设置Combine类Class
 95             job.setCombinerClass(IntSumReducer.class);
 96             //  设置Reducer类Class
 97             job.setReducerClass(IntSumReducer.class);
 98 
 99             // 自定义分区
100             job.setNumReduceTasks(2);
101 
102             // 指定输出类型
103             job.setOutputKeyClass(Text.class);//  设置输出Key类Class
104             job.setOutputValueClass(IntWritable.class);//  设置输出Value类Class
105 
106             // 指定统计作业输出格式，和排序作业的输入格式应对应
107             job.setOutputFormatClass(SequenceFileOutputFormat.class);
108 
109             // 指定待统计文件目录
110             FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/words"));
111 
112             // 先将词频统计作业的输出结果写到临时目录中，下一个排序作业以临时目录为输入目录
113             FileOutputFormat.setOutputPath(job, tempDir);
114 
115             // 提交job
116             // waitForCompletion提交作业后，每秒会轮询作业进度，如果发现和上次报告后有改变，就把进度报告到控制台，
117             // 作业完成后，如果成功就显示作业计数
118             boolean result = job.waitForCompletion(true);
119             if (result) {
120                 // 创建作业 sortJob
121                 Job sortJob = Job.getInstance(conf, "sort");
122                 sortJob.setJarByClass(WordCount.class);
123 
124                 // 指定临时目录作为排序作业的输入
125                 FileInputFormat.addInputPath(sortJob, tempDir);
126 
127                 // Hadoop 默认的是TextInputFormat和TextOutputFormat,此处可以显示地配置
128                 sortJob.setInputFormatClass(SequenceFileInputFormat.class);
129 
130                 // 由Hadoop库提供，作用是实现map()后的数据对key和value交换
131                 sortJob.setMapperClass(InverseMapper.class);
132 
133                 // 将Reducer的个数限定为1，最终输出的结果文件就是一个
134                 sortJob.setNumReduceTasks(1);
135 
136                 // 最终输出目录，如果目录存在请先删除目录后，再运行
137                 FileOutputFormat.setOutputPath(sortJob, new Path("hdfs://localhost:9000/wordcount2"));
138 
139                 //  设置输出Key类Class
140                 sortJob.setOutputKeyClass(IntWritable.class);
141                 //  设置输出Value类Class
142                 sortJob.setOutputValueClass(Text.class);
143                 // 一般情况下，mapper和reducer输出的数据类型是一样的，所以可以用上面两条命令；
144                 // 如果不一样，可以用下面两条命令单独指定mapper输出的key、value数据类型
145                 // job.setMapOutputKeyClass(Text.class);
146                 // job.setMapOutputValueClass(IntWritable.class);
147 
148                 sortJob.setOutputFormatClass(TextOutputFormat.class);
149                 // Hadoop 默认的是TextInputFormat和TextOutputFormat,此处可以显示地配置
150                 // job.setInputFormatClass(TextInputFormat.class);
151                 // job.setOutputFormatClass(TextOutputFormat.class);
152 
153                 // Hadoop默认对IntWritable按升序排序，重写IntWritable.Comparator类实现降序
154                 sortJob.setSortComparatorClass(IntWritableDecreaseingComparator.class);
155 
156                 // 提交sortJob
157                 // waitForCompletion提交作业后，每秒会轮询作业进度，如果发现和上次报告后有改变，就把进度报告到控制台，
158                 // 作业完成后，如果成功就显示作业计数
159                 boolean result2 = sortJob.waitForCompletion(true);
160                 if (result2) {
161                     System.out.println("***********ok************");
162                 }
163             }
164         } catch (Exception ex) {
165             ex.printStackTrace();
166         }
167     }
168 }
169 
170 // 查看指定路径文件
171 // hadoop fs -ls hdfs://localhost:9000/
172 // 返回结果，如下：
173 //Found 5 items
174 //-rw-r--r--   3 jiangshan supergroup  573545760 2021-09-08 15:48 hdfs://localhost:9000/SBSNTEST111.txt
175 //-rw-r--r--   3 jiangshan supergroup         28 2021-09-08 16:01 hdfs://localhost:9000/testcreate
176 //drwxr-xr-x   - jiangshan supergroup          0 2021-09-08 19:39 hdfs://localhost:9000/wordcount1
177 //drwxr-xr-x   - jiangshan supergroup          0 2021-09-08 19:39 hdfs://localhost:9000/wordcount2
178 //-rw-r--r--   3 jiangshan supergroup  163254798 2021-09-08 16:56 hdfs://localhost:9000/words
179 
180 // 查看指定路径文件
181 // hadoop fs -ls hdfs://localhost:9000/wordcount1
182 // 返回结果，如下：
183 //Found 3 items
184 //-rw-r--r--   3 jiangshan supergroup          0 2021-09-08 19:54 hdfs://localhost:9000/wordcount1/_SUCCESS
185 //-rw-r--r--   3 jiangshan supergroup      27888 2021-09-08 19:54 hdfs://localhost:9000/wordcount1/part-r-00000
186 //-rw-r--r--   3 jiangshan supergroup      27364 2021-09-08 19:54 hdfs://localhost:9000/wordcount1/part-r-00001
187 
188 // 查看指定路径文件
189 // hadoop fs -ls hdfs://localhost:9000/wordcount2
190 // 返回结果，如下：
191 //Found 2 items
192 //-rw-r--r--   3 jiangshan supergroup          0 2021-09-08 19:54 hdfs://localhost:9000/wordcount2/_SUCCESS
193 //-rw-r--r--   3 jiangshan supergroup      36850 2021-09-08 19:54 hdfs://localhost:9000/wordcount2/part-r-00000
194 
195 // 将路径指定文件的内容输出到stdout
196 // hadoop fs -cat hdfs://localhost:9000/testcreate
197 // 返回结果，文本文件内容
198 // Hello Hadoop 888@Chinasofti
个人学习记录