不多说,直接上干货!
获得垃圾链接数据集的命令如下:
wget http://www-stat.stanford.edu/~tibs/ElemStatLearn/datasets/spam.data
scala> val inFile = sc.textFile("./spam.data)
这行代码的意思是,将spam.data文件中的每行作为一个RDD中的单独元素加载到spark中,并返回一个名为inFile的RDD。
scala> import spark.SparkFiles;
scala> val file = sc.addFile("spam.data")
scala> val inFile sc.textFile(SparkFiles.get("spam.data"))
这段代码的意思是,让spam.data文件在所有机器上都有备份。
_.toDouble 和 x=>x.toDouble等价
scala> val rawFile = sc.textFile("READEME.md")
sclaa> val words = rawFile.flatMap("line=> line.spilt("))
scala> val wordNumber = words.map(w => (w,1))
scala> val wordCounts = wordNumber.reduceBykey(_+_)
scala> wordCounts.foreach(println)
这段代码的意思是,读取文件READEME.md,以空格为拆分标志,将文件中的每一行分割为多个单词。对每一个单词进行计数,将单词进行分类合并,计算总的出现次数。将所有单词出现的次数进行打印输出。
同时,大家可以关注我的个人博客:
http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/ http://www.cnblogs.com/sunnyDream/
详情请见:http://www.cnblogs.com/zlslch/p/7473861.html
人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和个人学习工作的精华干货知识,一切来于互联网,反馈回互联网。
目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,每天必须有收获
对应本平台的讨论和答疑QQ群:大数据和人工智能躺过的坑(总群)(161156071)