1.今天把Spark编程第三个实验的Scala独立程序编程写完了。使用 sbt 打包 Scala 程序,然后提交到Spark运行。
2.完成了实验四的第一项
data:image/s3,"s3://crabby-images/da52d/da52db3ca071ff244bf60ebaa0ae6003e7233178" alt=""
map(t => t.split(",")(0))表示:lines这个RDD中每个元素被split()函数拆分成3个字符串,保存到数组中,然后,把数组中的第1个元素(即学生名字字段的值)取出来放到新的RDD中。
distinct()表示:去重操作,即把重复的学生名字去掉,只保留一个。
count()表示:求去重后的学生总人数。
data:image/s3,"s3://crabby-images/05fa4/05fa49efd6c7273a8aca4529a94e5fe5e0d41192" alt=""
与第一问同理,只不过改为数组的第二个元素。
data:image/s3,"s3://crabby-images/02a52/02a52f565a132fe2491e3324b78732a7178ddc6c" alt=""
lines.filter(t => t.split(",")(0) == "Tom")表示:过滤掉数据集中第1个字段非“Tom”的名字,即只保留Tom的数据。
map(t => (t.split(",")(0), t.split(",")(2).toInt)) 表示:lines这个RDD中每个元素被split()函数拆分成3个字符串,保存到数组中,然后,把数组中的第1个元素和第3个元素取出来放到新的RDD中,.toInt的作用是把String类型的成绩值转变成Int类型,可以进行运算。
mapValues(x => (x,1))表示:构建(key, value)类型的键值对,其中,key表示Int类型的成绩,value表示数字"1"。
reduceByKey((x,y) => (x._1+y._1, x._2+y._2))表示:x._1+y._1表示把key(成绩)相加,x._2+y._2表示把value(数字“1”)相加。
mapValues(x => x._1/x._2)表示:总成绩/科目总数
values表示:返回value值(即平均成绩)。
data:image/s3,"s3://crabby-images/59b64/59b64e989df669ecaee4f7f7a4bd5559193394b5" alt=""
数据大概如下,仅展示部分结果如图:
data:image/s3,"s3://crabby-images/cf7d9/cf7d9c7f2c67c8469fbec0fd06c4231f3ec4bbf1" alt=""
data:image/s3,"s3://crabby-images/8de98/8de9852a6a8056e18c68e31a11b2513801e1e3ef" alt=""
data:image/s3,"s3://crabby-images/ece97/ece9726d7f34bdbb29bb044a75a3cdfe1289c6cd" alt=""