假期学习【四】RDD编程实验一

假期学习【四】RDD编程实验一

news/2025/2/26 7:27:46

1.今天把Spark编程第三个实验的Scala独立程序编程写完了。使用 sbt 打包 Scala 程序，然后提交到Spark运行。

2.完成了实验四的第一项

（1）该系总共有多少学生；

map(t => t.split(",")(0))表示：lines这个RDD中每个元素被split()函数拆分成3个字符串，保存到数组中，然后，把数组中的第1个元素(即学生名字字段的值)取出来放到新的RDD中。

distinct()表示：去重操作，即把重复的学生名字去掉，只保留一个。

count()表示：求去重后的学生总人数。

（2）该系共开设来多少门课程；

与第一问同理，只不过改为数组的第二个元素。

（3）Tom 同学的总成绩平均分是多少；

lines.filter(t => t.split(",")(0) == "Tom")表示：过滤掉数据集中第1个字段非“Tom”的名字，即只保留Tom的数据。

map(t => (t.split(",")(0), t.split(",")(2).toInt)) 表示：lines这个RDD中每个元素被split()函数拆分成3个字符串，保存到数组中，然后，把数组中的第1个元素和第3个元素取出来放到新的RDD中，.toInt的作用是把String类型的成绩值转变成Int类型，可以进行运算。

mapValues(x => (x,1))表示：构建(key, value)类型的键值对，其中，key表示Int类型的成绩，value表示数字"1"。

reduceByKey((x,y) => (x._1+y._1, x._2+y._2))表示：x._1+y._1表示把key(成绩)相加，x._2+y._2表示把value(数字“1”)相加。

mapValues(x => x._1/x._2)表示：总成绩/科目总数

values表示：返回value值（即平均成绩）。

（4）求每名同学的选修的课程门数；

数据大概如下，仅展示部分结果如图:

（5）该系 DataBase 课程共有多少人选修；

（6）各门课程的平均分是多少；

（7）使用累加器计算共有多少人选了 DataBase 这门课。

http://www.niftyadmin.cn/n/2762488.html

相关文章

浅谈datagrid详细操作单元格样式

浅谈datagrid详细操作单元格样式

http://www.easyui.info/archives/470.html 今天有朋友问到：“如果设置列标题居中而列内容居右显示？”，仔细查了一下api，目前版本提供了两个相关的列属性，align和styler。align属性设置后会让列标题和列内容的对齐方式…

阅读更多...

SAP S4 统计型成本要素

SAP S4 统计型成本要素

SAP 会计科目体系中把会计科目和成本要素统一到FS00中，那么在某种情况下用到的 90型成本要素，如何设置？ 答案： （1） SAP只能对资产科目和物料科目可供设置成90型成本要素； 物料科目设置为90型成…

阅读更多...

假期学习【五】RDD编程实验四

假期学习【五】RDD编程实验四

今天完成了实验四的第二问和第三问第二题对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。输入文件 A 的…

阅读更多...

microsoft office 2010 完全卸载工具来自微软官方

microsoft office 2010 完全卸载工具来自微软官方

来自微软自家的Office卸载工具，支持Office 2010卸载。可以彻底解决Office卸载不了或卸载不干净的问题。下载地址： http://www.400gb.com/file/119385617 另有如下，在我的其它文章里。

阅读更多...

加一度强烈推荐：信息流广告精准投放大杀器

加一度强烈推荐：信息流广告精准投放大杀器

最近，在信息流群中，经常看到有人抱怨说“信息流客户商品量大，每天光上创意就累死了，效果还不好优化，流量也明显偏低”。所以，对此加一度向大家推荐一款信息流产品——闪投。不仅能解决人力成本高的问题&am…

阅读更多...

SAP S4 实施会计科目表的实施方法论

SAP S4 实施会计科目表的实施方法论

会计科目表是财务配置和开发的基础，会计科目表确定的越晚对项目的不利影响越大。实施过程中，在系统配置前就要完成会计科目表设计以及新旧系统的会计科目映射工作，后续新旧系统的会计科目表保持同步更新，这样才是一个正常的项目…

阅读更多...

假期学习【六】Python网络爬虫2020.2.4

假期学习【六】Python网络爬虫2020.2.4

今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫，了解了网络爬虫的相关规范。案例：京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 #注释. *代表所有 /代表根目录 robots协议 http://www.baidu.com/robots.txt 百度 http…

阅读更多...

HDU 1283 最简单的计算机

HDU 1283 最简单的计算机

最简单的计算机 Problem Description 一个名叫是PigHeadThree的研究组织设计了一台实验用的计算机，命名为PpMm。PpMm只能执行简单的六种命令A，B，C，D，E，F；只有二个内存M1，M2&#xff…

阅读更多...

最新文章