奋学网> 资格证考试试卷 >电大网教 >南开大学 >试卷详情

南开大学物联网工程专业《大数据开发技术（二）》作业及答案1

搜题

1、GraphX中()方法可以查询顶点信息

A.numVertices

B.numEdges

C.vertices

D.edges

本题答案：
C

2、MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法()训练回归树

A.trainClassifier

B.trainRegressor

C.LogisticRegressionModel

D.LabeledPoint

本题答案：
B

3、以下哪个函数可以对RDD进行去重()

A.sortBy

B.filter

C.distinct

D.intersection

本题答案：
C

4、图是一种数据元素间为()关系的数据结构

A.多对多

B.一对一

C.一对多

D.多对一

本题答案：
A

5、GraphX中()方法可以查询度数

A.degrees

B.degree

C.vertices

D.edges

本题答案：
A

6、Scala中()方法返回一个列表，包含除了第一个元素之外的其他元素

A.head

B.init

C.tail

D.last

本题答案：
C

7、GraphX中graph.triplets可以得到()

A.顶点视图

B.边视图

C.顶点与边的三元组整体视图

D.有向图

本题答案：
C

8、spark-submit配置项中()表示启动的executor数量

A.--num-executors NUM

B.--executor-memory MEM

C.--total-executor-cores NUM

D.--executor-coures NUM

本题答案：
A

9、()是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上

A.SparkR

B.BlinkDB

C.GraphX

D.Mllib

本题答案：
A

10、Spark GraphX中类Graph的collectNeighborIds(edgeDirection： EdgeDirection)方法可以()

A.收集邻居顶点的顶点Id和顶点属性

B.收集邻居顶点的顶点Id

C.向指定顶点发送信息并聚合信息

D.将顶点信息更新到图中

本题答案：
B

11、Mllib中线性会馆算法中的参数reParam表示()

A.要运行的迭代次数

B.梯度下降的步长

C.是否给数据加干扰特征或者偏差特征

D.Lasso和ridge的正规化参数

本题答案：
D

12、Scala列表方法中通过给定的方法将所有元素重新计算的方法是()

A.filter

B.foreach

C.map

D.mkString

本题答案：
C

13、Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是()

A.filter

B.flatten

C.grouby

D.flatmap

本题答案：
B

14、GraphX中()方法可以释放顶点缓存

A.cache

B.presist

C.unpersistVertices

D.edges.unpersist

本题答案：
C

15、Spark GraphX中类Graph的aggregateMessages方法可以()

A.收集邻居顶点的顶点Id和顶点属性

B.收集邻居顶点的顶点Id

C.向指定顶点发送信息并聚合信息

D.将顶点信息更新到图中

本题答案：
C

16、MLBase包括()

A.Mllib

B.MLI

C.SparkR

D.GraphX

本题答案：
AB

17、Spark创建DataFrame对象方式有()

A.结构化数据文件

B.外部数据库

C.RDD

D.Hive中的表

本题答案：
ABCD

18、TF-IDF中IDF指的是()

A.词频

B.词在文档中出现的次数

C.逆文档概率

D.词在文档集中出现的概率

E.词在文档集中出现的概率

本题答案：
CD

19、Spark中DataFrame的()方法是查询指定字段的数据信息

A.select

B.selectExpr

C.col

D.apply

本题答案：
ABCD

20、以下算法中属于监督学习算法的是()

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans

本题答案：
ABC

21、以下哪个方法可以从集合中创建RDD()

A.parallelize

B.makeRDD

C.textFile

D.loadFile

本题答案：
AB

22、Scala函数支持()

A.递归函数

B.高阶函数

C.柯里化

D.匿名函数

本题答案：
ABCD

23、GraphX中Edge边对象存有()字段

A.srcId

B.dstId

C.attr

D.val

本题答案：
ABC

24、Spark中的RDD的说法正确的是()

A.弹性分布式数据集

B.是Spark中最基本的数据抽象

C.代表一个可变的集合

D.代表的集合里面的元素可并行计算

本题答案：
ABD

25、Spark支持使用()语言编写应用

A.Scala

B.Python

C.Java

D.R

本题答案：
ABCD

26、Scala中高阶函数可以使用函数作为参数，也可以使用函数作为输出结果。()

A.正确

B.错误

查看答案

27、RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。()

A.正确

B.错误

查看答案

28、RDD的filter过滤会将返回值为true的过滤掉。()

A.正确

B.错误

查看答案

29、RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。()

A.正确

B.错误

查看答案

30、图(Graph)是一种复杂的非线性结构。()

A.正确

B.错误

查看答案

31、Spark中DataFrame的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action操作才会进行计算并返回查询结果。()

A.正确

B.错误

查看答案

32、RDD的map操作不会改变RDD的分区数目。()

A.正确

B.错误

查看答案

33、Scala集合分为可变的和不可变的集合。()

A.正确

B.错误

查看答案

34、Spark RDD是惰性求值的，如果需要对一个RDD多次使用，那么调用行动操作时每次都需要重复计算RDD以及它的依赖。()

A.正确

B.错误

查看答案

35、Scala列表与数组非常相似，列表的所有元素可具有不同的类型。()

A.正确

B.错误

查看答案

36、Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是()

查看答案

37、Mllib中线性会馆算法中的参数reParam默认值是()

查看答案

38、假设集合A有5个元素，集合B有10 个元素，使用RDDcartesian函数会返回()个元素的组合

查看答案

39、Scala中定义函数的关键字是()

查看答案

40、Spark SQL可以通过()方法将HDFS上的格式化文件转换为DataFrame

查看答案

41、请阐述Spark对数据进行持久化的特点

查看答案

42、SparkR(名词解释)

查看答案

43、DStream(名词解释)

查看答案

南开大学物联网工程专业《大数据开发技术（二）》作业及答案1

相关分类

最近更新试卷