1、实体识别的常见形式()
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
本题答案:
D
2、例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
本题答案:
B
3、单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
本题答案:
A
4、通过变量标准化计算得到的回归方程称为()
A.标准化回归方程
B.标准化偏回归方程
C.标准化自回归方程
D.标准化多回归方程
本题答案:
A
5、数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
本题答案:
C
6、以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
本题答案:
C
7、层次聚类适合规模较()的数据集。
A.大
B.中
C.小
D.所有
本题答案:
C
8、以下哪个不是处理缺失值的方法()
A.删除记录
B.按照一定原则补充
C.不处理
D.随意填写
本题答案:
D
9、聚类的最简单最基本方法是()
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
本题答案:
A
10、具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
本题答案:
A
11、考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
本题答案:
C
12、在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
本题答案:
B
13、手肘法的核心指标是()
A.SES
B.SSE
C.RMSE
D.MSE
本题答案:
B
14、变量之间的关系一般可以分为确定性关系与()
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
本题答案:
A
15、以下哪一项不属于数据变换()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
本题答案:
C
16、以下哪一项不是特征选择常见的方法()
A.过滤式
B.封装式
C.嵌入式
D.开放式
本题答案:
D
17、通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
本题答案:
C
18、比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A.异常值
B.不一致的值
C.重复值
D.缺失值
本题答案:
C
19、某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
本题答案:
C
20、层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
本题答案:
B
21、K-means聚类中K值选取的方法是()
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
本题答案:
AB
22、数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
本题答案:
ABCD
23、多层感知机的学习过程包含()
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
本题答案:
AD
24、系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
本题答案:
ABC
25、层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
本题答案:
AB
26、距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
27、聚类的主要方法有()
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
28、相关性的分类,按照相关的方向可以分为()
A.正相关
B.负相关
C.左相关
D.右相关
29、对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
30、什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
31、信息熵越大,数据信息的不确定性越小。()
A.正确
B.错误
32、K-means算法采用贪心策略,通过迭代优化来近似求解。()
A.正确
B.错误
33、K-means聚类是发现给定数据集的K个簇的算法。()
A.正确
B.错误
34、特征的信息增益越大,则其越不重要。()
A.正确
B.错误
35、决策树的输入为训练集,输出为以node为根结点的一棵决策树。()
A.正确
B.错误
36、探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。()
A.正确
B.错误
37、sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。()
A.正确
B.错误
38、在数据预处理时,无论什么情况,都可以直接将异常值删除。()
A.正确
B.错误
39、一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。()
A.正确
B.错误
40、当特征为离散型时,可以使用信息增益作为评价统计量。()
A.正确
B.错误
41、支持度是衡量关联规则重要性的一个指标。()
A.正确
B.错误
42、交叉表被广泛用于调查研究,商业智能,工程和科学研究。()
A.正确
B.错误
43、BFR聚类簇的坐标可以与空间的坐标保持一致。()
A.正确
B.错误
44、在树的结构中,特征越重要,就越远离根节点。()
A.正确
B.错误
45、神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。()
A.正确
B.错误
46、多元线性回归模型中,标准化偏回归系数没有单位。()
A.正确
B.错误
47、单层感知机对于线性不可分的数据,学习过程也可以收敛。()
A.正确
B.错误
48、利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。()
A.正确
B.错误
49、EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。()
A.正确
B.错误
50、对于项集来说,置信度没有意义。()
A.正确
B.错误