2024秋最新国家开放大学国开电大机考期末5大数据预处理试卷机考期末试卷参考试题
来源:渝粤教育 时间:2025-01-11 06:35:04 12
20230506大数据预处理试卷-03
关注公众号【飞鸟搜题】,回复【试题】获取试卷答案
文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用,会给您节省大量的时间。做考题时,利用本文档中的查找工具,把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案,敬请查看。
课程题目试题是随机的,请按题目关键词查找(或按Ctrl+F输入题目中的关键词,尽量不要输入整个题目,不要复制空格,连续的几个字就行)
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
一 、单选题
1. 下列选项中,属于将连续型变量离散化为定性变量具有的作用的是()。
适应算法的需要。
消除数据中的异常值。
填补数据中的缺失值。
提高数据的准确性。
答案:A
- 关注公众号【飞鸟搜题】查看答案
2. 下列表述中,正确的是()。
含有缺失值的变量必须被剔除
数据缺失的原因是该数据不存在。
数据缺失会造成模型解释能力下降。
非随机缺失类型是指数据的缺失仅仅依赖于其它变量。
答案:C
- 关注公众号【飞鸟搜题】查看答案
3. 哑变量也可以被称作()。
连续型变量
多分类变量
0-1型变量
数值型变量
答案:C
- 关注公众号【飞鸟搜题】查看答案
4. Robust缩放公式为()。
Xscaled=X−X-S。
Xscaled=X−X-。
Xscaled=XXmax。
Xscaled=X−MedianIQR。
答案:D
- 关注公众号【飞鸟搜题】查看答案
5. 下列关于数据归约的表述中,不正确的是()。
过多的数据会导致模型训练效率低下。
在进行数据分析前可以通过数据归约简化数据。
为了简化数据,可以允许损失较多的信息。
在样本量增加到一定程度后,信息含量趋近于不变。
答案:关注公众号【飞鸟搜题】查看答案
6. 确定某个数据是否为异常值时,需要比较该值与()的距离。
平均值
中值
最大值
最小值
答案:关注公众号【飞鸟搜题】查看答案
7. 下列关于数据预处理的表述中,不正确的是()。
具备专业经验的数据科学家可以在数据分析前忽略数据预处理。
数据预处理是在数据采集后,分析前这段时间里对数据进行的处理操作。
数据预处理的效果与数据分析顺利与否直接相关。
数据预处理往往占据数据分析项目总工作量的60%以上。
答案:关注公众号【飞鸟搜题】查看答案
8. 下列关于数据中心化的表述中,不正确的是()。
中心化后,平均值大于0。
中心化后,标准差没有发生改变。
中心化后,极差没有发生改变。
中心化后,分布形状没有发生改变。
答案:关注公众号【飞鸟搜题】查看答案
9. 下列表述中正确的是()。
低频分类数据可能是由于真实的分类结果确实存在低频分类。
处理低频分类数据的唯一方法是将这些数据删除。
低频分类数据全部是采集数据时格式不规范或错误所导致的。
低频分类数据通常呈现出类别很少,且很多类别仅有几个甚至一个样本的情况。
答案:关注公众号【飞鸟搜题】查看答案
10. 关于在计算机系统中的日期时间型数据,下列说法正确的是()。
日期时间型数据是以文本形式存储的。
日期时间型数据是以缺失值形式存储的。
日期时间型数据以“1970年1月1日0时0分0秒”这个时间点为0。
在Python中,datetime模块不支持日期和时间的数学运算。
答案:关注公众号【飞鸟搜题】查看答案
二 、判断题
1. 异常值的数值可能是真实的值。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
2. Robust缩放不易受极端值影响。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
3. Pearson相关系数的值在[0,1]之间分布。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
4. 多分类定性变量可以转变为哑变量。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
5. 日期时间型数据不能进行任何计算。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
6. 在数据存储过程中,由于设备故障造成存储失败而导致的数据缺失,属于机械原因。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
7. 如果输入数据是连续型数据,使用决策树模型时,需要将连续型变量离散化为定性变量使用。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
8. 过多的低频类别会严重影响建模的效率。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
9. 使用LASSO算法可以进行变量选择。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
10. 具有不同的数据特征的变量不能直接纳入到同一个分析体系中。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
三 、问答题
1. 请简述大数据预处理的目标。
答案:关注公众号【飞鸟搜题】查看答案
2. 请简述数据归约的概念及其形式。
答案:关注公众号【飞鸟搜题】查看答案
四 、填空题
1. 使用Lasso算法进行变量选择: Lasso_model = Lasso(alpha=0.03, random_state=0) lasso_model. fit (train_x, train_y) coef = pd.Series(lasso_model.coef_ ,index=train_x.columns) var_lasso = coef[coef. ].index
ne(0)
答案:关注公众号【飞鸟搜题】查看答案
2. 对数据集data中的所有变量进行Min-Max缩放,结果保存在data_scale中: mm_scaler = () data_scale = mm_scaler.fit_transform(data)
MinMaxScaler
答案:关注公众号【飞鸟搜题】查看答案
3. 对序列B进行中心化,结果保存在centralize_b中: scaler = StandardScaler( =False) centralize_b = scaler.fit_transform(B)
with_std
答案:关注公众号【飞鸟搜题】查看答案
4. 请将定性变量序列s其转换为哑变量,每个哑变量的变量名均以字母d开头,并将结果存储于数据框df中: df = pd.get_dummies(s, prefix= )
"d"
答案:关注公众号【飞鸟搜题】查看答案
5. 截取保存了地址的变量addr的前三个字,并查看其唯一值情况: addr. (0, 3).unique()
str.slice
答案:关注公众号【飞鸟搜题】查看答案
6. 计算变量y与x的Spearman相关系数: Spearman_xy = (y, x)
spearmanr
答案:关注公众号【飞鸟搜题】查看答案
7. 对数据序列d1采用等宽分箱,分组数为7组,结果保存在d2中: d2 = pd. (d1, bins=7)
cut
答案:关注公众号【飞鸟搜题】查看答案
8. 对boston数据集中的变量LSTAT进行处理,随机选择10个值将其赋值为缺失值: sample = random.sample(range(boston.shape[0]), 10) boston. [sample, "LSTAT"] = np.nan
loc
答案:关注公众号【飞鸟搜题】查看答案
9. 对序列B进行Max-ABS缩放,结果保存在B1中: B1 = pd.Series( (B))
robust_scale
答案:关注公众号【飞鸟搜题】查看答案
10. 在序列d1中以字符串形式存储这日期数据,其格式类似于:"2022/08/28",请将d1中的所有日期转换为日期时间型数据并存储于d2中。 d2 = pd.to_datetime(d1, ="%Y/%m/%d")
format
答案:关注公众号【飞鸟搜题】查看答案
五 、综合题
1. 已知date1为以文本形式存储日期数据的序列,其存储形式形如“2022/12/31”,请写出下方代码的功能 date2 = pd.to_datetime(date1, format="%Y/%m/%d") w = date2.dt.dayofweek weekend = w.isin([5, 6])
答案:关注公众号【飞鸟搜题】查看答案
2. 请写出下方代码的功能 model_all = GradientBoostingClassifier(random_state=0) model_all.fit(X=train_x, y=train_y) feature_imp = pd.Series(model_all.feature_importances_, index=train_x.columns) var_tree = feature_imp.sort_values(ascending=False).head(8).index print(feature_imp.sort_values(ascending=False)) print(" 结果为: %s" % var_tree.values)
答案:关注公众号【飞鸟搜题】查看答案
关注公众号【飞鸟搜题】,回复【试题】获取试卷答案