假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是( )
这个被重复的特征在模型中的决定作用会被加强
模型效果相比无重复特征的情况下精确度会降低
如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题
NB可以用来做最小二乘回归
以上说法都不正确
朴素贝叶斯的条件就是每个变量相互独立. 若高度相关的特征在模型中引入两次, 这样增加了这一特征的重要性, 则它的性能因数据包含高度相关的特征而下降。正确做法是评估特征的相关矩阵,并移除那些高度相关的特征。