关于瑞星新统计学习引擎的DT算法和SVM算法的理解

显示全部楼层 · 发表于 2013-11-9 17:01:38

本帖最后由雾生镜于 2013-11-9 17:45 编辑

首先DT就是一种被用到烂的传统的统计学习分类方法，
从数学理论上来说SVM要比这个DT高出十个档次，因为SVM这玩意在数学上涉及的理论性的东西要比DT复杂的多。
在统计学习理论中
第一相比较SVM，DM需要更大量的样本集来进行训练（传统的统计学原理和SLT不同，传统的统计学原理研究是样本趋于无限的渐近理论），还有对样本的分布形式要求较高
第二 DM是遵循ERM经验风险最小化原则，通常的实际中的结果就是经验风险最小置信区间很大。所以会产生过度拟合分类不精确。导致在实际检测样本时不准确性和误报
SVM理论上则没有这样的缺点
SVM使用了泛化误差界这样的统计方法，所以能够处理小量规模的训练样本使泛化误差上界最小
DT算法虽然也是统计学原理但是从理论上来说这种算法没有办法找到最小的决策树来解决过度拟合的问题，这是缺陷
但是简单易用是DT的优点
什么分类的精度和误报都要比SVM控制的好这完全就是在扯淡
事实上SVM这种学习方法在目前SLT(统计学习理论)里是最优秀的，SLT相比较于传统的统计学有很多的优势，而且SLT有着严格的数学基础作为支撑可以说很完美
有个很著名的模式识别的实验对比经常被用在各种应用数学计算机数学的论文中就是贝尔实验室利用美国邮政标准手写数据库（可识别性很差的一个数据库），人工识别平均错误率是2.5%，专门针对该特定问题设计的DT决策树的错误率为16.2%，5层神经网络错误率为5.1%(其中利用了大量先验知识)，而用3种SVM方法(采用3种核函数)得到的错误率分别为4.0%、4.1%和4.2%

显示全部楼层 · 发表于 2013-11-9 18:05:04

对于你的理解我不是很明白你可以看看官方对这种引擎的解释

显示全部楼层 · 发表于 2013-11-9 19:11:19

感谢科普，楼主应该是数学专业的，不知道我说的对不

显示全部楼层 · 发表于 2013-11-9 19:29:59

DT的精度的确高，而且抗干扰能力好。

显示全部楼层 · 发表于 2013-11-9 19:32:17

4楼没点数学基础就不要发这种搞笑的结论了好吗

显示全部楼层 · 发表于 2013-11-9 19:44:28

@麦青儿请官人解答~

显示全部楼层 · 发表于 2013-11-9 19:45:53

本帖最后由 hez2010 于 2013-11-9 19:49 编辑

SVM 虽然先进，但是用此算法需要大量的白名单支持，不然误报严重。。。
好了不要讨论这个问题了，很无聊，浪费精力，而且还没有什么意义，，，管他用什么算法，有效果就行。。。
听说貌似瑞星的引擎是基于Data Mining的

显示全部楼层 · 发表于 2013-11-9 20:03:09

你果然看不懂1楼在说什么，DT那玩意要在用来做高查杀的引擎误报更加严重！还Data Mining

显示全部楼层 · 发表于 2013-11-9 22:30:53

天书，楼主是哪所大学？研究生？。。。。

显示全部楼层 · 发表于 2013-11-9 23:27:28

雾生镜发表于 2013-11-9 20:03
你果然看不懂1楼在说什么，DT那玩意要在用来做高查杀的引擎误报更加严重！还Data Mining

具体什么算法不清楚人家没说也可能都用了

[瑞星] 关于瑞星新统计学习引擎的DT算法和SVM算法的理解

评分