关于瑞星新统计学习引擎的DT算法和SVM算法的理解

显示全部楼层 · 发表于 2013-11-10 14:56:33

麦青儿发表于 2013-11-10 10:23
你说的很对，SVM算法把ANN打得落花流水，更不用提更老的DT了，谁会去设计更差的算法？
我们不是算法的设计 ...

辛苦了！谢谢了！

显示全部楼层 · 发表于 2013-11-10 14:58:09

终于发现瑞星官方回话了，楼主的帖子中表现出理论知识掌握了一些（学院派？），估计也是数字的人。
瑞星新引擎出来以后，在卡饭里表现得异常兴奋，估计现在正在准备资料，自我感觉良好。呵呵！
发表一下个人看法，算法没有最好，在实际应用中达到最佳效果就可以了。
人工智能算法很多，SVM和DT都属于监督型学习算法。还有广义线性模型（GLM)、梯度下降学习（SGD)、k近邻法( k-NN）、高斯过程（GP)、朴素贝叶斯 (NB)、半监督（SS-x）等等。
无监督学习算法我不在这里罗列了。大家可以网上查资料。
每一人工智能算法都有它的优缺点，使用中与实际应用相结合。关于LZ的一堆数字（估计近期也在充电了不少资料），只能说很偏面。如果是，数字何必用小红伞和BD引擎?。
SVM是连续空间低维至高维映射确定分类间隔边界，DT属于逼近离散函数值方法。
安全厂商使用这类方法，判断病毒的方法没有传统特征码”严谨“，误报（也可以说方法误差）需要其他方法来弥补，需要白名单支持（没有这个措施不要乱用），对未知预测能力比传统方法优势明鲜。
应用关键首先是学习样本的向量化，估计安全厂商技术人员都碰到过，需要大量的尝试。SVM好像好几个厂商都在使用。数字是这个算法最先使用者，近几年跟随的也不少。
第二个关键是样本学习和调整策略。学习修复运营部分瑞星科普讲的不错，局部误差调整DT这种离散性算法有天然的优势，SVM局部变化不会明鲜。弄不好对自己学习的样本也会有误判。
瑞星用的是DT，对其表示鼓励。也鼓励各安全厂商可以尝试各种人工智能算法，或着可以使用多种算法复用。
楼主很忙，对其”嚣张“表示”敬佩“。学无止境。如果是数字的人，可以跟数字的董X和周X（这个周X不是数字老板）探讨，还有跟样本学习运营人员多了解，数字里有很多瑞星”黄埔“生。

显示全部楼层 · 发表于 2013-11-10 15:23:57

科普了！

显示全部楼层 · 发表于 2013-11-10 15:42:31

我笑 22你也逗写那么一大段东拼西凑的话有什么用
还跟我讨论局部误差最小的问题啊，很明显你什么都不懂，局部极小点的问题是各种分类算法都尽量避免的一个误区，你知道为啥传统统计学分类方法里只有泛化误差，而SVM却有泛化误差界吗？
你要知道传统的统计学习分类方法研究是样本趋于无限的渐近理论，只有当样本集的数量是接近无限的时候，所得出来的局部误差才会逼近于全局误差。但是实际中大多数都是小样本规模，训练有限的样本局部误差太小，所导致的全局误差会很大，根本办法用。
而SVM和传统统计学习方法不一样不依赖概率测度，只依赖支持向量找出最大化的几何间隔，得到最小的误差上界这才是最合理的结果。

显示全部楼层 · 发表于 2013-11-10 15:51:16

呵呵，“犟”性不改。还是需要“沉淀”。

显示全部楼层 · 发表于 2013-11-10 16:17:56

25楼我还只是个孩子求你放过我

显示全部楼层 · 发表于 2013-11-10 16:23:52

本帖最后由马灵耀于 2013-11-10 16:42 编辑

LZ的理论知识挺丰富的，强调泛化能力是也就是强调未知预测能力。但实际应用中SVM对样本的质量精选要求比较高。如果假设空间容量越高模型学习难度高。泛化误差上界也就越大。还是跟实际应用中多体验。希望LZ早日实现把数字的SVM泛化误差上界趋于零。

显示全部楼层 · 发表于 2013-11-10 17:12:06

对于样本的数量和分布形式肯定是DT要求的更高
SVM是黑盒处理，DT是白盒到底谁人工干涉的更多？

很明显你还不知道SLT里面的VC维是怎么回事，VC维反应了一个分类函数的复杂度
列如DT之类的统计学习方法是依赖ERM原则的，简单的说用ERM得到的分类函数很复杂（所以DT需要“剪枝”这种粗劣的方法来简化）。
对应到SLT里的VC维就从理论上来说VC维的维度会很高，泛化误差的上界也就大。
不过SVM不存在这样的限制 SVM使用了VC维理论和SRM的原则，而且最重要的是泛函分析里的各种核函数可以巧妙的帮助SVM降维，这是其他的统计学分类方法所无法办到的

显示全部楼层 · 发表于 2013-11-10 17:52:28

哈哈，又沉不住气了？
把DT的剪枝说粗劣，剪枝的目的是不只是简化，而且可以达到更准确的预测。
SVM降维说成巧妙，VC维越大，学习能力就越强，但学习难度高而复杂，理论上可行，但实际应用中需要平衡来对待这个问题。
这两种学习算法在实际应用中运营成本会是怎么样？是不是很好模型控制能力？预测效果怎么样？
说理论没有用，看实际效果吧。

显示全部楼层 · 发表于 2013-11-10 18:00:23

唉看了你的回复觉得你什么都不懂，只会玩文字游戏…

[瑞星] 关于瑞星新统计学习引擎的DT算法和SVM算法的理解

浏览过的版块