楼主: 雾生镜
收起左侧

[瑞星] 关于瑞星新统计学习引擎的DT算法和SVM算法的理解

  [复制链接]
jinglu
发表于 2013-11-10 14:56:33 | 显示全部楼层
麦青儿 发表于 2013-11-10 10:23
你说的很对,SVM算法把ANN打得落花流水,更不用提更老的DT了,谁会去设计更差的算法?
我们不是算法的设计 ...

辛苦了!谢谢了!
马灵耀
发表于 2013-11-10 14:58:09 | 显示全部楼层
终于发现瑞星官方回话了,楼主的帖子中表现出理论知识掌握了一些(学院派?),估计也是数字的人。
瑞星新引擎出来以后,在卡饭里表现得异常兴奋,估计现在正在准备资料,自我感觉良好。呵呵!
发表一下个人看法,算法没有最好,在实际应用中达到最佳效果就可以了。
人工智能算法很多,SVM和DT都属于监督型学习算法。还有广义线性模型(GLM)、梯度下降学习(SGD)、k近邻法( k-NN)、高斯过程(GP)、朴素贝叶斯 (NB)、半监督(SS-x)等等。
无监督学习算法我不在这里罗列了。大家可以网上查资料。
每一人工智能算法都有它的优缺点,使用中与实际应用相结合。关于LZ的一堆数字(估计近期也在充电了不少资料),只能说很偏面。如果是,数字何必用小红伞和BD引擎?。
SVM是连续空间低维至高维映射确定分类间隔边界,DT属于逼近离散函数值方法。
安全厂商使用这类方法,判断病毒的方法没有传统特征码”严谨“,误报(也可以说方法误差)需要其他方法来弥补,需要白名单支持(没有这个措施不要乱用),对未知预测能力比传统方法优势明鲜。
应用关键首先是学习样本的向量化,估计安全厂商技术人员都碰到过,需要大量的尝试。SVM好像好几个厂商都在使用。数字是这个算法最先使用者,近几年跟随的也不少。
第二个关键是样本学习和调整策略。学习修复运营部分瑞星科普讲的不错,局部误差调整DT这种离散性算法有天然的优势,SVM局部变化不会明鲜。弄不好对自己学习的样本也会有误判。
瑞星用的是DT,对其表示鼓励。也鼓励各安全厂商可以尝试各种人工智能算法,或着可以使用多种算法复用。
楼主很忙,对其”嚣张“表示”敬佩“。学无止境。如果是数字的人,可以跟数字的董X和周X(这个周X不是数字老板)探讨,还有跟样本学习运营人员多了解,数字里有很多瑞星”黄埔“生。
10495874
发表于 2013-11-10 15:23:57 | 显示全部楼层
科普了!
雾生镜
头像被屏蔽
 楼主| 发表于 2013-11-10 15:42:31 | 显示全部楼层
我笑 22你也逗 写那么一大段东拼西凑的话 有什么用
还跟我讨论局部误差最小的问题啊,很明显你什么都不懂,局部极小点的问题是各种分类算法都尽量避免的一个误区,你知道为啥传统统计学分类方法里只有泛化误差,而SVM却有泛化误差界吗?
你要知道传统的统计学习分类方法研究是样本趋于无限的渐近理论,只有当样本集的数量是接近无限的时候,所得出来的局部误差才会逼近于全局误差。但是实际中大多数都是小样本规模,训练有限的样本局部误差太小,所导致的全局误差会很大,根本办法用。
而SVM和传统统计学习方法不一样不依赖概率测度,只依赖支持向量找出最大化的几何间隔,得到最小的误差上界这才是最合理的结果。
马灵耀
发表于 2013-11-10 15:51:16 | 显示全部楼层
呵呵,“犟”性不改。还是需要“沉淀”。
雾生镜
头像被屏蔽
 楼主| 发表于 2013-11-10 16:17:56 | 显示全部楼层
25楼我还只是个孩子 求你放过我
马灵耀
发表于 2013-11-10 16:23:52 | 显示全部楼层
本帖最后由 马灵耀 于 2013-11-10 16:42 编辑

LZ的理论知识挺丰富的,强调泛化能力是也就是强调未知预测能力。但实际应用中SVM对样本的质量精选要求比较高。如果假设空间容量越高模型学习难度高。泛化误差上界也就越大。还是跟实际应用中多体验。希望LZ早日实现把数字的SVM泛化误差上界趋于零。
雾生镜
头像被屏蔽
 楼主| 发表于 2013-11-10 17:12:06 | 显示全部楼层
对于样本的数量和分布形式肯定是DT要求的更高
SVM是黑盒处理,DT是白盒 到底谁人工干涉的更多?
很明显你还不知道SLT里面的VC维是怎么回事,VC维反应了一个分类函数的复杂度
列如DT之类的统计学习方法是依赖ERM原则的,简单的说用ERM得到的分类函数很复杂(所以DT需要“剪枝”这种粗劣的方法来简化)。
对应到SLT里的VC维就从理论上来说VC维的维度会很高,泛化误差的上界也就大。
不过SVM不存在这样的限制 SVM使用了VC维理论和SRM的原则,而且最重要的是泛函分析里的各种核函数可以巧妙的帮助SVM降维,这是其他的统计学分类方法所无法办到的
马灵耀
发表于 2013-11-10 17:52:28 | 显示全部楼层
哈哈,又沉不住气了?
把DT的剪枝说粗劣,剪枝的目的是不只是简化,而且可以达到更准确的预测。
SVM降维说成巧妙,VC维越大,学习能力就越强,但学习难度高而复杂,理论上可行,但实际应用中需要平衡来对待这个问题。
这两种学习算法在实际应用中运营成本会是怎么样?是不是很好模型控制能力?预测效果怎么样?
说理论没有用,看实际效果吧。
雾生镜
头像被屏蔽
 楼主| 发表于 2013-11-10 18:00:23 | 显示全部楼层
唉 看了你的回复 觉得你什么都不懂,只会玩文字游戏…
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2025-1-10 01:42 , Processed in 0.094075 second(s), 13 queries .

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表