字面式解读Malware Protection Test

显示全部楼层 · 发表于 2017-8-16 22:19:56

先说明，这存在字面式（不全）解（误）读，请大佬们见谅指正。
另外如果发错区，请管理帮忙专转区。

AV-C的测试理念——谷歌翻译：
我们前几年进行的文件检测测试是仅检测测试。也就是说，它
仅测试安全程序在执行之前检测恶意程序文件的能力。这个
能力仍然是防病毒产品的重要特征，对于任何人来说，这是必不可少的。
想要检查文件是否无害，然后将其转发给朋友，家人或同事。
此恶意软件防护测试不仅检查参与程序的检测率，但是
也是他们的保护能力，即防止恶意程序实际制作的能力
更改系统。在某些情况下，防病毒程序可能无法识别恶意软件样本
当它处于非活动状态时，它将在运行时识别它。另外还有一些AV产品使用
行为检测来查找和阻止程序尝试进行系统更改
典型的恶意软件。我们的新的恶意软件防护测试衡量安全产品的整体能力
无论是在执行之前还是之后，都可以保护系统免受恶意程序的攻击。它
补充了我们的真实世界保护测试，其来自实时URL的恶意软件样本，
允许URL阻止程序等功能发挥作用。恶意软件防护测试有效
将通过局域网或可移除的恶意软件复制到系统中
媒体如USB闪存盘（而不是通过互联网）。两个测试都包括执行任何
其他功能未检测到恶意软件，从而允许“最后一道防线”功能进入
玩。
云检测机制的意义之一是：恶意软件作者不断
寻找新的方法来绕过检测和安全机制。使用云检测
供应商可以实时检测和分类可疑文件，以保护用户
目前未知的恶意软体。将保护技术的一些部分保留在云中防止
恶意软件作者迅速适应新的检测规则。

换句话说，Real-World Protection Test（真实世界保护测试）的测试方式是带恶意样本的URL，看起来的确是相当日常的病毒入侵方式，然而个人认为这个测试方式问题在于可以单纯的拉黑URL，于是估计就变成了“钓鱼网站检出率测试”或者“恶意网页拉黑大战”这样的性质。可以参考去年骚护士的惨淡成绩，和其对于其惨淡成绩的说（吐）明（槽）——http://bbs.kafan.cn/thread-2070184-1-1.html

而现在，文件检出测试的改进版，Malware Protection Test来了，和以前相比，文件检出玩出了新花样，还添加了执行拦截测试，同时保留了检出误报测试。和Real-World Protection Test相比，测试的时候样本集不再位于URL，而是本地。
三月份测试基本上就是37999个样本，经过断网/联网扫描之后，杀剩下的样本就进行执行测试看看能不能拦截或者回滚，要是需要用户决定是否拦截，则在评定拦截率时赋予一半的拦截率（示例：十个威胁我全都有反应，但是有四个需要用户来确定是否拦截，那样的话评定的拦截率就是60%+40%*50%=80%）。
顺带提一下参测OEM情况：
BD系：Adaware, BullGuard,Emsisoft, eScan, F-Secure, Lavasoft, Seqrite, 腾讯 (参测的是国际版) and VIPRE。
Avast系：AVG已经是Avast的改名版本。

测试结果：
断网检出率：
很多厂商都有不同程度的检出率下降，传说中的红伞和卡巴斯基的降幅比较严重。
赛门铁克（旗下诺顿）威力大削，咖啡个人版断网变得非常弱，Panda和趋势更是降低到“摆设”等级，在摆设中趋势又是最惨的一个。
要注意的是，没有因为断网而降低检出率的杀毒，不一定是不需要云，或许是云在这些产品赋予的功能有限（点名ESET），甚至可能是云本身鸡肋（点名除FS以外的一票子BD系）

联网检出方面：

趋势也是最惨的，CS新秀暂且不论，所以趋势是唯一一个拿不到99%的老牌杀毒。似乎腾讯在检出方面靠BD吃饭性质一下子看出来了，毕竟联网也还是这样子。而红伞和卡巴斯基则继续延续着传说并列第一……

然而执行测试，发威了，这些样本只有趋势和赛门铁克实现了全部防御，其中，只有趋势实现了完全自动防御，所以第一；赛门铁克由于需要用户确定项目太多，总判定拦截率倒退中段。
红伞遗漏5个，卡巴遗漏6个，熊猫遗漏7个分别排在第二三四位，Avast, AVG,BullGuard,eScan一起第五位。
腾讯的话看起来在九个OEM-BD系中遗漏排在第四21个（第一是Emsisoft只有5个，第二是BullGuard,eScan12个，第三是Seqrite14个，不过有趣的是似乎OEM-BD系的前三位反吃主人，Bitdefender是遗漏18个）看来主防也不全是摆设。

ESET倒数第五，不过也抢到了99.7%，并且ESET表里如一，看来ESET的启发式非常高效同时建议大家ESET过了扫描就九成半别双击。

关键在于一路到最终执行的最终拦截率，理论上无遗漏就是胜利，可以看到最终颁奖登顶的是Avira和卡巴斯基，还有大部分的BD系！100%自动拦截趋势妥妥地降到了第二奖项梯队（误报过多降一级），也有无遗漏的赛门铁克妥妥地降到了最低等级（误报倒数第二，并且非常多，直接降到最差的“已测试”梯队）。Avast、AVG位于第二梯队（误报过多降一级），EMSI也在第二梯队。第三梯队则是ESET（误报控制优秀，虽然并不加分）、微软（误报控制优秀，虽然并不加分）和迈克菲。

总体来说，AV-C的Malware Protection Test相比Real-World Protection Test还是原来的文件检出率测试都要好很多。

显示全部楼层 · 发表于 2017-8-16 23:22:12

三星级的产品确实挺多的，看来杀软的水平是越来越接近了。

显示全部楼层 · 发表于 2017-8-16 23:31:01

本帖最后由 B100D1E55 于 2017-8-16 23:41 编辑

没意识到rwt是url测试。不过我觉得还是要看测试者到底多严谨：如果测试样本都是有效的恶意url，同时防御失败指代病毒payload已经成功穿透防御机制并运行，那么怎么辩解都是没用的（从avc测试来看，rwt每次测试样本集都很小，大概400个，应该要能保障这点）。拉黑url也好，通过漏洞侦测抵御也好，能防御就是能防御，没能力拉黑也只能说明自家云侦测/客户端点部署仍旧有缺陷。
当然如果样本质量无法保证，那么这种测试就没戏了。。我觉得avc不至于这么low

同时我个人觉得侦测率普遍高说明这种测试还是难以反映真实世界测试结果（已经错过样本活跃时效了）。最后一点：很好奇他们是如何做到自动化测试并评判拦截失败与否的，毕竟有三万个样本和10个以上待测产品
从过去我个人长期测试来看，eset双击测试AMS会带来大量额外的侦测。而AVC的malware test结果刚好相反，ESET双击不双击都差不多。这很有可能是因为样本过老而早就被eset入库了。一般初期AMS侦测到的几天后会被eset入库，如果是这样，说明malware test的样本都不具有很强时效性，杀软们的99.9%也很正常。现实生活中99.9%的侦测率是痴心妄想，RWT这种频繁的小样本集（高时效性）测试也就很有必要了

显示全部楼层 · 发表于 2017-8-17 00:39:01

单就fs没有因误报而降级这一点就足以证明楼上分析的依据是正确的了。如果不误报，那多半就是BD库收录了。

显示全部楼层 · 发表于 2017-8-17 07:07:19

本帖最后由 PanzerVIIIMaus 于 2017-8-17 07:23 编辑

B100D1E55 发表于 2017-8-16 23:31
没意识到rwt是url测试。不过我觉得还是要看测试者到底多严谨：如果测试样本都是有效的恶意url，同时防御失 ...

的确，MPT并没有强调0-Day，文档注明样本收集于二月底停止了，而是强调是否断网检出和额外防线的区别，不过如果把能察觉的全部入库，想要得知差距就没戏了。
另附：RWT的测试者在文档注明，测试时URL和样本本身全部有效。

另附2：他们是过了扫描，然后剩下的才进行双击测试，那样剩下的也不会有多少，剩下最多的也就新秀CS那两千来个

另附3：另外对于URL测试的弊端，个人认为是专门优化相对容易，低分的就是低分说明这一次一堆样本根本没反应这没话头，问题的在于高分那堆，AV-C没有注明是因为哪一类防线才拦截的，这恰好就可以在成绩的判定上钻空子了。AV-C对于RWT的注解说明是他们通过“爬虫网络+特定签约商”收集到的样本。爬虫网络搜索是优先级最高的，也不止AV-C懂得使用。

显示全部楼层 · 发表于 2017-8-17 09:52:21

PanzerVIIIMaus 发表于 2017-8-17 07:07
的确，MPT并没有强调0-Day，文档注明样本收集于二月底停止了，而是强调是否断网检出和额外防线的区别，不 ...

我觉得mpt缺乏现实意义，基本上只能考察杀软入库的广度和完整度。这在10年前恐怕还有参考价值，换做现在那种批量生产的免杀，只要一杀马上就在源头换新文件，生命周期可以低至数个小时，让mpt这种测试已经和现实完全脱节了。
真正有说服力的测试应该是每天进行，样本数可以不那么多，但是需要持续mi-guan/爬虫跟踪并且记录当期各家的反应速度（跟踪卡饭毒区统计miss可能都要比那种月度静态测试要更有参考价值一点，就算不考虑采样问题，时效性至少更好）。
URL测试其实算一个进步（可以考察drive-by之类的渠道，更综合地考察了多层防线而不仅仅是扫描+行为），但是判定感染是否生效之类的相对复杂。rwt大概是每日跟踪持续测试的？否则月初收集的恶意url到月末若还活着简直不能想象
NSSLab似乎也有这种持续的每日跟踪测试，但是NSSLab近期也是丑闻缠身，遭到很多厂商的摒弃，而且很多测试结果并不公开……
最后的最后，样本采样偏差、以及“签约商”

提供的样本公信度能有多高就是个黑盒了

显示全部楼层 · 发表于 2017-8-17 10:17:02

从评测区的测试看，红伞如果面对的是比较新的样本的话，凭借略微过时的病毒库，离线侦测率还是很难看的。所以个人觉得AVC这种测试看看就好，基本没多大的现实参考价值。诚如楼上所说，现在的样本更新速度肥肠快，传统的离线检测、周期更新已经不能完全应对了，引入云是很有必要的

显示全部楼层 · 发表于 2017-8-17 10:52:48

B100D1E55 发表于 2017-8-17 09:52
我觉得mpt缺乏现实意义，基本上只能考察杀软入库的广度和完整度。这在10年前恐怕还有参考价值，换做现在 ...

大概了解情况了

显示全部楼层 · 发表于 2017-8-17 10:53:49

solstice1988 发表于 2017-8-17 10:17
从评测区的测试看，红伞如果面对的是比较新的样本的话，凭借略微过时的病毒库，离线侦测率还是很难看 ...

的确，测试中也能看到红伞和卡巴斯基的离线检出难看了点

显示全部楼层 · 发表于 2017-8-17 11:02:06

PanzerVIIIMaus 发表于 2017-8-17 10:53
的确，测试中也能看到红伞和卡巴斯基的离线检出难看了点

所以说相比AVC的RWT，卡饭这个更接近RWT，所以云的重要性可见一斑
PS：楼主ID不错

[讨论] 字面式解读Malware Protection Test

本帖子中包含更多资源

评分