关于AVC最新报告聚类统计图的一些解释

显示全部楼层 · 发表于 2011-4-14 11:45:54

写在前面的话：这与杀软本身没有必然的关联，仅作为困惑者或好学者的进一步了解及学习：）

当看到本次报告时，除了成绩报告本身以外，让我注意到的是那张系统聚类的图，估计跟我专业有所相关的原因吧，对这张图特别好奇;-)

只是找了通篇测试报告也没有看到关于这图的进一步相关说明，于是又一次连线AVC官方询问了一下。得到的回复如下：

Hi,

it does simply create groups of the items which are similar to each other. So, the products within one cluster are more similar to each other (similar results) than compared to another cluster. E.g. 1,2,4 – 16,19,23,25 – 145,151,159: here you can easily see that the clusters are grouping numbers which are near to each other (in this case 3 clusters). This was just a simple example and not statistical theory ;)

大体意思就是说通过聚类分析把成绩相仿的杀软聚为一类，从图中我们也可以比较清晰的可以看到同为99+的GD和TP被首先化为了一类，同样ESET、Avira、escan也被分为了一类。说到这里我想估计有一些眼力比较好的饭友估计会笑了——这个我早就发现了:(

嗯，的确，看到这样的回复我也多少懊悔了一下自己的眼力

不过，也让我注意到了这个聚类图的一些小问题：

细心的话可以看到聚类的结果绝大多数都是正确的，只有Kaspersky的聚类结果有点牵强，或者可以说是错的（应该与咖啡的成绩相近）但是我这里要说明的是这就是系统聚类本身的特点，不能说是AVC报告的错漏，因为不管是什么分类方法都不能保证对于所有样本（在这里即是杀软）的分类是正确的。

看到这样的分类其实多少有点小失望，不是因为错误的分类，而是因为本想着这是针对每款杀软查杀样本性质（类型）进行的聚类，这样的话可以对杀软本身的特性有更深入的了解（当然实际上杀软针对各类病毒的反应也不是那么简单就能反应出来的）结果只是成绩的聚类

……

有兴趣了解的TX可以查询一下系统聚类的相关内容，对于大多数非专业人士而言百度百科、知道里的内容就足够了，结果可以通过SPSS或者其他相关软件模拟获得。

附：系统聚类树图百度知道http://zhidao.baidu.com/question/12585889.html

显示全部楼层 · 发表于 2011-4-14 11:58:33

前排学习。

显示全部楼层 · 发表于 2011-4-14 12:18:54

本帖最后由 sun2009 于 2011-4-14 12:20 编辑

如果要进行统计学的聚类，必须先定义一系列特征，再根据这些数据构出各软件的关系图，也就是一种树。目前最好的方法是通过贝叶斯法（Bayesian inference）构出这样的关系树，当然也可以通过一些统计学软件如Statistica或SPSS进行主成分分析，然后再找出各杀毒软件的关系，进而构出关系树。不过目前最好的还是用贝叶斯法进行，事实上，用目前的数据已完全能用统计学方法构成这样的关系树了，当然以后数据越多，得到的结果越准确。等以后有空且数据达到一定量时，我可能会用这两种统计学方法找一下各类软件的关系。在这方面有兴趣的朋友也可以试试。

显示全部楼层 · 发表于 2011-4-14 12:26:27

AVC对于成绩的统计能力需要进一步强化。

显示全部楼层 · 发表于 2011-4-14 12:39:02

对SPSS有点抗拒

如果要从杀软性质聚类的话光看OD测试肯定是得不到的
我反复对比kaspersky和fs,panda,avast等四项不同种病毒的检出率都找不到卡巴被分到这里一群的理由：i

显示全部楼层 · 发表于 2011-4-14 12:50:37

回复 3楼 sun2009 的帖子

现在用的应该只是简单的系统聚类而已，毕竟也不是进行太复杂的数据分析，只是想把检测率相近的放到一起而已
不过关键是得有检测的相关数据才能够进行分析的，具体的统计这块我其实了解的不多，也就稍微学过一点，贝叶斯上过课不过因为数学基础的问题基本放空了

显示全部楼层 · 发表于 2011-4-14 12:51:47

回复 5楼 hj5abc 的帖子

应该就是分类上的缺陷而已……
SPSS我也不太喜欢，操作方式上我更倾向于Excel，只不过很多统计分析用不了

显示全部楼层 · 发表于 2011-4-14 12:52:01

本帖最后由 sun2009 于 2011-4-14 12:52 编辑

hj5abc 发表于 2011-4-14 12:39
对SPSS有点抗拒
如果要从杀软性质聚类的话光看OD测试肯定是得不到的
我反复对比kaspersky和fs,pa ...

可以把杀软的性质一个方面作为一个特征，不同的杀软在这个特征上有不同的表现，把这些不同的表现进行编号，作为不同的状态。这样就找到了其中的一个变异点。再按照类似的方法找更多的变异点（如速度、查杀率、监控方式等），然后把每一种杀软件的特征和表现都用一组数据来表达，最后构出反映各杀软之间关系的BI树、ML树等。不知在国际上有无一些杂志供这种结果进行发表，如果有的话，感兴趣的朋友可以一试。可能会有意想不到的结果。

显示全部楼层 · 发表于 2011-4-14 12:54:53

回复 8楼 sun2009 的帖子

需要的数据太多了……而且如果了解了每个杀软本身的内部机制的话这些东西似乎也就变得没那么必要了，可以根据机制来判断

显示全部楼层 · 发表于 2011-4-14 12:57:24

我就说这图表我好像从哪儿见过，一翻SPSS的教材和笔记，果然了然了

[其他相关] 关于AVC最新报告聚类统计图的一些解释

本帖子中包含更多资源

评分

浏览过的版块