《云安全》在线系列讲座之三 --- 云安全的悖论

显示全部楼层 · 发表于 2011-3-23 18:55:34

人工判定和自动判定之间，我们更相信谁，答案是显而易见的。

几个主流的判定方法，特征码、规则库（主防）、概率法（QVM），正是人工判定/自动判定的比例逐渐加大的过程。

显示全部楼层 · 发表于 2011-3-23 18:57:58

楼下谁有兴趣把首席的3个讲座给整理下发给我啊，爬楼看真累，不能起到放松心情的效果

显示全部楼层 · 发表于 2011-3-23 18:58:58

nkspark 发表于 2011-3-23 18:45
各位笑死之前，不要一句“不对”就评论完了。

错在那里，为什么错，讲清楚了先。

人工分析的样本从哪儿来？？木马作者自己乖乖上报？显然不可能。于是只有这么几种可能，一个就是有一定水平的高级用户的上报，一个就是厂商自行设立的mi-guan、爬虫，还有就是反病毒联盟厂商的交换。无论是哪一个方式途径，由于受到收集范围限制该样本肯定是in the wild很久了。有多少用户受害，都没法统计。

你的阀值理论更是本身就是一个悖论。
就以卡饭测试为例。按照你的理论，必须要超过比如说1000个用户才会分析。卡饭每天的测试样本几个云都基本上是实时响应，那么按你的理论也就是说卡饭样本早已经出现在客户端了。那为什么不直接提高首次扫描查杀率呢？？非要等二次响应？？还是卡饭的样本每次测试都正好是第1000次发现？？
如果卡饭的样本是很特殊的，也就是没出现在客户端，那么按你的理论云根本不应该响应。

显示全部楼层 · 发表于 2011-3-23 18:59:36

小紫英发表于 2011-3-23 18:57
楼下谁有兴趣把首席的3个讲座给整理下发给我啊，爬楼看真累，不能起到放松心情的效果

他一楼有了，应该经不住推敲啊

显示全部楼层 · 发表于 2011-3-23 19:03:05

本帖最后由小紫英于 2011-3-23 19:03 编辑

回复 104楼悟心之道的帖子

全是散的，要我翻页去找，就算只看作者，也有一些水帖

显示全部楼层 · 发表于 2011-3-23 19:06:42

小紫英发表于 2011-3-23 19:03
回复 104楼悟心之道的帖子

全是散的，要我翻页去找，就算只看作者，也有一些水帖

一、二结论就两句话
“讲座一里边，我们得出一个结论，“云安全”有时候就等于“云抢劫”。
讲座二里边，我们也得出一个结论，“云安全”有时候就等于“云剽窃”。”
很难说他错，错换个侧面
http://bbs.kafan.cn/thread-941102-1-1.html
实际可以说明这不只是云安全软件的问题

明天出差了，没时间玩，你们继续

显示全部楼层 · 发表于 2011-3-23 19:16:48

本帖最后由 nkspark 于 2011-3-23 19:29 编辑

举个例子说明我对这几种判定方法的理解：

目标：判定给定数值如12468、86421，是奇数还是偶数。

一、特征库：
1、已有特征集合：{2，4，6，8，12468}为偶数，{1，3，5，7}为奇数；
2、判定方法：把12468、86421同特征集比对；
3、判定结论：12468为偶数，86421未知；
4、改进方法：人工判定后，将86421加入奇数集合。
5、缺点：你说有就有，你说没有就没有。

二、主防：
1、已有规则集：尾数+2后为0的是偶数，尾数+2后为1的是奇数；
2、判定方法：12468+2 = 0、86421+2 =3；
3、判定结论：12468为偶数，86421未知，交给用户自己判定；
4、改进方法：人工分析后，添加规则尾数+2后为3的是奇数。
5、缺点：很多规则不靠谱，我也知道被2整除为偶数是最好的判定规则，但没办法这个规则用不了，我一除，屏幕就蓝了。

三、QVM：
1、已有向量集合：{2，4，6，8}为偶数，{1，3，5，7}为奇数；
2、判定方法：12468 = {1，2，4，6，8}，其中偶数个数为4，占比80%，奇数个数为1，占比20%。86421={8，6，4，2，1}，其中偶数个数为4，占比80%，奇数个数为1，占比20%。；
3、判定结论：12468为偶数，86421为偶数；
4、改进方法：加入新的维度{当前时间，当前温度，本文回帖数量}。
5、缺点：大家说我象天气预报，但能说出明天降水概率80%已经很不容易了。

显示全部楼层 · 发表于 2011-3-23 19:16:58

nkspark 发表于 2011-3-23 18:55
人工判定和自动判定之间，我们更相信谁，答案是显而易见的。

几个主流的判定方法，特征码、规则库（主 ...

所有一切都是概率。
以MD5为例，其20位16进制数是个有限集合，而无穷多的文件是个无限集合，从无限集合向有限集合映射，一定会产生同一个值的情况。但MD5我们都在用，基本没人担心会有个病毒和正常某白文件MD5值一样。为什么？？因为这种概率太低了，基本可以忽略不计。
同样的特征码也是，以特征字符串和特征偏移值为基础的特征码，本身也是一个有限信息集合，即用特征字符串和特征偏移值去表示整个病毒信息，这显然也会有错误的可能（误报）。但是大家都在用，为什么？？因为这个概率也是很小，尚在可以接受的范围之内。

因此总结一下，不管什么方法，只要他的置信概率能够达到一定水平比如（99.9%），那么我们就完全可以接受这种方法。

显示全部楼层 · 发表于 2011-3-23 19:41:27

回复 107楼 nkspark 的帖子

假如你说的对：

当只有很少的病毒，比如10个，方法一很容易搞定10个，方法三只对80%，搞定8个。

实际病毒Ｎ多。假如1千万个：
人工判定多少呢？10万？100万？200万？
方法三，可轻松识别800万个

另，你说的并不全对。

显示全部楼层 · 发表于 2011-3-23 22:42:58

jefffire 发表于 2011-3-23 18:58
人工分析的样本从哪儿来？？木马作者自己乖乖上报？显然不可能。于是只有这么几种可能，一个就是有一定水 ...

"人工分析的样本从哪儿来？？木马作者自己乖乖上报？显然不可能。于是只有这么几种可能，一个就是有一定水平的高级用户的上报，一个就是厂商自行设立的mi-guan、爬虫，还有就是反病毒联盟厂商的交换。无论是哪一个方式途径，由于受到收集范围限制该样本肯定是in the wild很久了。有多少用户受害，都没法统计。"

以上解释很合理.

"你的阀值理论更是本身就是一个悖论。"

下面的论据不足以支撑此结论. 你的论据应该是"云端根本没有设定阈值".

"就以卡饭测试为例。按照你的理论，必须要超过比如说1000个用户才会分析。卡饭每天的测试样本几个云都基本上是实时响应，那么按你的理论也就是说卡饭样本早已经出现在客户端了。那为什么不直接提高首次扫描查杀率呢？？非要等二次响应？？还是卡饭的样本每次测试都正好是第1000次发现？？"

云实时响应说明这个样本云端有,或者已被特征码/规则覆盖,所以不能算作新样本.
本地首次扫描查杀不到, "二扫"能查杀到, 原因请参考本首席系列讲座二.

"如果卡饭的样本是很特殊的，也就是没出现在客户端，那么按你的理论云根本不应该响应。"
我不知道卡饭的样本搜集机制, 但估计卡饭的样本应该也没啥特殊的. 无非就是某位网友安装的某个反病毒产品查不到,但不等于所有的反病毒产品都查不到. 云端能够响应的原因,请参考本首席系列讲座二.

[技术原创] 《云安全》在线系列讲座之三 --- 云安全的悖论

评分