楼主: nkspark
收起左侧

[技术原创] 《云安全》在线系列讲座之三 --- 云安全的悖论

  [复制链接]
nkspark
 楼主| 发表于 2011-3-23 18:55:34 | 显示全部楼层

人工判定和自动判定之间,我们更相信谁,答案是显而易见的。

几个主流的判定方法,特征码、规则库(主防)、概率法(QVM),正是人工判定/自动判定的比例逐渐加大的过程。
小紫英
发表于 2011-3-23 18:57:58 | 显示全部楼层
楼下谁有兴趣把首席的3个讲座给整理下发给我啊,爬楼看真累,不能起到放松心情的效果
jefffire
头像被屏蔽
发表于 2011-3-23 18:58:58 | 显示全部楼层
nkspark 发表于 2011-3-23 18:45
各位笑死之前,不要一句“不对”就评论完了。

错在那里,为什么错,讲清楚了先。

人工分析的样本从哪儿来??木马作者自己乖乖上报?显然不可能。于是只有这么几种可能,一个就是有一定水平的高级用户的上报,一个就是厂商自行设立的mi-guan、爬虫,还有就是反病毒联盟厂商的交换。无论是哪一个方式途径,由于受到收集范围限制该样本肯定是in the wild很久了。有多少用户受害,都没法统计。

你的阀值理论更是本身就是一个悖论。
就以卡饭测试为例。按照你的理论,必须要超过比如说1000个用户才会分析。卡饭每天的测试样本几个云都基本上是实时响应,那么按你的理论也就是说卡饭样本早已经出现在客户端了。那为什么不直接提高首次扫描查杀率呢??非要等二次响应??还是卡饭的样本每次测试都正好是第1000次发现??
如果卡饭的样本是很特殊的,也就是没出现在客户端,那么按你的理论云根本不应该响应。
悟心之道
发表于 2011-3-23 18:59:36 | 显示全部楼层
小紫英 发表于 2011-3-23 18:57
楼下谁有兴趣把首席的3个讲座给整理下发给我啊,爬楼看真累,不能起到放松心情的效果

他一楼有了,应该经不住推敲啊
小紫英
发表于 2011-3-23 19:03:05 | 显示全部楼层
本帖最后由 小紫英 于 2011-3-23 19:03 编辑

回复 104楼 悟心之道 的帖子

全是散的,要我翻页去找,就算只看作者,也有一些水帖
悟心之道
发表于 2011-3-23 19:06:42 | 显示全部楼层
小紫英 发表于 2011-3-23 19:03
回复 104楼 悟心之道 的帖子

全是散的,要我翻页去找,就算只看作者,也有一些水帖

一、二结论就两句话
“讲座一里边,我们得出一个结论,“云安全”有时候就等于“云抢劫”。
讲座二里边,我们也得出一个结论,“云安全”有时候就等于“云剽窃”。”
很难说他错,错换个侧面
http://bbs.kafan.cn/thread-941102-1-1.html
实际可以说明这不只是云安全软件的问题
明天出差了,没时间玩,你们继续
nkspark
 楼主| 发表于 2011-3-23 19:16:48 | 显示全部楼层
本帖最后由 nkspark 于 2011-3-23 19:29 编辑

举个例子说明我对这几种判定方法的理解:

目标:判定给定数值如12468、86421,是奇数还是偶数。

一、特征库:
1、已有特征集合:{2,4,6,8,12468}为偶数,{1,3,5,7}为奇数;
2、判定方法:把12468、86421同特征集比对;
3、判定结论:12468为偶数,86421未知;
4、改进方法:人工判定后,将86421加入奇数集合。
5、缺点:你说有就有,你说没有就没有。

二、主防:
1、已有规则集:尾数+2后为0的是偶数,尾数+2后为1的是奇数;
2、判定方法:12468+2 = 0、86421+2 =3;
3、判定结论:12468为偶数,86421未知,交给用户自己判定;
4、改进方法:人工分析后,添加规则尾数+2后为3的是奇数。
5、缺点:很多规则不靠谱,我也知道被2整除为偶数是最好的判定规则,但没办法这个规则用不了,我一除,屏幕就蓝了。

三、QVM:
1、已有向量集合:{2,4,6,8}为偶数,{1,3,5,7}为奇数;
2、判定方法:12468 = {1,2,4,6,8},其中偶数个数为4,占比80%,奇数个数为1,占比20%。86421={8,6,4,2,1},其中偶数个数为4,占比80%,奇数个数为1,占比20%。;
3、判定结论:12468为偶数,86421为偶数;
4、改进方法:加入新的维度{当前时间,当前温度,本文回帖数量}。
5、缺点:大家说我象天气预报,但能说出明天降水概率80%已经很不容易了。

jefffire
头像被屏蔽
发表于 2011-3-23 19:16:58 | 显示全部楼层
nkspark 发表于 2011-3-23 18:55
人工判定和自动判定之间,我们更相信谁,答案是显而易见的。

几个主流的判定方法,特征码、规则库(主 ...

所有一切都是概率。
以MD5为例,其20位16进制数是个有限集合,而无穷多的文件是个无限集合,从无限集合向有限集合映射,一定会产生同一个值的情况。但MD5我们都在用,基本没人担心会有个病毒和正常某白文件MD5值一样。为什么??因为这种概率太低了,基本可以忽略不计。
同样的特征码也是,以特征字符串和特征偏移值为基础的特征码,本身也是一个有限信息集合,即用特征字符串和特征偏移值去表示整个病毒信息,这显然也会有错误的可能(误报)。但是大家都在用,为什么??因为这个概率也是很小,尚在可以接受的范围之内。

因此总结一下,不管什么方法,只要他的置信概率能够达到一定水平比如(99.9%),那么我们就完全可以接受这种方法。
在水之滨
发表于 2011-3-23 19:41:27 | 显示全部楼层
回复 107楼 nkspark 的帖子

假如你说的对:

当只有很少的病毒,比如10个,方法一很容易搞定10个,方法三只对80%,搞定8个。

实际病毒N多。假如1千万个:
人工判定多少呢?10万?100万?200万?
方法三,可轻松识别800万个

另,你说的并不全对。

评分

参与人数 1人气 +1 收起 理由
jefffire + 1 顶~~~

查看全部评分

nkspark
 楼主| 发表于 2011-3-23 22:42:58 | 显示全部楼层
jefffire 发表于 2011-3-23 18:58
人工分析的样本从哪儿来??木马作者自己乖乖上报?显然不可能。于是只有这么几种可能,一个就是有一定水 ...

"人工分析的样本从哪儿来??木马作者自己乖乖上报?显然不可能。于是只有这么几种可能,一个就是有一定水平的高级用户的上报,一个就是厂商自行设立的mi-guan、爬虫,还有就是反病毒联盟厂商的交换。无论是哪一个方式途径,由于受到收集范围限制该样本肯定是in the wild很久了。有多少用户受害,都没法统计。"

以上解释很合理.

"你的阀值理论更是本身就是一个悖论。"

下面的论据不足以支撑此结论. 你的论据应该是"云端根本没有设定阈值".

"就以卡饭测试为例。按照你的理论,必须要超过比如说1000个用户才会分析。卡饭每天的测试样本几个云都基本上是实时响应,那么按你的理论也就是说卡饭样本早已经出现在客户端了。那为什么不直接提高首次扫描查杀率呢??非要等二次响应??还是卡饭的样本每次测试都正好是第1000次发现??"

云实时响应说明这个样本云端有,或者已被特征码/规则覆盖,所以不能算作新样本.
本地首次扫描查杀不到, "二扫"能查杀到, 原因请参考本首席系列讲座二.


"如果卡饭的样本是很特殊的,也就是没出现在客户端,那么按你的理论云根本不应该响应。"
我不知道卡饭的样本搜集机制, 但估计卡饭的样本应该也没啥特殊的. 无非就是某位网友安装的某个反病毒产品查不到,但不等于所有的反病毒产品都查不到. 云端能够响应的原因,请参考本首席系列讲座二.

您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2024-6-27 04:50 , Processed in 0.101081 second(s), 16 queries .

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表