《云安全》在线系列讲座之三 --- 云安全的悖论

显示全部楼层 · 发表于 2011-3-22 13:47:44

本帖最后由 nkspark 于 2011-4-8 13:20 编辑

讲座一参见：《云安全》在线系列讲座之一 --- 云安全基本概念，http://bbs.kafan.cn/thread-934671-1-1.html
讲座二参见：《云安全》在线系列讲座之二 --- 人云亦云，http://bbs.kafan.cn/thread-940068-1-1.html

在开讲之前，我们来做个游戏。这个袋子里有10个球，其中1个是黑色的，其它都是白色的。请你告诉我，一次取球，取到黑球的概率是多大？你的答案是1/10吗？好，袋子里的球增加到100个，其中1个是黑色的，其它都是白色的。请你告诉我，一次取球，取到黑球的概率是多大？你的答案是1/100吗？概率越来越小了，对吗？

如果我说，你错了，实际上随着袋子里的球越来越多，你拿到黑球的概率越来越大。你一定觉得我脑子有毛病。

那么，再来看看这个说法，“云安全的策略构想是使用者越多，每个使用者就越安全”，和“袋子里的球越多，拿到黑球的概率越大”，有什么区别吗？

看了讲座一的朋友，自然会理解，云安全的用户越多，对反病毒厂商是越有好处的，因为用户的数据可以免费拿到。Metcalfe’s Law是成立的，“网络的价值同网络用户数量的平方成正比”。但你一定要搞清楚，这个网络的价值是对谁而言的，是反病毒厂商，而不是用户。

用户越多对反病毒厂商越有价值是不能明说的，说出来用户也接受不了，那么，换一种说法就是，用户越多越安全。用户很开心，但是，真的是如此吗？还是去摸摸球体会一下先吧。

第一，性能。这个我不多说，大家都能理解。网络、服务器、数据库，都是有瓶颈的。但这个问题从技术上、硬件上都是可以解决的，这里提一句就是想说明，用户越多对性能的影响自然越大，不可能用户越多，性能越好。

第二、处理时间。不管你是白文件也好、黑文件也好、灰文件也好，都是袋子里的球。云端搜集到的文件越多，相当于袋子里的球越多。如果病毒用黑球来代表的话，是不是查出病毒（黑球）的概率就越低？怎么会反而越安全了呢？

第三、每个用户就是那个唯一的黑球。有人提出，球是越来越多，但黑球同时也增加了呀，被查到的概率也增加了。但是对于某个特定用户来说，自己就是那个唯一的黑球，当反病毒厂商说，我们的用户染毒概率是0.000001时，对这个染毒的用户来说，是100%。

所以，即使我们现在还不能肯定的说用户越多越危险，但也决不是用户越多越安全。

对于这个悖论最好的例证就是大家常说的“第一批牺牲者”问题。

无论对于传统的反病毒还是云安全，“第一批牺牲者”都是不可避免的。“第一批牺牲者”说明了病毒是实际存在的，查杀这样的病毒才有实际意义。如果某个病毒，在没有“第一批牺牲者”的情况下，被某个反病毒产品查杀，这种查杀基本上只存在市场营销方面的意义，对用户是没有意义的。但恰恰，现有的大部分病毒，就是号称每天新出现5000、10000个之类的，都是只存在市场营销方面的意义的病毒。我在讲座一中举例的ITW新增样本集，才是真正业界专业的被“第一批牺牲者”验证过的对用户有意义的病毒。这样的病毒，很少很少，平均每天4个。不用质疑，上个月的ITW我一个一个数的。

但现在问题的关键是，相对于传统反病毒，云安全架构下的“第一批牺牲者”有点儿多了，不是多一点儿，而是多太多。

因为传统反病毒主要面向病毒样本（黑名单），数量少，更多地采用了人工分析。云安全比较贪心，各种文件通吃，黑名单、白名单、不黑不白搞不清楚名单等等，人工肯定不行，累死也不行，只能更多地依赖自动分析。

从这一点上来看，传统反病毒在对病毒样本的快速响应上，绝对是不输于云安全的。准确率更是云安全没法比的。传统反病毒的劣势是特征库到用户的分发时间，相对近乎实时的云安全来说，有点儿太长了。

人工分析，一个样本就够了，病毒分析员可以直接下结论，这是一个病毒，提取特征码，入库。“第一批牺牲者”也许只有一个用户。

自动分析，需要同一样本多次出现，触发预设的阈值，启动自动分析。预设的阈值也许是固定值，例如100，也许是比例值，例如所有用户的0.0001，如果是1000万用户，就是1000。所以云安全的“第一批牺牲者”永远是成批的。

如果预设的阈值是比例值，例如所有用户的0.0001，如果是1000万用户，“第一批牺牲者”就是1000。如果是1亿用户，“第一批牺牲者”就是10000。如果你是恰巧处于“第一批牺牲者”之中，你告诉我，是用户越多越安全吗？

好了，本次讲座到此完毕。逻辑不是很严谨，结论也有点儿强词夺理。不过主题还算明确，那就是“用户越多越安全”的提法纯属扯淡。

（注：1楼内容只包含本贴主题的主要部分，更多讨论，敬请爬楼。相信我，爬楼时一定会有意外收获。）

对网友疑问的补充：
1、“云安全这朵云越大收集到病毒的可能性是否增大的问题，也就是说是否sensor越多越全面的问题”这句话基本上没什么毛病。

但搜集到了病毒样本，并不等于你已经识别出来了。你有所有的病毒样本，但你如果识别不出来的话，跟没有是一样的。“用户越多”=“sensor越多” = “样本越多”是成立的，但“样本越多” = “越安全”是不成立的。这也是本讲座的主题：“用户越多”和“越安全”之间没有必然联系。

关于本次讲座数学部分的争论请参考《细节和数学》，http://bbs.kafan.cn/thread-953455-1-1.html

显示全部楼层 · 发表于 2011-3-22 13:48:39

本帖最后由 jefffire 于 2011-3-24 13:20 编辑

占沙发。先感谢122L牛人。

Metcalfe’s Law是成立的，“网络的价值同网络用户数量的平方成正比”。但你一定要搞清楚，这个网络的价值是对谁而言的，是反病毒厂商，而不是用户。

http://wiki.mbalib.com/wiki/%E6%A2%85%E7%89%B9%E5%8D%A1%E5%A4%AB%E6%B3%95%E5%88%99
梅特卡夫定律：如果一个网络中有n个人，那么网络对于每个人的价值与网络中其他人的数量成正比，这样网络对于所有人的总价值与n×(n-1)=n2- n成正比。

结论：说明LZ歪曲了梅特卡夫定律，刻意把价值归结到厂商上，忽略了所有人。

那么，再来看看这个说法，“云安全的策略构想是使用者越多，每个使用者就越安全”，和“袋子里的球越多，拿到黑球的概率越大”，有什么区别吗？

LZ这句话的基础在于：黑球永远只有固定数量，不会随着样本总量的增加而增加。其依据是ITW的样本集平均一天仅增加4个。
但其严重的逻辑漏洞在于，ITW仅收集全新的病毒母体并不收集以母体为基础的海量变体。而目前对安全造成最大问题的就是采用免杀手段制作的海量变体。
因此LZ在假设条件完全错误的情况下试图得出正确结论，完全是徒劳无功的。

人工分析，一个样本就够了，病毒分析员可以直接下结论，这是一个病毒，提取特征码，入库。“第一批牺牲者”也许只有一个用户

如果只有一个用户牺牲，那只有这种情况：木马作者写完木马后，自己乖乖上报。这显然是不可能的。

那么实际的情况如何呢？？传统的样本收集方案无非以下这么几种：1、有一定水平的高级用户的上报，2、厂商自行设立的mi-guan、爬虫，3、反病毒联盟厂商的交换。无论是哪一个方式途径，由于受到收集范围限制该样本肯定是传播
很久，其结果就是大数量难以统计的“第一批牺牲者”。

自动分析，需要同一样本多次出现，触发预设的阈值，启动自动分析。预设的阈值也许是固定值，例如100，也许是比例值，例如所有用户的0.0001，如果是1000万用户，就是1000。所以云安全的“第一批牺牲者”永远是成批的。

自相矛盾的“预设阈值”
这段话实质就是告诉我们这样一个情况：当某文件首次出现在客户端时不会被分析，必须等到传播一定广度时才会被分析。
恰巧笔者就是卡饭病毒扫描测试的参与成员，以笔者的实际经验发现了这个“预设阈值”的一个悖论。笔者的测试经验总结出了如下结论：云类测试扫描二次响应基本在15分钟以内，并且结果都普遍良好。
任何样本不外乎这样两种情况：1、已经出现在云类杀软的客户端 2、尚未出现在云类杀软的客户端这是两个互斥事件，只可能有一个发生。
先看情况1。如果卡饭样本经出现在云类杀软的客户端，那么就有如下疑问：为什么不直接首次就检出呢？非要等二次？这个可以用“预设阈值”来解释。那么这就引出第二问题：为什么卡饭的样本每次都是这么巧合，总是在恰当的时刻触发了“预设阈值”呢？？这显然是一种几乎不可能发生的小概率事件，无法解释，因此陷入矛盾
再看情况2。如果卡饭样本尚未出现在云类杀软的客户端，也就是卡饭的扫描是首次出现。那么按照“预设阈值”，首次出现的样本不会被分析。结果就是卡饭的云类测试不会有任何响应，但实际的结果告诉我们不是这样的，于是又陷入矛盾。

总结：文章假设混乱且错误，逻辑推理也存在自相矛盾之处。实在有误人子弟之嫌。

显示全部楼层 · 发表于 2011-3-22 14:05:00

本帖最后由悟心之道于 2011-3-22 14:41 编辑

先占一楼，看看你这家伙如何自己用“如果我说，你错了，实际上随着袋子里的球越来越多，你拿到黑球的概率越来越大。你一定觉得我脑子有毛病。”这个证明大家都错了

难道想归结到云使世界趋同，最终其实难分黑白？但不要忘记你还能把100个球划分成1个黑球+99个白球！
还有写了篇
◆◆→云不云的对安软而言只能靠“信任”【看完有关文章有感而发】，欢迎指正！
http://bbs.kafan.cn/thread-941102-1-1.html
大意是说你《在线系列讲座之一、二》所下结论是正确的
但...就是我要说的了【好了】14：40这个不动了

显示全部楼层 · 发表于 2011-3-22 14:05:02

等待首席讲解~

显示全部楼层 · 发表于 2011-3-22 14:08:09

出三了啊[:26:]

显示全部楼层 · 发表于 2011-3-22 14:11:50

回复 3楼悟心之道的帖子

嗯，我们都错了。

坐等开锅。

显示全部楼层 · 发表于 2011-3-22 14:15:51

如果考虑极限云是不是把所有的N个白球都认为为“1”个那么取到黑球就是50%

了！

显示全部楼层 · 发表于 2011-3-22 14:40:52

从这个例子来说，楼主就是在说歪理

显示全部楼层 · 发表于 2011-3-22 14:42:59

小紫英发表于 2011-3-22 14:40
从这个例子来说，楼主就是在说歪理

我还想看看，这家伙如何歪法？

显示全部楼层 · 发表于 2011-3-22 14:44:08

我等着LZ的作品

[技术原创] 《云安全》在线系列讲座之三 --- 云安全的悖论

评分

评分

浏览过的版块