【现在真能实现杀毒引擎“自学习、自进化”？】【结语-2】【声明】

显示全部楼层 · 发表于 2011-1-13 10:49:58

本帖最后由悟心之道于 2011-1-22 09:23 编辑

现实和理想有距离，在讨论杀软问题时偶应当可以达到“无欲则刚”的境界
1 【引子】
貌似本人也得“杀软综合症”了，被各种先进技术说法忽悠得欲罢不能！前面讨论了《到目前为止主防软件能不能“自动提取特征值实现多重防护”？》，觉得收获不小！现在又有说可以实现杀毒引擎“自学习、自进化”，不搞清楚了技术原理大有食不甘味之感，所以请各位多多指教，先行谢过！【一、二楼占了备用，修改完善中】
说明：本不想与具体厂商相关，然这项具“自学习、自进化”提法的杀软却独一家，无分号，提到处不管正效应还是付作用，都是不得已，请相关品厂商和个人别介意！
2 【资料】
QVM人工智能引擎是360安全研究院自主研发的一项重大技术创新，它采用人工智能算法，具备“自学习、自进化”能力，无需频繁升级特征库，就能免疫90%以上的加壳和变种病毒，不但查杀能力遥遥领先，而且从根本上攻克了前两代杀毒引擎“不升级病毒库就杀不了新病毒”的技术难题，在全球范围内属于首创。（摘自360官方网站《中国网络安全业重大创新：全球首推人工智能杀毒引擎》）
3 【疑问】
“从根本上攻克了前两代杀毒引擎“不升级病毒库就杀不了新病毒”的技术难题，在全球范围内属于首创。”
a、高启发杀毒出现很长时间了，一定要升级病毒库才能杀新病毒？
b、现在的以主动防御技术设计的杀软也是可以不升级病毒库杀新毒（现在应该没争议了？）。
c、实例：微点主动防御软件、百锐金盾等不要病毒库或病毒特征库都能杀（查杀）一些木马病毒（至于百分数偶想不提了面对不同样本肯定变化很大的）。
小结：只是“不升级病毒库就可以杀新病毒”不能成为全球首创！
4 【主题】
现在真能实现杀毒引擎“自学习、自进化”？
要成为全球首创或第三代杀毒引擎就只能是“人工智能算法，具备自学习、自进化能力”了？是不是真有呢？！很期待也很好奇。
同时在360技术论坛讨论：http://bbs.360.cn/4271460/42468520.html
微点交流论坛讨论：http://bbs.micropoint.com.cn/showthread.asp?tid=77831&fpage=1
金山论坛论坛规矩太多不好操作就搞个链接：http://bbs.duba.net/thread-22389557-1-1.html
4.1 讨论要点
A、“自学习，自进化”对杀软引擎来表象特征是：能杀什么难度等级、复杂程度的病毒本不是判断是否进化的标准，而是不需要人工干预，不同时间能解决不同难度、复杂程度的病毒样本！也就是说可能有的病毒当前它不能识别也杀不了，但过一段时间，它杀了很多其他病毒之后，它就能杀原先它不能杀的病毒了。
当然应对表象特征可以搞出伪“自学习、自进化”的玩意，我想具体会有些什么伪境界就不细说了。
B、如果真会“自学习、自进化”，从杀软自身特征上进化的是什么？或者属于以下一种几种或者其他情况？
Ⅰ、杀毒引擎进化
Ⅱ、规则增加和完善
Ⅲ、病毒特征库的文件特征码库容总量增大
C、实现“自学习、自进化”的硬件要求及架构设想（没实证的话，最高可信程度也就到理论可行）

4.2 可信程度认定原则
实践或实际测试成果＞理论可行＞纯猜测...再往下不要了

5 【小结】
人工智能（Artificial Intelligence或简称AI）有时也称作机器智能，是指由人工制造出来的系统所表现出来的智能。通常人工智能是指通过普通计算机实现的智能。
5.1 人工智能是存在的
5.1.1 历史事件
“深蓝”的力量——卡斯帕罗夫与“深蓝”的人机大战。1985年，年仅22岁的俄罗斯棋手卡斯帕罗夫力克群雄，成为历史上最年轻的国象棋世界冠军。从那以后，他在国际象棋领域里的地位一直未受到严峻挑战，被认为是有史以来最强的棋手之一。97年34岁的卡斯帕罗夫与“深蓝”的“人机大战”始于5月3日，双方先后共进行6局对弈。在首局比赛中，卡斯帕罗夫执白先行，经过3个多小时的苦战击败“深蓝”，力拔头筹。在次日举行的第二局比赛中，“深蓝”却以凌厉的攻势和明显的优势战胜卡氏，扳回一局。在接下去的第三、第四和第五局比赛中，双方下得异常激烈，鏖战数小时，最终均战成平局。11日举行的第六局比赛，“深蓝”充分利用执白先行的好处，一路强攻，仅用一个多小时，双方仅走19步，就让卡氏俯首称臣，取得了决定性的胜利。
5.1.2 杀软（引擎）也是有人工智能的
有些朋友做免杀，其实也和下棋是一样的，是你和杀软（安全软件）斗，当然不同的安全软件智能高低是不同的，所以你做免杀难度相差也就很大。有经验的朋友可以自己排序，但我想说一个人的排序是不能客观反应“智能高低”的，主要原因是你对一个杀软研究的程度，你研究程度越高，做免杀也就越容易。当然你研究得多了还是有发言权的！
人工智能有不少例子的，这个我想大家不用怀疑。
5.1.3 人工智能扩展阅读
百度百科http://baike.baidu.com/view/2949.htm
互动百科http://www.hudong.com/wiki/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD
维基百科 http://zh.wikipedia.org/zh-cn/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD
5.1.4 人工智能的分类(20110119 09:03)
人工智能有不同的分类方案，不同的分类方案对人工智能认识是不同的。
我比较倾向于分为工程学方法和模拟法。采用传统的编程技术，使系统呈现智能的效果，而不考虑所用方法是否与人或动物机体所用的方法相同，这种方法叫工程学方法（Engineering approach），它已在一些领域内作出了成果，如文字识别、电脑下棋等。模拟法（Modeling approach）它不仅要看效果，还要求实现方法也和人类或生物机体所用的方法相同或相类似。
还有一种把人工智能分为强人工智能和弱人工智能。强人工智能认为计算机不仅是用来研究人的思维的一种工具；相反，只要运行适当的程序，计算机本身就是有思维的。
5.2 现在有能“自学习、自进化”杀毒引擎吗？
5.2.1 客户端的杀软引擎再现在还不能“自学习、自进化”（2011.01.16 8：56）
我相信QVM官方会有人在卡饭的，如果结论错，当证据时偶再改！
从前面讨论中，以及QVM公开说明中都没人确认你用的单机客户端杀毒引擎能“自学习、自进化”（当然也没说不能），没更有说服力的证据前，先就这结论。
a、关于学习材料
正：一般客户端本身不具有收集海量病毒样本的能力，缺少足够的学习材料。
反：人学习的话系统研读相互联系的、自成体系的书，很可能比阅读海量的书更能进化。
高质量或代表性样本应该属于通过自动（如不同杀软引擎）+人工鉴别属于木马或毒毒的样本，至于灰样本很难当成学习材料。
针对评述：如果真能“自学习、自进化”，“海量”并非重点为而是“一定量+高质量”才是关键！
b、单机杀软引擎“自学习、自进化”存在的逻辑性问题
正：客户端众多，每个客户端，收集到的学习样本都不相同，如果“自学习、自进化”就会出现很多版本，这些版本之间就存存不一致、甚至冲突！
反：单机不同版本，可以在服务器端强大的管理下，规定进化方向，做到原则一致，相互兼容。
针对评述：客户端众多，管理难度大是缺点，但如果管理能力足够强大也是优点（团队作战比个人强吧）
c、硬件性能
正：单机处理速度慢、不能高速处理海量信息。
反：硬件性能影响处理速度，并不是决定性因素。单机速度相对慢，但单机可以有的样本少，并非不能处理！
d、一只白乌鸦
正：没有用户发现机子上的杀软引擎“自学习主、自进化”
反：（如果你机子上的杀软“自学习、自进化”了，意义重大！--梦醒）
段落小结：单机版杀毒引擎现在不能“自学习、自进化”主要是受相关研发主体（人）的投资能力、投资方向、时间、技术水平、精力等决定的。
5.2.2 服务器杀毒引擎现在能否“自学习、自进化”？
（1）服务器与单机相比存在的优势(20110117 9:26)
A、强大的计算能力；
B、高容量（内存、硬盘等）；
C、服务器组产权明确，带来的好处是可以合法统一协调工作；
D、服务器组中不同单机可以有工作不同目的相关软件。
E、服务器组可以在统一目的下将工作任务可以分解；
（2）服务器实现“自学习、自进化”的流程（20110117 16：20）
其中应或至少包含（一般顺序及必要返回重复）①鉴定（黑--病毒木马、灰、还是白），②代表性样本分析（传统特征值、文件特征值、行为特征等），②样本特征汇总分析（提取如文件特征，行为特征等形成按不同解决方案的规则），③规则分析与完善（寻求改进原规则的可能和途径），④初改试验（一定得允许错误判断还原及改后运行正常肯定），⑤模拟客户机试运行，⑥下发测试版，⑦收集分析汇总信息，⑧有用确认、修改进化（终于出现“进化”了）。
（3）可能需要人工干预的环节（20110118 09：15）
①鉴定（黑--病毒木马、灰、还是白）：可用不同杀软分析、汇总。对于不属于自动判断不属于黑的，仍有一定反馈量的文件（样本），应该会存在人工参与鉴定。
②代表性样本分析（传统特征值、文件特征值、行为特征等）
②样本特征汇总分析（提取如文件特征，行为特征等形成按不同解决方案的规则）
③规则分析与完善（寻求改进原规则的可能和途径）
④初改试验（一定得允许错误判断还原及改后运行正常肯定）
⑤模拟客户机试运行
⑥下发测试版
⑦收集分析汇总信息
⑧有用确认、修改进化
6 【结语】（20110120 08：59）
6.1 现在的杀软具有人工智能，其实我还想不出来什么主流杀软不具有人工智能。
6.2 现在的杀软应该有完全不要人工干预能够更新病毒特征库的了。如微点主动防御软件，可以由客户端收集自己发现的含病毒（文件）特征值，上传到服务器，再按一定时间间隔下发到客户端，自动实现客户端“特征版本"更新，这种更新虽能的提高处理已知病毒速度，但并不能提升对抗病毒的其他能力，从单客户端来说可以算是从服务器或其它客户端获得一些信息，我认为算半个会“自学习”的系统。
6.3 客户端杀软引擎本身现在是没有“自学习、自进化”能力的，究其原因一是技术难度大，二是投资回报低，三是没什么必要。①一个客户端如果没有足够学习材料如何进化？②就算有相当的学习材料，高强度计算分析必将影响正常使用；③个人电脑不稳定、可靠性差，即使进化了也难以继承，因此与其在客户端“自学习、自进化”远不如传统升级来得方便和快捷。（20110121 09：00）
6.4 （待续）
【声明】
其实写文之前
也知道QVM也有其亮点
而并非完全凭空吹水
当然“自学习、自进化”
源于“科幻”给大家形成的印象
并无准确含义
信的人和不信人都无限扩大
了解、掌握一定知识的人，你说呢？
因此
不属于
对错
黑白
问题
以此标题讨论
也不过玩玩了
同时也想还原

【不想写了】
来玩的
要搞得这么认真？
着相了
与本意相去甚远！

【如出现争议解决办法】
以
理论为指导
现状为基础
实事为依据
【讨论层次】
这个帖子不能细化到具体算法。
一个具体算法就应当另开专题了

二楼汇总饭友代表性意见！

显示全部楼层 · 发表于 2011-1-13 10:50:15

本帖最后由悟心之道于 2011-1-21 23:00 编辑

说明：为了方便阅读仅保留核心内容看饭友100%原文请点链接
A1、maoke2005191  http://bbs.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17130289-fromuid-513112.html
1、高启发杀毒也得不断升级才能查杀新类型病毒，只是升级次数少了。
2、所谓新毒是指在特征码看来的新类型，而在主动防御的规则库中并不是新类型，如果出现主防中的新类型同样不能查杀。
3、特征库即定义库，用来定义什么是病毒什么不是病毒，任何软件没有定义库都没法判断，只是某些软件不完全以二进制代码作为特征定义。
4、楼主将某杀软的QVM十年不更新，看下查杀率一定很低，某杀软是放在服务器端进行的。楼主试想想如果放在客户端，那么经常遇到病毒的人和不经常遇到的人的杀软查杀能力岂不是很不一样，那自己试试就知道了。
A2、恺撒之悲伤 http://bbs.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17130762-fromuid-513112.html
软件本身代码写完后就不会改变（除非更新），换句话说引擎自身是不会变的，而变的是数据，如果代码变了，必须要人参与，毕竟现在基本没有能够自我修复的软件
A3、leisong  http://u.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17131348-fromuid-513112.html
以我的理解，自学习能力当然是指的Ⅱ、启发规则增加和完善，只是个人的理解
Ⅰ、杀毒引擎进化-----------------------这个需要人工修改代码，不是云端自学习范围
Ⅱ、规则增加和完善-----------------------这个才是云端QVM自学习的目标，即启发规则库
Ⅲ、病毒特征库的文件特征码增大--------这个是传统特征引擎，QVM本身无法将无法启发的病毒入库，只有如BD的库或云库，所以QVM也不是单独作战，只是立体防御中对付未知威胁的一环
A4、小紫英 http://u.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17137683-fromuid-513112.html
你有48G内存，16CPU的PC能跑QVM的学习算法？
LZ注：不知道饭友如何看待这个！网友验证不了啊？我想即使有人能有上述配置的机器，肯定有人说，高度机密能让你的机子运行？还有你有能力收集海量病毒？...N^N多的可能。偶们不管只管理论及现实可能性及可以令人信服的证据。
齐向东介绍说：“作为全球安全行业唯一一家互联网公司，360在开发QVM引擎时，采用了完全不同于传统杀毒软件的技术思路。QVM引擎具备‘自学习、自进化’的强大能力，称得上是世界范围内首个成功应用的第三代杀毒引擎。”并没说要在服务器才能学习。
A5、五月大地 http://bbs.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17139977-fromuid-513112.html
有点类似网上的那种---模仿人体免疫系统，而软件实现这一步，我不敢说不能，但是希望是渺茫的
A6、来自海底的冰 http://u.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17142264-fromuid-513112.html
LZ注：写得比较细，也比较具体，文字多就不搬过来了。
A7、pianokjt http://bbs.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17153479-fromuid-513112.html
无论是何种模拟，都要在掌握了已知的大量的数据总结出来的“规律”，按照人来说，通过规则学一通百完全可能的。
但不能忽略一样东西，通过已知的大量的数据和信息总结，数据有可能是错误的，需要修正，信息量也会越来越大，还是需要人手去参与的。所谓的人工智能智能说现阶段还是一种理想，人的大脑的各种思考机制都还没完全搞清楚呢。
A8、⊙⌒⊙  http://bbs.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17153861-fromuid-513112.html
病毒是能够自进化，自变种的，当然这个变化指的不是自己免杀自己，不过相信有强劲的算法的话病毒足矣做得到。
那么同理，杀软的引擎也同样可以做到自进化，自学习。只要算法强劲，同时有大量的“学习”材料才行，正如学校的题海战术，同样类型的题怎么变化都不怕，都是那套解法，就怕遇到没做过的类型的题。也就是引擎遇到没见过类型的毒（注意是没见过的类型的毒，而不是没见过的毒）一旦遇到了，就要靠引擎通过之前的经验来分析了
总之就是引擎IQ（算法）+经验=查杀率，引擎的完全智能化还有一段路要走，需要的是努力、经验还有智慧。
A9、JillPal  http://u.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17188796-fromuid-513112.html
以目前人工智能和计算机发展水平看,要实现高水平的“自学习”“自进化”还不太现实.巨量数据本身可能具有灰色性质,数据之间的关系也可能是非线性的,这样对于“高质量”这个问题,如何确定收集到的数据那些是高质量的?或者舍质量而追求数量,这之间的平衡不好掌握.
A９LZ注：高质量或代表性样本应该属于通过自动（如不同杀软引擎）+人工鉴别属于木马或毒毒的样本，至于灰样本很难当成学习材料。
A10 、qwe12301 http://bbs.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17130139-fromuid-513112.html
数据挖掘不是一项存在独立的技术，应该说是一个集大成者，类似社会工程学。它更多的是关于数据统计处理这方面然后多种筛选算法从中获取有效信息最终得出数据。通过一系列算法机器最终获得的是最优“规则”的积累
A10LZ注：其实这个说法在10楼就出现了，因其描述较为原则较接近服务器环境应用，现在才搬来。
A11、小紫英 http://bbs.kafan.cn/forum-redirect-goto-findpost-ptid-888368-pid-17255440-fromuid-513112.html
整了这么多，连QVM是人工智能的哪个分支都没搞清楚，收集点回复，就是“治学”了，怪不得砖家都说中国式教育误人子弟呢
文献数据库到处可查，比卡饭几个网友回复权威多了吧
A11LZ注：“QVM是人工智能的哪个分支？”，貌似不会因为这个改变世界对“人工智能的分类”方案吧？至于“文献数据库到处可查，比卡饭几个网友回复权威多了吧”这个到未必，一是理论必须结合实践，二是卡饭毕竟有不少理论及实践能力较强的人吧？三是你认为我就不会到“文献数据库”查啊。不过还是要谢谢TA。20110120 11:16

LZ注：感觉后面答参与讨论的同饭越来越认真了，也越来越精彩了！
【来自360论坛】
陈识宇 http://bbs.360.cn/4271460/42468520.html?page=1 7楼回应。
LZ注：都有发言较多不搬过来了！

【来自微点论坛】
littlefritz 自动学习理论上是可以实现的。但此自动学习并非真正的人工智能。如微点能够自动发现、清除样本，提取特征值，然后自动进行全网升级，但主动防御的行为分析是依据API调用规则的，而不是人工智能。360的QVM2的人工智能是在依据原有大量样本的基础上总结出的自学习规则，相比传统启发，有一定优势，但和传统启发的现状相似，依然无法独挡一面，还是需要本地或者云端的特征库。在这一方面，微点的主防的技术就较为成熟，能够以很小的升级量查杀绝大多数病毒。
LZ注：人工智能在计算机上实现时有2种不同的方式。一种是采用传统的编程技术，使系统呈现智能的效果，而不考虑所用方法是否与人或动物机体所用的方法相同。这种方法叫工程学方法（Engineering approach），它已在一些领域内作出了成果，如文字识别、电脑下棋等。另一种是模拟法（Modeling approach），它不仅要看效果，还要求实现方法也和人类或生物机体所用的方法相同或相类似。个人认为微点做法应该算是工程学方法（Engineering approach）的人工智能。可以说有“自学习”，通过（客户机+主机）联动可以使处理已知病毒速度更快！但却不能“自进化”，因为并不能通过这个过程实现突破。
LZ不倾向于按“弱人工智能”和“强人工智能”分类。望文生义，如果这样分类的话“深蓝”击败“国际象棋冠军”，就超“强智能”了？
【关于YY有理】
有朋友说我在此YY
可你认为
***就不YY了
对于本来就YY的命题
如果还想以非YY的形式求解，又有何解？
YY往往也能直指本质
YY是解决某些灰色问题的利器
不会合理YY
就难灵活解决很多问题
不会有效YY
也是尚未真正成熟的表现

算了不求一致
但求好玩

显示全部楼层 · 发表于 2011-1-13 11:48:10

等官方的人士给你解答吧那个才是最权威的，最“自信”的

显示全部楼层 · 发表于 2011-1-13 11:49:27

貌似服务器端学习，进化后下放

显示全部楼层 · 发表于 2011-1-13 11:50:04

回复 1楼悟心之道的帖子

云端机制自学习，基于数据挖掘的一项技术

显示全部楼层 · 发表于 2011-1-13 11:52:42

很多官人都被禁言了，　　没人来和楼主讨论了

显示全部楼层 · 发表于 2011-1-13 12:11:26

qwe12301 发表于 2011-1-13 11:50
回复 1楼悟心之道的帖子

云端机制自学习，基于数据挖掘的一项技术

读书学习？还是藏书增加？

显示全部楼层 · 发表于 2011-1-13 12:13:16

几十年内休想
如果是通过在线更新来通过“自学习”的
那目前N多软件都有自学习功能了

显示全部楼层 · 发表于 2011-1-13 12:15:05

戾辰oO 发表于 2011-1-13 12:13
几十年内休想
如果是通过在线更新来通过“自学习”的
那目前N多软件都有自学习功能了

我还是尽量别先入为主，要不听进人家说的了

显示全部楼层 · 发表于 2011-1-13 12:16:07

回复 7楼悟心之道的帖子

数据挖掘不是一项存在独立的技术，应该说是一个集大成者，类似社会工程学。它更多的是关于数据统计处理这方面然后多种筛选算法从中获取有效信息最终得出数据。通过一系列算法机器最终获得的是最优“规则”的积累

[讨论] 【现在真能实现杀毒引擎“自学习、自进化”？】【结语-2】【声明】

评分

同饭代表性发言