楼主: popu111
收起左侧

[讨论] 念念不忘,未见回响。-- 悼 BD

  [复制链接]
85683213
发表于 2018-5-22 23:25:03 | 显示全部楼层
cfhdrty 发表于 2018-5-21 18:46
记得以前在样本区还有其他评测帖里,BD的主防对比其他家真是碾压式的

BD的主防从几年前开始就是和云信誉结合的,所以说不准
欧阳宣
头像被屏蔽
发表于 2018-5-22 23:27:08 | 显示全部楼层
popu111 发表于 2018-5-22 23:24
ATD有ML的么?在下没有看到相关的说法这样子。ATD目前像是早期win10,总让人怀疑技术预览版没修就放出来 ...

ATC我知道是没有的,但是如果ATD也没有,就没办法解释为什么误报上两者差距这么大了,只是有点费解
85683213
发表于 2018-5-22 23:38:46 | 显示全部楼层
欧阳宣 发表于 2018-5-22 23:27
ATC我知道是没有的,但是如果ATD也没有,就没办法解释为什么误报上两者差距这么大了,只是有点费解

其实ATC时代可能就有ML了,ML的定义没有那么狭隘
总不可能病毒都由人工分拣

除了白名单定义文件,ATC(里子是AVC)的核心dll是内置白名单的,到了ATD架构换了,可能白名单无法通用,所以误报就大了
欧阳宣
头像被屏蔽
发表于 2018-5-23 06:00:51 来自手机 | 显示全部楼层
85683213 发表于 2018-5-22 23:38
其实ATC时代可能就有ML了,ML的定义没有那么狭隘
总不可能病毒都由人工分拣


atc的主防规则确实是人工编写的,跟dg的拦截规则一样定期是有人维护的。这不需要ml一样能做到。
popu111
 楼主| 发表于 2018-5-23 06:48:37 来自手机 | 显示全部楼层
85683213 发表于 2018-5-22 23:38
其实ATC时代可能就有ML了,ML的定义没有那么狭隘
总不可能病毒都由人工分拣


目前来看ml要用在atd上虽然可以用(tnt不也能用么),但是其效用会不会有那么大,是否可以减少人工量都是值得商榷的。

正如我们所知,ml(的分类机)是通过算法提取出大量样本中的特征,也就是统计学方法,需要相当多的人力第一时间做好大量的分拣工作。

而atd作为一个打分主防,其本质是通过程序单步行为累计来判断,而很多行为是所有程序都有,或者说少见但无问题的,这就需要一个完备的停止词目录。

最后这个学习过程也快不了,上面都说了需要行为累计了,那…得有个沙盘吧?得等到行为出现吧?机器知道什么时候会出现行为么?我想是很难通过人工分拣时预输入这个的,人家一个random sleep不就gg了。

最后,要是已经人工整理出了行为数据和相关分数计算公式,那还要ml干嘛?

顺便at宣大 @欧阳宣
灭灭之痕
发表于 2018-5-23 09:08:27 | 显示全部楼层
B100D1E55 发表于 2018-5-22 23:15
域名拉黑和文件误报考察两个不同维度。比如ESET在测试中也偶尔有域名误报,主要因为它URL黑名单官方订阅 ...

倒是不太清楚crowdstrike有参测AVC?反正我就是觉得AVC测试的套路对于一些私人写的工具(特别是易语言这种拉黑大户)甚至是国内比较流通的一些小程序会非常不友好。
B100D1E55
发表于 2018-5-23 09:31:55 | 显示全部楼层
本帖最后由 B100D1E55 于 2018-5-23 09:48 编辑
灭灭之痕 发表于 2018-5-23 09:08
倒是不太清楚crowdstrike有参测AVC?反正我就是觉得AVC测试的套路对于一些私人写的工具(特别是易语言这 ...

我记得去年有,比如https://www.av-comparatives.org/ ... c_mpt_201709_en.pdf

是的,AVC要真涵盖这些小工具很多厂商的误报绝对不是一个两个,而且这种灰色文件分析耗时耗力,AVC没能力做这些,顶多测出难看成绩扔回去给厂商自证清白。EMSISOFT之前就骂过说AVC的误报测试对他们的检出机制很不友好。所以他们近期的误报测试,如果成绩还差的话那就是太差了,成绩好的只不过是测试区分度不够
B100D1E55
发表于 2018-5-23 09:46:43 | 显示全部楼层
本帖最后由 B100D1E55 于 2018-5-23 09:56 编辑
popu111 发表于 2018-5-23 06:48
目前来看ml要用在atd上虽然可以用(tnt不也能用么),但是其效用会不会有那么大,是否可以减少人工量都是 ...

我个人觉得多步主防基本就是靠ml,不仅可以提取行为token,还可以针对行为内容提取(parameter list),甚至可以根据行为前后依存关系提取,赋以对应权重。而这个权重具体设置为多少,阈值为多少,就得靠ml来挖掘。反正这个到最后就是一个典型的优化问题

这里的问题在于行为本身可以混淆,比如可以对可疑行为进行顺序调换、增加不相关行为等等。更厉害的对于同样的恶意目的可以用不同的行为路径实现。就这点而言主要取决于系统API的设计优美与否,主流系统这方面因为各种历史遗留问题处理起来比较麻烦。这也是为什么卡巴强调自己的行为分析要把这些拆成bipartite graph,而且打分是单调递增从而避免此类问题发生。特征如果提取的太精确,广谱性就差,反之则误杀多,得靠其他方法压。

典型的多步behavior mining比如:https://dl.acm.org/citation.cfm?id=1287628 ,section 4是精髓
(这篇文章作者n年前创立了novashield,后来被bullguard收购,很有可能就变成了bullguard多步主防的一部分)

不过就算行为防御,终归还是有机器行为判识所无法触及的地方。所以对于样本区那些bat流,杀软查不出来肥肠正常,查得出来倒是需要警惕
www-tekeze
发表于 2018-5-23 10:20:26 | 显示全部楼层
准确率99%!基于深度学习的二进制恶意样本检测
by HanSight瀚思  - Nov.24, 2017

全球正在经历一场由科技驱动的数字化转型,传统技术已经不能适应病毒数量飞速增长的发展态势。而基于沙箱的检测方案无法满足 APT 攻击的检测需求,也受到多种反沙箱技术的干扰。在充分考察过各种技术方案的优劣后,瀚思科技开发出了基于深度学习的二进制病毒样本检测技术,可以做到沙箱同等水平的 99% 的检测准确率,而误报率低于 1/1000。

http://www.hansight.com/blog-deepsense-virus-detection.html#

www-tekeze
发表于 2018-5-23 10:21:53 | 显示全部楼层
www-tekeze 发表于 2018-5-23 10:20
准确率99%!基于深度学习的二进制恶意样本检测
by HanSight瀚思  - Nov.24, 2017

摘录自XX的回复:

在代码识别领域,计算(算法)是依托于向量(特征)的。就像这文章里面说的,“当然强度大就无能为力了”,这点说的很实在。。。
然而,现在的“壳”强度都很大了。。。要不XX干嘛一直在不停地说虚拟沙盒虚拟沙盒虚拟沙盒,对待现代“壳”这是唯一有效的解决方案。。。这不是算法能帮你绕过去的问题。

现在的“加壳”已经不是“猫打马赛克,狗打马赛克”了,已经不是“模模糊糊还能认出是猫,模模糊糊还能认出是狗”了,而是“猫变牛,狗变猪”了。。。举个例子,一只“猫变牛”(加壳,广义的加壳,不是upx那种低级壳)了之后的“坏猫”被拿来学习(训练),如果你不能把这头牛变回猫(脱壳,广义的脱壳,不是脱upx那种低级壳,比如XX的通用脱壳),那么“深度学习”的结果就是“牛是坏的”,那么当真的“牛”被拿来“识别”(扫描),结果就是“牛是坏的”。如果训练集碰巧没有“裸的”(没加壳的)坏猫,那么很不幸,当一只裸的坏猫出现时,“检测”结果就是“猫是好的”。。。

所以,说来说去,“特征”才是关键,“特征抽取”是恶意代码识别真正的技术门槛,“算法”反而是锦上添花。


您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2024-12-22 22:13 , Processed in 0.092349 second(s), 14 queries .

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表