念念不忘，未见回响。-- 悼 BD

显示全部楼层 · 发表于 2018-5-23 10:26:06

www-tekeze 发表于 2018-5-23 10:21
摘录自XX的回复：

在代码识别领域，计算（算法）是依托于向量（特征）的。就像这文章里面说的，“当然 ...

问1：

从扫描引擎的脱壳能力及处理混淆码的能力看，人工智能算法及深度学习算法等扫描引擎最适合帮助XX提高扫描启发率，而不是象别的杀毒软件造成误报率。XX可以用去了伪装没有壳没有混淆码的病毒样本来训练算法扫描引擎，得到多维度扫描启发策略，提高扫描启发率。为了避免重复研发，减少研发工作量，提高效率，那些扫描引擎动态扫描能轻松发现的病毒及主动防御也能轻松发现的病毒就不要进行算法的训练总结了。

XX可以在扫描时先特征码识别，再动态启发，最后用大数据多维度的算法引擎来检测被XX脱了壳及去了混淆码的样本，多重启发查杀。简单的说，从杀毒扫描能力看XX最适合增加算法引擎提高扫描启发率。如果XX得到了慧眼引擎的启发技术，那么XX的扫描启发率将增加百分之多少？

显示全部楼层 · 发表于 2018-5-23 10:27:52

www-tekeze 发表于 2018-5-23 10:26
问1：

从扫描引擎的脱壳能力及处理混淆码的能力看，人工智能算法及深度学习算法等扫描引擎最适合帮助X ...

答：

其实在之前帖子里我已经说过了，基于统计、深度学习、人工智能等等这些“算法”的“识别”结果，XX只会用在内部样本分类以提高分析员效率，不会直接用于终端检测。所以对于最后那个百分比我没法回答，因为这其实是个伪命题。。。

反病毒引擎于终端检测，要满足两个基本要素：可控性和可阐述性。“可控性”是指对报出和误报是能够被控制的，基于上述“算法”的检测结果是无法被控制的，有人可能会说“误报了放白样本进去训练就行”，可那又会带来报出率降低，“那在放黑样本进去训练啊~”，为什么会“拉抽屉”，因为结果是不可控的。“可阐述性”是指对报出能做出阐述，这种阐述当然不是“有8成可能是病毒”这种，而是很明确的“因为包含了某某数据、代码或行为”所以报毒了，对误报同样适用。

不满足上述两点的引擎，算不上反病毒引擎，不适用于终端检测。

上面我说的这些，仅限于终端检测，“模糊的”、高报出高误报的检测在一些场景下或许是被允许甚至是有需求的，但不适用于终端用户。

显示全部楼层 · 发表于 2018-5-23 10:28:59

www-tekeze 发表于 2018-5-23 10:27
答：

其实在之前帖子里我已经说过了，基于统计、深度学习、人工智能等等这些“算法”的“识别”结果， ...

问2：

这让我想起生物特征测量运行特征曲线，误匹配率的下降势必会造成漏匹配率的上升，反之亦然。
不知反病毒引擎终端检测的“可控性”是异曲同工的意思吗？

对于终端来说，要有个特殊阈值对误匹配和漏匹配进行平衡。
阁下说的“高误报高检测”大概多应用于取证等操作当中的吧？

显示全部楼层 · 发表于 2018-5-23 10:30:28

www-tekeze 发表于 2018-5-23 10:28
问2：

这让我想起生物特征测量运行特征曲线，误匹配率的下降势必会造成漏匹配率的上升，反之亦然。

答：

我说的“可控性”更多的是针对误报而言，基于统计的引擎对“误报”几乎是”失控”的，可能有人会说“怎么会失控呢？我加白名单就能解除误报，我拿白样本训练也能控制误报。”，但白名单只能见一个排除一个，问题（误报）一直在那、只是掩盖掉罢了，而白样本训练会牺牲掉报出率（这个过程人根本没法控制）。

“阈值”法是很普通的启发式方法（算法），我反复说了，对于恶意代码检测，算法不是最重要的，特征抽取的方法才是关键！

类似场景有很多，取证算一个。

显示全部楼层 · 发表于 2018-5-23 10:41:34

本帖最后由 B100D1E55 于 2018-5-23 10:46 编辑

www-tekeze 发表于 2018-5-23 10:27
答：

其实在之前帖子里我已经说过了，基于统计、深度学习、人工智能等等这些“算法”的“识别”结果， ...

这个设计理念非常类似ESET啊，国内估计就火绒走这条路子了？难道是火绒的人？
啊找到那个帖子了，果然非常火绒了

我个人还是比较认同这种理念的，特别是看到一众“机器学习”引擎随便乱报，出了恶性毒只能hash拉黑之后

显示全部楼层 · 发表于 2018-5-23 11:26:15

www-tekeze 发表于 2018-5-23 10:27
答：

其实在之前帖子里我已经说过了，基于统计、深度学习、人工智能等等这些“算法”的“识别”结果， ...

机器学习引擎只用于内部分拣，这样的用途可以说是相当物尽其用了，没有盲目搞些噱头，还很好的用ml提高了效率。资瓷一个

显示全部楼层 · 发表于 2018-5-23 11:38:26

B100D1E55 发表于 2018-5-23 10:41
这个设计理念非常类似ESET啊，国内估计就火绒走这条路子了？难道是火绒的人？
啊找到那个帖子了，果然非 ...

那个贴里我不想发言，一方面我确实没有深究过“人工智能”在安软的最新应用，另一方面我也是赞同官人的说法的，有专业人士回复我去就很多余了，但为了表示我看过那个贴子，就进去打了两次酱油，汗。。

(但这个事我和官人私聊过，受益非浅！)

行为特征 (E称之为DNA特征) 一直是ESET看重的，而火绒认为：对于恶意代码检测，特征抽取的方法才是关键......这不是算法能帮你绕过去的。。。从这点看，火绒的理念确定和ESET相近。

显示全部楼层 · 发表于 2018-5-23 11:51:56

popu111 发表于 2018-5-23 11:26
机器学习引擎只用于内部分拣，这样的用途可以说是相当物尽其用了，没有盲目搞些噱头，还很好的用ml提高了 ...

如果放弃了本质 (行为特征) 而过多陷于浮华 (人工智能)，多年后也许会发现：众里寻他千百度，蓦然回首、那人却在灯火阑珊处。

PS：我没有否定机器学习、人工智能的意思，只是不同发展阶段，做到你说的物尽其用即可，而非滥用。。。

显示全部楼层 · 发表于 2018-5-23 13:22:03

支持楼主，前几天我玩BD更新不了还杀了一堆我的游戏

显示全部楼层 · 发表于 2018-5-23 13:39:03

卡巴就是正面教材，提交了误报，没几天就邮件回复拉白了。

高误报带来的高查杀感觉有点耍流氓，还不如直接hips了

[讨论] 念念不忘，未见回响。-- 悼 BD

浏览过的版块