查看: 9746|回复: 38
收起左侧

[原创] 机器学习真的是网络安全的灵丹妙药吗

  [复制链接]
renyifei
发表于 2018-7-22 16:48:23 | 显示全部楼层 |阅读模式
机器学习是网络安全的灵丹妙药吗?
From ESET



目录:
前言
网络安全的真相
监督式机器学习VS无监督机器学习
机器学习的局限性
ESET的机器学习——通往AUGUR的道路

结论
译者后记


前言:
  此文来自于ESET白皮书,我记得以前论坛里有大致简介,由于没有中文对于一些想要具体了解的童鞋可能有些困难,于是这篇汉化就诞生了,有坛友问过我你为啥会有精力翻译他们啊,其实我自从读完研之后就没有太多机会去重温英语了,现在看看这些就当每天的英语复习课了。
  我知道这篇文章非常长,挑战着一些人的耐心,但是我认为当中并没有什么晦涩难懂的东西,而且有些英语中的形容词,在我们看来是不知所云的,我也进行了适合我们口味的修改,还是希望大家看看吧,因为机器学习技术的确是现在安全软件厂商都在推崇的一种“灵丹妙药”。
为了方便大家进行阅读,特制作了离线版:
PDF版本:
Word版本:


网络安全的真相
  世界正在我们眼前发生变化。 事实,真理和诚实曾经是我们最宝贵的资产,现如今,事实,真理都在被彻头彻尾的谎言统治。 不幸的是,我们的网络安全业务也不例外。
  更糟糕的是,随着人工智能(AI)和机器学习(ML)领域的所有最新进展,网络安全对于那些喜欢夸大自己的能力而忽略了局限性的厂家来说更加复杂,因此容易混淆。
  机器学习算法作为网络安全的灵丹妙药? 不需要更新,或者低误报的重要性; 这些只是这些所谓的“下一代”厂商常用的营销技巧中的一小部分 - 或者我们称之为厂商的“真相”。
  已经与网络安全斗争进行了近三十年的ESET等已建立的供应商知道过度依赖机器学习的可能缺点。为了让真相更加清晰,我们将这篇论文放在一起,用来关注AI的当前状态以及ML的所有细节。
  真正的人工智能尚不存在,机器学习仍然不够成熟,无法成为你和网络攻击者之间的唯一保护层。

监督式机器学习VS无监督机器学习
  人工智能的概念已经存在了60多年,代表了智能机器的理想,它可以独立学习和做出决策,仅基于其环境的输入 - 所有这些都没有人工监督。
从这个尚未实现的人工智能梦想退后一步,就是机器学习,这是一个计算机科学领域,它使计算机能够通过对计算结果进行分类并根据调查结果对大量数据进行查找。
  这个概念可能更新一些,但自90年代以来它仍然存在于网络安全中。 在网络安全中,它主要指的是保护方案中的一种技术,该解决方案已经过大量正确标记的清洁样本和恶意样本,可以了解其中的差异。
  由于这种培训和对人类的监督 - 也称为监督机器学习 - 它能够分析和识别对用户的大多数潜在威胁,并主动采取行动来缓解这些威胁。 该过程的自动化使安全解决方案更快,并帮助人类专家处理每天出现的样本数量呈指数增长。
  没有类似“训练”的算法 - 属于无监督机器学习的范畴 - 对网络安全几乎没用。 虽然能够将数据分类到新的类别,但它们不一定能区分干净的项目和恶意软件。 这使得它们适合于在人眼看不到的数据集中找到相似性或异常,但它并不能使它们更好地分离好与坏。

机器学习的局限性
   在ESET,我们多年来一直在应用有监督的机器学习。 我们称之为“自动检测”。
   为了保持我们的高检测率和低误报率,由经验丰富的人类监督员组成的团队评估与其他样本过于分歧的项目,它们都是ML难以标记的。 这种方法使我们能够避免在通向微调算法的过程中可能出现的误报(FP)或遗漏的缺陷,该算法与我们解决方案下的其他保护技术相得益彰。

局限性1:
  首先,要使用机器学习,需要大量输入,每个输入都必须正确标记。 在网络安全应用程序中,这转化为大量样本,分为三组 - 恶意,干净和可能不需要的。我们花了将近三十年的时间收集,分类和选择可用作ML引擎训练材料的数据。
  最近成立供应商会在哪里获得此类数据? 除非它采用竞争对手研究的不道德途径,否则无法创建足够大或可靠的数据库,甚至没有提到对这样的数据库进行排序所需的劳动力。
  然而,即使ML算法已经输入了大量数据,仍然无法保证它能够正确识别它遇到的所有新样本。 仍需要人工验证。 如果没有这个,即使一个不正确的输入也可能导致滚雪球效应,并可能破坏这种解决方案。
  因此,任何进一步的错误都会被强化和增加,因为错误结果进入循环并产生更多“垃圾” - 误报或错误的恶意项目 - 然后重新进入解决方案。

局限性2:
  一些安全厂商宣传说他们的机器学习技术不会出错,因为他们可以在执行之前识别任何一个样本,并通过数学技术来识别他们。
  然而,着名的数学家,密码学家和计算机科学家阿兰图灵(在二战期间在英国布莱切利公园打破了纳粹密码的人)证明了类似的方法在数学上是不可能的。 即使是完美无瑕的机器也无法始终能够决定未来的未知输入是否会导致不必要的行为 - 在图灵的情况下,这会使机器无限循环。 这被称为“暂停问题”,并且适用于理论计算机科学以外的许多领域。
  例如,制定计算机病毒定义的计算机科学家弗雷德科恩通过展示另一个不可判定的问题,证明了它如何应用于网络安全:不可能绝对肯定地说一个程序是否会以恶意方式行动 只分析它有限的时间。 未来的输入或可能将程序推入恶意领域的特定设置也会出现同样的问题。
  那么这如何适用于网络安全? 如果一个供应商声称它的机器学习算法可以在运行它之前标记每个样本(或预先执行)并确定它是干净的还是恶意的,那么就必须预防性地阻止大量不可判断的项目和误报。 另一种选择是不太积极的检测,误报率较低。 然而,如果仅应用机器学习技术,它将使检测率远远超过声称的“100%”所谓灵丹妙药。

局限性3:
  除了上述与ML对网络安全的任何应用相关的挑战之外,还有另一个严重的限制:智能攻击者。
  经验告诉我们,抵制网络攻击者是一场无尽的猫捉老鼠游戏。 网络安全环境不断变化的性质使得无法创建一种能够应对任何未来威胁的通用保护解决方案。 机器学习并没有改变这一点。 是的,机器已经足够聪明,可以在国际象棋甚至Go游戏中击败人类,但是这些游戏在网络安全方面具有约束力规则。 更糟糕的是,他们甚至可以随意的更改他们。
  我们以自动驾驶汽车为例。到目前为止,尽管对开发进行了大量投资,但这些智能机器无法保证在实际交通中取得成功,即在有限的环境区域之外。现在想象有人覆盖所有交通标志,操纵它们或采取复杂的恶意行为,例如使交通灯以超出人眼识别的速度闪烁。随着对关键元素的这些类型的变形,汽车可以开始做出糟糕的决定,这可能以致命的碰撞结束,或者仅仅固定车辆。
  在网络安全中,隐藏是对手活动的一个很好的例子。攻击者只需要采取恶意代码并将其走私到无害的文件,如图片。通过将其深入到微观设置中,机器可能被(受感染的)文件所欺骗,现在几乎与干净的文件无法区分。
  类似地,碎片化也可能导致检测算法返回不正确的评估。攻击者将恶意软件分成几部分并将其隐藏在几个单独的文件中。他们每个人都很干净;只有在他们聚集在一个端点或网络的精确时刻,他们才开始展示恶意行为。在这种情况下,执行前的判定结果就会毫无意义。

局限性4:
    众所周知,网络犯罪分子努力避免被发现,他们的方法在复杂程度上超过了上述例子。他们试图隐藏其代码的真正目的,通过混淆或加密“覆盖”它。如果算法无法查看此掩码,则可能会做出错误的决定。将恶意项目标记为干净或阻止合法项目会产生负面影响。虽然很容易理解错过检测为什么会出现问题,所以称为误报 - 当保护解决方案错误地将清洁项目标记为恶意时可能会出现更糟糕的错误。
  当然,并非每一个误报都必然会导致企业IT基础设施彻底崩溃。但是一些故障可能会破坏业务连续性,因此可能比恶意软件感染更具破坏性。想象一下汽车制造厂停止生产,因为其安全解决方案将生产线软件的一部分标记为恶意软件并随后将其删除 - 这一“故障”可能会导致大规模延误和数百万美元的财务和声誉损害。

对于组织及其IT安全人员而言,误报不需要破坏关键流程。每天有数十或数百个错误警报(安全解决方案设置为非常激进的模式可能就是这种情况),管理员只有两种选择:
1.严格保持设置,浪费时间处理FP。
2.松开保护设置,同时可能会在公司的系统中产生新的漏洞。
现在,如果采用积极的解决方案,经验丰富的攻击者如何挑起并利用后一种情况?

ESET的机器学习——通往AUGUR的道路
  尽管有上述机器学习的所有限制,但我们看到了这项技术的价值。这也是我们的专家20多年来一直在运用机器学习的原因 - 神经网络在1998年首次出现在我们的产品中。
  我们早期的努力之一是为大规模处理而设计的自动化专家系统。 2006年,它非常简单,帮助我们处理了越来越多的样品,并减少了检测工程师的巨大工作量。多年来,我们已经完善了自己的能力,并使其成为技术的重要组成部分,该技术负责我们每天从我们的全球网络ESET LiveGrid®,安全供稿和来源等数十万件物品进行初始分类和分类。我们与其他安全厂商的持续交流
自2012年以来,另一个ML项目一直在ESET的引擎下运行,将所有分析的项目放在“网络安全地图”上并标记这些项目,这需要更多关注。

如果没有三个主要因素,ESET目前的ML引擎可能难以实现:
1.随着大数据和更便宜的硬件的到来,机器学习成本越来越低。
2.由于ML算法的普及及其背后的科学被众人所知,使得我们的技术应用可供任何愿意实施它们的人使用。
3.经过三十年的黑帽斗争,我们建立了一个与恶意软件相当的“亚历山大图书馆”。 这个庞大而高度组织的数据库包含了我们过去分析过的数百万个提取的特征和DNA基因。 这是我们精心挑选的混合物的基础,这种混合物已成为Augur的训练材料库。
这些开发以及其他内部ML项目帮助我们获得了经验,并逐步为我们今天所拥有的东西铺平了道路 - 云计算中机器学习技术的成熟,真实世界应用,以及客户端点 我们称之为Augur。
然而,上述因素也带来了挑战。 我们必须选择性能最佳的算法和方法,因为并非所有机器学习都适用于高度特定的网络安全领域。

经过大量测试后,我们决定结合迄今已证明有效的两种方法:
1.神经网络,特别是深度学习和长期短期记忆(LSTM)。
2.六种精确选择的分类算法的综合输出

  还不够清楚?想象一下,你有一个可疑的可执行文件。 Augur将首先模仿其行为并进行基本的DNA分析。然后,它将使用收集的信息从文件中提取数字特征,查看它想要运行的进程,并查看DNA,以确定最适合的类别 - 清洁,可能不需要或恶意。在这一点上,重要的是我们要声明,与一些声称不需要拆包,行为分析或仿真的供应商不同,我们发现这对于正确提取机器学习数据至关重要。否则 - 当数据被压缩或加密时 - 它只是尝试对噪声进行分类。

  使用的分类算法组有两种可能的设置,每种设置都针对不同的结果:
  如果六种算法中的大多数都投票,那么更具攻击性的将样本标记为恶意。这主要用于使用ESET Enterprise检查器的IT人员,因为它可以标记任何可疑内容并将输出的最终评估留给称职的管理员。
  如果六种算法中至少有一种得出这样的结论,那么更温和或更保守的方法就会宣布样本干净。这对于专家较少的通用系统非常有用。
  我们知道视觉效果是今天的一切,所以如果前面的解释不够清楚,最后的图表可能有所帮助。
  好吧,让我们离开理论,看看ESET机器学习方法的真实结果,应用于最近的恶意软件攻击,滥用EternalBlue漏洞并推动WannaCryptor勒索软件和CoinMiner恶意软件系列。除了我们的网络检测和我们其他ML系统的有效标记外,Augur模型还立即将两个家族的样本识别为恶意。
  更有趣的是,我们还使用了一个月大的Augur模型运行了这个测试,这个模型以前无法在任何地方遇到过这些恶意软件系列。 这意味着,检测仅基于从“亚历山大图书馆”中获得的信息。 你猜怎么着? 它们都被正确标记为恶意。
  IT安全领域30年的进步和创新告诉我们,有些事情没有一个简单的解决方案,特别是在网络空间,变化迅速,竞争环境可以在几分钟内完成。 机器学习,即使是在闪亮的市场营销中,也不会很快改变。 因此,我们相信即使是最好的ML也无法取代熟练和经验丰富的研究人员,他们建立了基础,并将进一步创新。



结论
  为公司网络建立有效的网络安全防御与保护自己的家庭类似。如果你想保证它的安全,你会尽量安装尽可能多的保护层 - 一个强大的隔离系统,一套安全摄像头,一个非常响亮的警报和黑暗角落的运动探测器。
  在商业环境中,单独依赖一种技术是不明智的 - 即使它是一种机器学习算法。由于本文中提到的ML的所有限制,很明显,使用其他方法对于保证用户安全也是必要的。请记住,避免保护性解决方案是网络犯罪分子的日常面包。而且 - 正如过去一再证明的那样 - 只要付出足够的努力,任何特征或系统都可以被规避。
  因此,一家致力于建立可靠和强大的网络安全防御的公司应该选择提供多种互补技术的解决方案,这些技术具有高检测率和低误报率。换句话说 - 回归到家庭隐喻 - 一个抓住小偷但是当邻居的猫走过草坪时没有反应的隐喻。
  经过30年的研究和开发,ESET可以提供经过时间验证的保护技术和名为Augur的先进机器学习引擎的精细组合。
OVER

译者后记:
  开个玩笑,ESET我可以把它比作东欧怼王,怼了半天别,最后在很幽默地夸自己,哈哈哈哈哈哈。
  @屁颠屁颠 10/10






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x

评分

参与人数 8分享 +2 魅力 +1 人气 +8 收起 理由
JAYSIR + 1 版区有你更精彩: )
HEMM + 1 嗯..........
Sailer.X + 1 版区有你更精彩: )
雪拥蓝关 + 1 版区有你更精彩: )
wangkaka + 1 版区有你更精彩: )

查看全部评分

驭龙
发表于 2018-7-22 18:13:33 | 显示全部楼层
本帖最后由 驭龙 于 2018-7-22 18:15 编辑

这个B神之前好像翻译过这篇内容
https://bbs.kafan.cn/thread-2093941-1-1.html
renyifei
 楼主| 发表于 2018-7-22 18:28:07 | 显示全部楼层
驭龙 发表于 2018-7-22 18:13
这个B神之前好像翻译过这篇内容
https://bbs.kafan.cn/thread-2093941-1-1.html

嗯,他把先知系统的部分翻译了,我是吧整个白皮书都汉化了一遍供各位参考,因为我觉得想要深入了解的坛友还是看中文更舒服些
驭龙
发表于 2018-7-22 18:31:50 | 显示全部楼层
本帖最后由 驭龙 于 2018-7-22 18:34 编辑
renyifei 发表于 2018-7-22 18:28
嗯,他把先知系统的部分翻译了,我是吧整个白皮书都汉化了一遍供各位参考,因为我觉得想要深入了解的坛友 ...
https://bbs.kafan.cn/thread-2093404-1-1.html

不,B神也翻译很多,只不过吐槽部分是另一个帖子,分上下两个帖子

当然,你这个也不错,辛苦了

renyifei
 楼主| 发表于 2018-7-22 18:35:08 | 显示全部楼层
驭龙 发表于 2018-7-22 18:31
https://bbs.kafan.cn/thread-2093404-1-1.html

不,B神也全部翻译了,只不过吐槽部分是另一个帖子,分 ...

好吧
驭龙
发表于 2018-7-22 18:36:57 | 显示全部楼层

但是,你也不错,辛苦了,加油
renyifei
 楼主| 发表于 2018-7-22 18:38:50 | 显示全部楼层
驭龙 发表于 2018-7-22 18:36
但是,你也不错,辛苦了,加油

没有
驭龙
发表于 2018-7-22 18:40:45 | 显示全部楼层

翻译还是很累人的,心里话
劲野
发表于 2018-7-22 18:49:48 | 显示全部楼层
计算机技术就目前而言,还不可能完全超越人脑。那些吹嘘的再强也仅仅是吹嘘
歌德塔大蜘蛛
发表于 2018-7-22 19:53:14 | 显示全部楼层
怪不得好像看到过,感谢翻译,辛苦了
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2024-5-10 09:11 , Processed in 0.128646 second(s), 18 queries .

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表