ESET与机器学习(下)——先知系统

显示全部楼层 · 发表于 2017-6-21 10:34:42

本帖最后由 B100D1E55 于 2017-6-21 21:07 编辑

上期简要介绍了近期机器学习在安全软件上的潮流，其中典型的代表是提取文件表层特征进行模型训练的检测手法。对此ESET认为这种做法并不是非常靠谱，那么ESET内部到底使用了什么样的技术？一向在宣传上比较缄默的ESET这次终于稍微披露了一些技术细节：

ESET应用机器学习技术已经有20年以上的历史——1997年ESET就在自家产品上引入了神经网络技术。自那以后，ESET内部运作了无数大大小小的项目来改进未知样本的分拣效果。我们最早的成果之一是自动专家系统，主要用于大规模文件处理。在2006年的时候这套系统仍旧非常稚嫩，但当时已经帮我们的分析工程师分担了很多分析工作。随着时间的推移，我们也在逐步打磨这套系统辅助处理每日百万级的新生样本，其也成为今日Live Grid，Security feeds和厂商间样本交换过程中的中流砥柱。

2012年，ESET另一个机器学习相关的秘密研发项目将所有分析的威胁数据转换成“数字安全地图”以标记那些更需要关注的威胁。事实上，正是这套系统在WannaCrypt爆发的时候起到了至关重要的作用，在病毒传播初期我们就已经借由这套系统进行快速响应。虽然我们产品在WannaCrypt爆发时就已经能成功通过漏洞拦截模块进行阻挡，但这套系统为我们的深入分析带来了更多额外的信息，有效提升了检测效果。

机器学习就像一只难以驾驭的野兽，而我们的研究也并非一直按照初期计划那样进行。一些老旧的技术，例如过去那些使用已知威胁加强自动广谱DNA特征的提取的技术，网址信誉判识的技术，或者是对威胁进行归类分析的技术，在今日已经被更有效的技术所替代。这多亏研究人员长期以来的努力。这些新老技术帮助我们一步一步前行，而今日，一套成熟的云端机器学习系统已经被部署到每一个客户端当中。

认识我们的机器学习系统——先知系统（Augur）

ESET喜欢在历史中得到命名的启发——事实上ESET这个名字正是古埃及掌管治愈的女神的名字（Iset）。在古罗马时期，先知这个职业通过解读大自然的各种印迹来获得天启，帮助人们作出决定。和古代那种基于炼金术的预言不同，我们的“先知”作出的决定是基于科学、数学、以及过去的经验。

ESET的先知系统高度仰赖于以下几点：

1）在大数据时代，计算机越来越便宜，机器学习的成本显著降低，因此渗透到了医疗、自动驾驶、以及数字安全等行业（注：很多人认为这几年机器学习的崛起主要原因之一就在于计算机性能的大幅提高和硬件成本的降低，使得之前很多无法有效实现的算法终于有了实用价值）
2）机器学习的算法和学术上的发展使得其应用领域越来越广阔
3）30年来我们积累了大量样本和与黑客对抗的经验。这些被精心研究和归纳的海量样本成为我们机器学习训练集的重要来源

然而，以上这些因素也带来了不少挑战。我们必须精挑细选出最好的算法和检测手段，因为并不是所有的机器学习手段都适用于安全领域。
在大量测试后，我们最终决定结合两种有效的检测技术：
1）神经网络，特别是深度学习和长短期记忆神经网络（LSTM）
2）一个基于六种算法统筹决策的分拣模型

对于一个未知可疑样本，先知系统会先展开它的行为并进行初步的DNA分析，然后系统会根据从文件本身、进程行为、DNA等抽取出来的特征分拣成干净程序、潜在不需要程序、或者恶意程序。需要注意的是，有些厂商宣称他们不需要对样本进行脱壳、行为分析、或者仿真。而我们认为正是这些他们不关注的特征才是机器学习的重要组成部分。否则当程序被加密或者压缩后，那些仅从文件表层进行特征提取的做法无异于对一堆噪声进行分拣。

我们的分拣算法有两种模式：

激进检测模式中只要六个分拣算法大部分都投票认为文件有害，样本即判黑。这对于IT管理员来说很有效，因为它可以将可疑的文件标记出来以让系统管理员进行人工最终决策。
保守检测模式中六个分拣算法只要有一个投票认为这个样本无害，那么系统则判定为白文件（吐槽：让我想起了EVA的MAGI系统：）。这对于普通用户来说能减少误报带来的困扰。

我们将先知系统的处理流程归纳为下图：

顺带一提，我们发现Facebook在一次技术演讲中展示的机器学习解决方案和我们的先知系统非常相似，两者都意在结合传统分类算法和神经网络各自的优点。

现在回来看看这套系统在近期检测WannaCryptor和CoinMiner恶意程序时的效果。除了我们同样基于机器学习的网络防护系统第一时间阻挡了这些攻击外，先知系统也在第一时间将这些样本都判定为恶意程序。更有意思的在于我们用一个月前的先知系统同样进行了测试（在这种情况下这套系统只能通过过去的学习经验来进行样本判定），而结果显示这些样本同样也被判定为了恶意程序

在信息安全领域30年来的经验告诉我们，很多领域，特别是信息安全这种恶意威胁每分每秒都在变化的领域里，是不会存在很简单却很有效的解决方案的。就算是机器学习这种近年来在市场宣传下头顶光环的技术也无法改变这一事实。因此，我们相信就算是最好的机器学习算法仍旧无法替代一个有经验的研究人员，正是这些研究人员为这些技术打下了基础，也正是这些研究人在未来会进一步在这些基础上进行创新。我们很自豪的表示：在ESET，正是因为有了这些聪颖的研究人员的努力，我们才能将用户从数字威胁中解救出来。
------------------------------------
本系列的最后附上我和ESET工作人员交流的剩下几个问题的答复：

问：“主动防御的悖论”（参见前一个系列的问答）似乎是基于黑客一定能免杀杀软这个大前提下的看法。是否有可能存在一个产品，它免杀成本太高了以至于黑客不想去免杀了呢？例如早年的时候杀软的侦测借助的是传统的特征（字符串、API序列等），因此对应的免杀也更符合人类的思维模式。而今日那些隐性特征（例如熵值等）是否由于很难猜出判识/触发条件更难免杀呢？
答：或许我之前的看法比较悲观。作为安全从业者我们必须要做好最坏打算。虽然黑客可以花大量时间来逆向一款产品的特征提取手段，多层次的防护（特别是基于不同角度的防护）会使免杀变得更难更有挑战性。在安全领域中，我们永远需要权衡安全性、误报、性能，以及用户体验。高安全性往往要牺牲用户体验。
我们评估过市面上所有新的安全产品，但我们目前为止都还没发现有那种带来突破性的解决方案或初创企业。这些产品我们的研究人员通常只需要几个小时就可以找到绕过的方法。当然，ESET的原则是从不发表攻击其他厂商的研究成果，我们更喜欢一个气氛友好的环境（吐槽：攻击其他厂商的行为除了树敌之外也算变相免费帮其他厂商找问题修bug，换我我也不干）

问：从AMS工作机理来看，AMS通过静态扫描内存中的新可执行页进行打分。那么这种手段面对自修改程序或其他一些刁钻（略）的手法是否有效呢？
答：每个防护层都有被绕过的可能性。我们始终在跟进攻击者的最新手法并对产品进行改进。如果他们的免杀太过头，将会触发ESET的异常侦测，因为这些程序看上去并不像正常编译器编译出来的文件（注：这里的回答明显打太极了，不过可以理解）
安全防护永远是一个悖论。如果你封堵住了一种攻击手段，黑客就会去找下一种。但这不代表老的漏洞就不需要封堵了。没有一种防护手段是十全十美的，但多个防护手段综合起来将会让免杀的成本更加高昂。

娱乐向：看到ESET分享了自己的样本处理流程，我也分享一下以前折腾自己用的未知样本处理流程

上图仅供娱乐，欢迎吐槽

本系列到此结束。其实下个想写的内容已经想好了，不过还是先匿一匿回去学习了

显示全部楼层 · 发表于 2017-6-21 10:39:50

不知道严格模式是不是就是激进模式，ESET靠谱。

显示全部楼层 · 发表于 2017-6-21 10:55:10

ysj963 发表于 2017-6-21 10:39
不知道严格模式是不是就是激进模式，ESET靠谱。

从他们口气上来看应该只是提供给企业用户使用的，当然也曾有人呼吁ESET下放这种侦测。我个人觉得下放的话要么误报太高，要么就是见光死。

显示全部楼层 · 发表于 2017-6-21 12:04:00

好文！

显示全部楼层 · 发表于 2017-6-21 12:45:12

B100D1E55 发表于 2017-6-21 10:55
从他们口气上来看应该只是提供给企业用户使用的，当然也曾有人呼吁ESET下放这种侦测。我个人觉得下放的话 ...

ESET对于主防好像觉得反正会被过干脆不搞了，性能比较重要。其实他们为什么不在高启发中加入用户判断呢，或者干脆把行为分析融入到杀软中，右键扫描提供行为分析报告，让高级用户判断，再自定义相应的HIPS规则。

显示全部楼层 · 发表于 2017-6-21 16:28:03

这是不是在讲筛子变大惹？BUG豆也是个大筛子，总有洞可以进去杀死西铜这只神兽，黑阔好腻害~
偶要变黑阔专门搜集大叔果照~

显示全部楼层 · 发表于 2017-6-21 19:07:54

本帖最后由 68221281 于 2017-6-21 19:28 编辑

“我们评估过市面上所有新的安全产品，但我们目前为止都还没发现有那种带来突破性的解决方案或初创企业。这些产品我们的研究人员通常只需要几个小时就可以找到绕过的方法。”

看完果然还是有点绝望。果然专业的讨论，重点全在成本上。普通用户能接触到的手段，杀软也好，hips也好，易用性和安全性，不管牺牲哪个，在一定数量级的成本面前都是泡沫。就连一般能接触到的相对较安全的虚拟化方案，在专业的攻击面前也不能保证安全。
有时我觉得更多的应该是控制持有武器的人，还有武器本身，以及使用的代价。一般人家能修的墙能有多高，来的是强盗还好，万一来的是坦克呢？这个真的只有国家层面去管理控制。反社会，与你有过节，撞上了，无数的理由都能躺枪。

显示全部楼层 · 发表于 2017-6-21 20:57:40

ysj963 发表于 2017-6-21 12:45
ESET对于主防好像觉得反正会被过干脆不搞了，性能比较重要。其实他们为什么不在高启发中加入用户判断呢 ...

ESET的方针是不牺牲用户体验，不应该让用户介入判断。参见上篇里面ESET开发沙盒的态度就很明了了

显示全部楼层 · 发表于 2017-6-21 21:00:43

HEMM 发表于 2017-6-21 16:28
这是不是在讲筛子变大惹？BUG豆也是个大筛子，总有洞可以进去杀死西铜这只神兽，黑阔好腻害~
偶要变黑阔专 ...

早年eset还没有HIPS的时候我还将其和bug豆搭配过，我记得bug豆二代卡成狗

显示全部楼层 · 发表于 2017-6-21 21:04:27

本帖最后由 B100D1E55 于 2017-7-4 11:12 编辑

68221281 发表于 2017-6-21 19:07
“我们评估过市面上所有新的安全产品，但我们目前为止都还没发现有那种带来突破性的解决方案或初创企业。这 ...

我个人觉得虚拟化等手段算是显著提高了攻击成本。Chrome就是很好的例子，虽然也能被绕过，但仅限于一些专家，很多水平平庸的攻击者已经被过滤掉了，所以现在网站攻击也经常是一些无聊的脚本技巧。由此可见，不考虑易用性问题的话，如果能从底部将一些访问模型改变，安全问题可能可以得到极大缓解。UWP算是尝试之一，但是微软win32这么多年来的包袱不是说甩就甩的

[分享] ESET与机器学习(下)——先知系统

本帖子中包含更多资源

评分