查看: 217|回复: 1
收起左侧

[分享] 火绒的启发式扫描

[复制链接]
lingchenheiye
发表于 昨天 20:57 | 显示全部楼层 |阅读模式
火绒在2025-11-17发了一篇文章,介绍了自己提高启发式扫描的机器学习模型能力。

原文链接:https://www.huorong.cn/document/info/productions/1854

文章大概意思是实现了三种优化,一是将LightGBM换成了Transformer Encoder,二是借用NLP技术将特征进行拆分缩小vocabulary size,三是优化特征工程。

其实玩过机器学习的都知道,像LightGBM、xgboost、catboost、ngboost这类梯度提升树模型在表格类数据上表现的相当好,表格类数据kaggle比赛里必有”三巨头“的身影。但是树模型及其吃特征工程,而病毒样本的特征往往都是树模型并不擅长的,即数据中含有大量的噪声,而attention比树模型更好的捕捉代码执行流中的局部异常和时序依赖关系。

火绒改为Transformer架构并不意外,也符合目前的机器学习行业的状态:一言不合"attention is all you need”。

其次火绒声称各项指标在火绒基准数据集上均有明显改善:新模型的误报率从13.80%下降至0.8087%、病毒样本召回率从78.99%提升至92.2412%、银狐样本查杀率从33.00%提升至51.0908%。这种改善从效果来看基本来自于模型改进的结果(880万的参数的Transformer肯定还没压榨到极限),特征工程似乎没发力?不过实际部署的模型进行8-bit量化,损失部分精度会导致模型的性能轻微下降,属于取舍问题。


火绒测试的基准数据集有约1200万样本,根据机器学习的28定律,训练的样本量可能在5000万或以上,正常应该大于1亿样本。预测方法是判断是否是病毒的概率,与CrowdStrike Falcon和defender部分模型类似,相比较谷歌的二分判断,逻辑上更优,训练效果也会好一些,属于软标签训练或回归式训练。


但是我们要明白,真实世界中白样本总是比黑样本多的,即一个人不作死的情况下,90%以上遇到的文件不会是病毒样本,所以真实世界中黑白样本数量差别是很大的,即样本极度不平衡,使用模型输出的整体分布是否与训练集的真实分布一致的方法,训练效果可能比硬标签和软标签效果更好。

除此之外,这套技术能否用于行为检测而不只是被动扫描?
先写这点,后面还有就再补,欢迎各位大佬指点,欢迎各位畅言

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
神龟Turmi
发表于 2 小时前 | 显示全部楼层
但是我们要明白,真实世界中白样本总是比黑样本多的,即一个人不作死的情况下,90%以上遇到的文件不会是病毒样本

所以有人想出了一种反向的操作,因为白文件足够多,而且类型各异,容易收集和训练的同时相对不容易过拟合:https://forums.malwarebytes.com/ ... ns-and-explanation/

我们Malwarebytes选择了一种非常不同的机器学习方法,称为"异常检测"。异常检测不是试图"学习差异"来区分所有良性软件和所有恶意软件,而是尝试量化"某个特定文件与良性软件训练集的相似程度"。它不是试图将图片分类为是狗还是不是狗,而是为每张图片打分,比如"这看起来与我之前见过的狗有85%相似"。如果得分足够低,比如1-3%,模型就会说"根据我之前见过的狗的知识,这只有1-3%的概率是狗。因此,这要么是一种看起来非常奇怪的新品种狗,要么根本不是狗。"

乍一看,这种方法似乎与上述分类方法相似。但它有一个关键区别:它只需要使用良性软件文件进行训练,不需要使用恶意软件进行训练。不出所料,良性软件最终比恶意软件更具自相似性,随时间变化更慢,因此异常检测模型最终比分类模型更稳健、寿命更长。

最关键的是,我们发现恶意软件文件在我们的模型中往往表现出异常性,因为它们使用了旨在规避传统杀毒软件的混淆技术,这意味着我们可以将异常检测器用作恶意软件检测器。这正是我们产品中目前使用的技术。
我们一开始就说过,机器学习不是魔法,它和其他工具一样既有优势也有劣势。异常检测的优势很明显:真正的第零小时通用恶意软件检测,既稳健又持久,能够检测第零小时恶意软件领域的大片区域。但劣势是什么呢?

异常检测的主要劣势在于它只能用于检测"看起来异常"的恶意软件。如果你编写了世界上最干净、最简单、没有混淆的键盘记录器,它很可能不会被我们的异常检测器发现。我们的研究人员通常发现,根据测试的具体恶意软件和使用的具体异常模型,约50-80%的零时差恶意软件看起来是异常的。这个结果不错,比我们测试过的任何分类模型都要好,但它肯定也不是万能良药,单靠它本身无法提供充分保护。

以及Cylance(现在应该叫ArcticWolf)那边也有一个abnormal检测,与MalwareBytes类似,代表文件和常规白文件不同,而非直接命中高置信度恶意(unsafe)

您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2026-1-23 06:24 , Processed in 0.078455 second(s), 3 queries , Redis On.

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表