查看: 12014|回复: 102
收起左侧

[金山] ★★★我来告诉你金山提取”微特征的方法”完全分析结果公布,大家可以参考.或者启发

  [复制链接]
李白vs苏轼
发表于 2011-3-15 09:39:53 | 显示全部楼层 |阅读模式
本帖最后由 李白vs苏轼 于 2011-3-20 13:58 编辑


先介绍一下PE文件
PE类型文件地址号码是这样安排的从PE部分开始安排的是总地址每个部分,区段,函数,
资源(图片,字符串等)的开始地址和所包含的组成信息,比如说区段的数目(NumberOfSections)。函数的起始地址(import table)和这个部分大小,资源文件的开始部分以及大小(Resource Table),下面仅以资源部分为例:00 90 0B 00 7C 81 00 00一共8个字节。
前四个字节是起始地址标示的是内存地址(RVA)到文件中看要转化为文件地址(RAW),raw地址为:000B1C00,后面的四个字节标示的是文件内存占用大小0000817C

金山提取为特征的方法在于,抓住关键函数,
定位在分支字符串上,由于这些关键函数,

或者字符 地址 ,有人想说修改几个字符,增加几个字符来改变文件md5之类的,
可惜这些没用因为金山提取的特征是在于
关键函数和起作用的分支字符串,,而不是在于整体特征,,
也有人说修改那些起"毒性"作用的部分,想要修改此处特征代码,
就必须知道PE文件如何去看,不清楚是很困难的事件,
即使某人修改了地址下面的字符不跟着变那有可能造成资源无法查找,
出现图标丢失,部分功能丧失在这里,
在这里把金山微特征提取方式命名为
"K"


金山提取微特征的方法,
很多人都以为是两种方法
1、直接上传(这种最不可能直接排除)
2、压缩上传:其实这种方法还是挺不错的,但遇到小水管和大样本,有时依旧是悲剧,

这个可以看看hitman pro每天的测试便知道了碰到大样本就只能感叹网速了
今天我提出的“微特征”提取方法大家可能都想不到
或者是大家都局限于传统思维的限制,这也提醒大家不要一味的认为创新不可能,总是用老思维套新做法
这种方法呢,其实借用的是搜索引擎的原理,当

你给出文件的时候,我们最简单用来验证文件的方法是什么呢?
大家都知道是MD5或者哈希等等,
当然这里我们金山用的是自创的K特征提取方式


我们使用搜索引擎的时候,我们输入的是语句,
一般搜索引擎有模糊搜索和启发搜索,
但我们的杀毒云检验需要的是完全一样的软件,
所以我们需要的便是搜索MD5或者哈希,
但MD5这类有个缺点就是如果其中一点点数据变了
,整个MD5就变了这使得这种方法变得近乎不好用了,
所以此时K方法才起作用


当金山检验到一个未知文件时
注:这个文件size应该是有限定的,比较小的文件应该是采取上文所说的压缩上传
当size达到需要提取“微特征”的要求时,毒霸第一件要做的事是得到文件的K
然后K传回服务器,之后金山接收到K的同时,



开始做一件和迅雷很相同的事情
没错,在网络检索相同文件,

然后下载到云鉴定器进行鉴定
大家知道,像金山这些公司要架高网速不是难事,不是我们这类小水管
为了方便大家理解,以迅雷离线下载做为例子
当文件下载达到我们带宽的极限时,

当然这个时候我们是否使用离线下载对速度都没有帮助,
但我们可以观察到离线下载的云端显示下载速度是几M/s的
相同道理,不是通过传统上传,而通过主动搜寻这是金山云的创新之处!




如果你不信我可以举个例子
我曾经为了去掉那个金山云3.0的服务和进程残留写了个批处理,
并将bat转为exe文件
结果金山云立即报毒
大家注意,我这个文件只在卡饭上发布过,连接方式是115网盘
所以这个文件是独一无二的,而且只有这个地方有
由于批处理涉及敏感语句,被报很正常
所以我直接用QQ找金山官人要把文件加白是误报,或许大家知道是谁(黑羽对这个很有兴趣,不过我不告诉他)
他直接跟我要的是MD5而不是文件,然后过一段时间就变白了,当然大家会认为,
官人直接在云端把该MD5列入白名单,,
但这对于杀软产商是不可能的事情,因为这个行业对于安全有极高的要求,而且有几次
是要MD5他们就能帮你检查这个文件是否安全,


所以金山应该有一套自我的匹配文件搜寻文件
的方法,这也是SP7敢保证99秒内完成鉴定的基础
因为有一套创新的主动式的获取样本的方法,接下来就是鉴定器的工作了,、。



315跟新--
经过我的一番调查,
原来金山有一个很大的文件存储服务器
只要是服务器端有的文件
只要给出md5,他们都可以直接进行查询
连我写的小东西他们都可以查询到
这个文件库应该是非常大型的
平时的云端自动鉴定结果是自动机返回的结果
如果出现误报,在人工用md5进行人工分析



有人说那文件存储器不是很大
这里偷偷应用一下老板和我的聊天记录
应该么(没)多大吧?你看www.cmd5.com 才用了多大存储:
本站数据量宇宙第一,实时查询记录超过7.8万亿条,其中95%以上全球独有,共占用80T硬盘,已包含11位及11位以下数字、7-8位小写字母加数字、6位大小写字母加数字等组合、以及大量其它数据(最长达20位)。一般的查询是免费的。

如果遇到未知怎么办呢 ,请看下文咯(

通过试了多个样本后sp7发现还是整个压缩上传的由于PE文件的特性,
有些极限压缩率还是蛮高的
大家可以试试,sp7的上传大小,
跟你压缩软件调到极限压缩时,
文件压缩后大小差不多大






评分

参与人数 7经验 +20 人气 +7 收起 理由
堕落爱国者 + 2 想不给你加分都难
sli + 1 金山区少有的技术贴 群里很久没看见你了.
tmkn + 1 ^^
聆听落雨 + 1 抱歉,帖子已经存在于卡饭,根据版规,此帖.
qqq123123 + 20 期待继续发掘!

查看全部评分

byxxdrls
头像被屏蔽
发表于 2011-3-15 09:45:40 | 显示全部楼层
本帖最后由 byxxdrls 于 2011-3-15 09:49 编辑

有创意啊。

这是我今天测试的情况。这个软件是学校用的白板软件,50几M。被鉴定为病毒,应该是误报。从QQ医生流量监控软件中的数据来看,数据量确实很小。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x

评分

参与人数 1人气 +1 收起 理由
李白vs苏轼 + 1 破坏我自沙,用人气砸你

查看全部评分

HC303
发表于 2011-3-15 09:49:17 | 显示全部楼层
这种东西外人都是猜测,只是金山搞技术那几个才知道。
光之优雅
发表于 2011-3-15 09:49:26 | 显示全部楼层
支持一下,写的不错
seehere
发表于 2011-3-15 09:50:58 | 显示全部楼层
可能是。但好像官人?说不只是MD5。
http://bbs.kafan.cn/forum-redire ... fromuid-491357.html
chen116
发表于 2011-3-15 09:52:22 | 显示全部楼层
有道理,跟 md5 查杀 还是差不多
对于新文件,从未出现过的MD5,估计还是未知,还要上传
猪头无双
头像被屏蔽
发表于 2011-3-15 09:53:14 | 显示全部楼层
理论上来说可行,而且貌似实践上也没有难度,比较符合现实,但心里总感觉有一丝怪怪的。不知道为什么。
黑猫、警长
发表于 2011-3-15 09:53:51 | 显示全部楼层
要是那么简单   就不是绝密技术了
caixx
发表于 2011-3-15 09:57:36 | 显示全部楼层
by的截图,应该是未触发分析过程。
分析过程的信息上传,必须是鉴定未未知文件才会开始。
fujet
发表于 2011-3-15 09:58:22 | 显示全部楼层
“在网络检索相同文件,然后下载到云鉴定器进行鉴定”
如果找不到呢,期待楼主下一步的鉴定!
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2025-2-5 05:00 , Processed in 0.139633 second(s), 19 queries .

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表