本帖最后由 chx818 于 2026-1-23 13:09 编辑
我和Gemini 3 Pro讨论了一晚上,同时结合了GPT5.2Thinking和Claude4.5SonnetThinking的建议,还没开始实际操作实现,然后我现在出了一份方案报告,还请各位大佬们先看看
轻量级 AI 原生 MDR 系统架构设计方案Project Name: Personal AI-MDR Orchestrator Version: 1.0 Author: chx818 1. 项目概述 (Executive Summary)本方案旨在构建一套适用于个人或小微企业网络环境的自动化托管检测与响应 (MDR) 系统。针对传统 SIEM 告警噪音大、缺乏上下文关联、且商业 MDR 服务成本高昂的痛点,本系统采用 DevSecOps 编排思路,利用 n8n 作为低代码指挥中枢,协同 Elastic Security 的 EDR 采集能力与 双层 AI 模型(DeepSeek + Gemini) 的推理能力,实现对低频慢速攻击(Low & Slow)和横向移动的自动化研判与响应。 核心优势在于零代码编排、极低运营成本(利用免费/低价 API)以及上帝视角的长上下文分析。 2. 技术栈架构 (Technology Stack)[td]| 层级 | 组件 | 角色与功能 | 部署方式 | | 数据源 | Elastic Security (Agent) | 负责终端遥测数据采集(进程链、网络、注册表、文件)。 | Docker (Self-hosted) | | 编排层 | n8n | 核心指挥中枢。负责 ETL 数据清洗、API 路由分发、状态管理。 | Docker (Self-hosted) | | L1 推理 | DeepSeek-R1-Distill-7B | 初筛分析师。负责逻辑推理、上下文关联、过滤噪音。 | API (SiliconFlow) | | L2 推理 | Google Gemini 3.0 Pro | 首席分析师。负责长窗口全量日志分析、攻击链重构、最终定性。 | API (AI Studio) | | 情报增强 | Perplexity Sonar / Tavily | 情报官。负责外部威胁情报查询(IP 信誉、CVE 利用、行为定性)。 | API (SaaS) | | 通知层 | Telegram / Webhook | 负责实时告警推送及人工介入(Human-in-the-loop)。 | SaaS |
3. 核心运行逻辑 (Core Logic)系统摒弃传统的“单条告警触发”模式,采用 “双通道分流 + 游标水位线” 机制,以平衡实时性与分析深度。 3.1 双通道分流策略 (Dual-Channel Strategy)在 n8n 入口处根据告警严重度(Severity)进行分流: 3.2 游标水位线与触发机制 (Cursor & Batching)为防止 API 空跑和漏报,采用以下状态机逻辑: 游标 (Cursor): n8n 记录上次处理的日志时间戳 (last_processed_time)。 轮询: 每分钟检查 Elasticsearch 中大于游标的新日志。 触发条件 (OR Logic):
静默: 若无新日志,或未满足上述条件,流程直接结束(零资源消耗)。
4. AI 分析流水线 (AI Pipeline)Phase 1: 上下文初筛 (Contextual Triage)执行者: DeepSeek-R1-Distill-7B 输入数据: 当前批次告警 ($X$) + 历史回溯告警 ($Y$)。 任务: 识别离散告警之间的逻辑关联(如:下载 -> 执行 -> 外联)。 输出: Risk Level (High/Low) 及可疑实体列表。
Phase 1.5: 威胁情报增强 (Enrichment)Phase 2: 上帝视角终审 (Deep Dive Verdict) 5. 关键参数配置 (Key Configuration)基于个人/小微网络环境(低流量、非 7x24 值守)的优化配置: [td]| 参数 | 定义 | 设定值 | 设计意图 | | X 值 | Trigger Batch | 8 - 10 条 | 较低的阈值以适应个人环境稀疏的流量,保证灵敏度。 | | Y 值 | Context Window | 50 条 | 确保初筛模型能看到足够长的历史行为,防止攻击链断裂。 | | Z 值 | Deep Dive Range | 72 小时 | 针对“周末/夜间”无人值守场景,提供超长回溯能力。 | | T 值 | Timeout | 5 - 10 分钟 | 强制刷新机制,防止慢速攻击长时间滞留。 |
6. 数据工程策略 (Data Engineering)为最大化 Token 利用率并降低成本,在 n8n 中实施严格的数据清洗(ETL): 字段裁剪: 剔除 agent.build、event.original、rule.description 等对推理无用的元数据。 IP 过滤: 自动移除 127.0.0.1、169.254.x.x、fe80:: 等无效 IP,仅保留前 3 个有效公网/内网 IP。 Hex 丢弃: 移除内存转储(Memory Dump)的十六进制原始数据,仅保留签名 ID。 闭环保留: 强制保留 workflow_status、alert_id、rule_uuid 以支持未来的自动化状态回写。
7. 预期成效零成本运营: 99% 的日常噪音被免费的小模型和规则拦截,昂贵模型仅在确认威胁后介入。 抗幻觉能力: 通过“逻辑推理(DeepSeek) + 事实核查(Sonar) + 全局综述(Gemini)”的三重校验机制,大幅降低误报。 全链路视野: 解决了传统单点防护无法识别横向移动和跨时间段攻击的问题。
|