跳转至

🏗 AgentMeshOS 总体架构设计

版本:v0.1.0

阶段:系统架构设计阶段


1️⃣ 系统整体架构

                        🌐 Internet
                    ┌────────────────┐
                    │   VPS 主节点   │
                    │────────────────│
                    │ Nomad Server   │
                    │ Headscale      │
                    │ Tailscale Client│
                    │ AI Controller  │
                    │ API Gateway    │
                    └───────┬────────┘
            ┌───────────────┼───────────────┐
            ▼               ▼               ▼

       Node A          Node B          Node C
     (Worker)        (Worker)        (Worker)
        │               │               │
     Docker          Docker          Docker
     Nomad Client    Nomad Client    Nomad Client

2️⃣ 系统分层模型

Layer 5: AI Core(智能层)
Layer 4: Scheduler(Nomad)
Layer 3: Compute(Docker)
Layer 2: Storage(S3 / MinIO)
Layer 1: Network(Tailscale Client + Headscale)

3️⃣ 核心组件说明

🧠 AI Core(智能层)

负责:

  • 任务规划(Planner)
  • 任务拆解
  • Agent 决策
  • 自动化流程编排
  • 只生成计划与调度意图,不直接访问 Node / Docker / Nomad 内部接口

🧭 Scheduler(调度层)

基于 Nomad

负责:

  • 任务分配
  • 节点调度
  • 资源管理
  • 任务生命周期管理

⚙️ Compute(执行层)

  • Docker 容器运行
  • Worker 节点执行任务
  • 可扩展计算资源

🌐 Network(网络层)

基于 Tailscale Client + Headscale 自托管控制面

  • 节点互联
  • 私有网络构建
  • NAT 穿透

💾 Storage(存储层)

  • S3 兼容接口
  • 对象存储(MinIO / SeaweedFS)
  • 支持扩展分布式存储
  • 控制面元数据与审计状态允许由独立 Metadata Store 承载,但只能通过 Storage / Control API 暴露,业务模块禁止直连

3.5️⃣ 状态持久化模型

Object Data      → S3 Compatible Storage
Control Metadata → Metadata Store(任务、节点、租约、Token、审计)
Access Rule      → 所有模块只能通过 Storage API / Control API 访问状态
  • S3 继续作为统一对象存储接口
  • 任务元数据、节点注册、心跳、权限令牌、审计事件不能只保存在内存或本地文件
  • Metadata Store 是控制面内部实现,不改变“外部存储接口 = S3”的架构原则

4️⃣ 任务执行流程(核心)

User / AI Request
API Gateway(VPS)
AI Core(任务拆解)
Scheduler(Nomad)
Node Worker(Docker)
Execution Result
Storage / AI Feedback

5️⃣ 数据流模型

AI → Planner → Scheduler → Worker → Result → Storage → AI Memory

说明:AI Memory 的原始文件落在 S3,对应索引、状态、审计信息落在 Metadata Store。


6️⃣ 控制流模型

VPS(Control Plane)
Nomad(Decision Layer)
Nodes(Execution Layer)

7️⃣ 设计关键原则

  • 控制层与执行层完全解耦
  • 所有节点可插拔
  • 任务必须可迁移
  • Storage 独立于 Compute
  • AI 不直接控制节点
  • 所有关键状态必须脱离单机内存并可重建

8️⃣ 系统特点总结

  • 分布式计算系统
  • AI 驱动调度
  • 统一资源池
  • 动态节点管理
  • 未来可扩展为 AI Cloud OS

9️⃣ 当前阶段(v0.1)

  • VPS 已确定为控制节点
  • Nomad 作为调度核心
  • Tailscale Client + Headscale 作为自托管网络层
  • Docker 作为执行层

🔟 下一步(关键)

下一份文档:

04_核心模块设计.md

将详细拆解:

  • Network 模块
  • Compute 模块
  • Storage 模块
  • AI Core 模块