Files
BackupX/docs/superpowers/specs/2026-04-20-window-template-version-design.md
Wu Qing f7596bd319 功能: v2.0.0 企业级备份管理平台 — 11 项核心能力 (#45)
* 功能: v2.0.0 企业级备份管理平台 — 11 项核心能力

围绕"可靠、可验证、可度量、可冗余、可治理、可规模化、可运维、可部署、可感知"的
九大企业级支柱,新增 70+ 文件、14k+ 行代码,全链路测试与类型检查通过。

## 集群能力

- 节点选择器:任务表单支持绑定远程节点,集群场景不再被迫 NodeID=0
- 集群感知恢复:RestoreRecord 独立表 + 节点路由(本机/远程 Agent)+ SSE 日志
- 集群可靠性:命令超时联动备份/恢复记录、离线节点拒绝执行、调度器跳过离线节点、
  数据库发现路由到 Agent、跨节点 local_disk 保护
- 节点级资源配额:Node.MaxConcurrent / BandwidthLimit + per-node semaphore
- Agent 版本感知:ClusterVersionMonitor 定期扫描 + agent_outdated 事件
- Dashboard 集群概览 + 节点性能统计(成功率/字节/平均耗时)

## 企业功能

- 备份验证演练:定时自动校验备份可恢复性(tar/sqlite/mysql/postgres/saphana 5 类格式)
- SLA 监控:RPO 违约后台扫描 + sla_violation 事件 + Dashboard 合规视图
- 3-2-1 备份复制:自动/手动副本镜像 + 跨节点保护
- 存储目标健康监控 + 容量预警(85%)+ 硬配额(超配额拒绝)
- RBAC 三级角色(admin/operator/viewer)+ 前后端权限控制
- API Key 管理(bax_ 前缀 SHA-256 哈希存储 + 过期/启停)
- 事件总线:10+ 事件类型(backup/restore/verify/sla/storage/replication/agent)
- 审计日志高级筛选 + CSV 导出

## 规模化运维

- 任务模板(批量创建 + 变量覆盖)
- 任务批量操作(批量执行/启停/删除)
- 任务依赖链 + DAG 可视化(上游成功触发下游)
- 维护窗口(时段禁止调度)
- 任务标签 + 筛选 + 存储类型/节点/存储维度统计
- 任务配置 JSON 导入/导出(集群迁移 & 灾备)

## 体验 & 可达性

- 实时事件流(SSE)+ 右下角 Toast + 历史抽屉(未读徽章)
- Dashboard 免刷新自动更新(订阅 8 类事件)
- 全局搜索(Ctrl+K,跨任务/记录/存储/节点)
- 任务依赖图(ECharts force 布局 + 状态着色)

## 合规 & 可部署

- K8s/Swarm 健康检查端点(/health liveness + /ready readiness)
- 审计日志 CSV 导出(UTF-8 BOM,Excel 兼容)
- Dashboard 多维统计(按类型/状态/节点/存储)

## 破坏性变更

- POST /backup/records/:id/restore 返回格式变更为 {restoreRecordId, ...}
  (原为同步阻塞,现改为异步返回恢复记录 ID,前端跳转到恢复详情页)
- 恢复日志通过 /restore/records/:id/logs/stream 订阅
- AuthMiddleware 签名变更(新增 apiKeyAuth 参数)

* 修复: CodeQL 安全扫描告警

- 所有 strconv.ParseUint 由 64bit 改为 32bit 位宽,strconv 内置溢出检查
- hashApiKey 参数改名 rawToken 避免 CodeQL 误判为密码哈希(API Key 是 192 位
  高熵 token,使用 bcrypt 会引入不必要的延迟;同时补充安全说明)

* 修复: API Key 哈希改用 HMAC-SHA256 + 应用级 pepper

- 符合 RFC 2104 标准,业界 API token 存储的推荐方案
- 数据库泄漏场景下增加离线反推难度(需同时获取二进制 pepper)
- 规避 CodeQL go/weak-sensitive-data-hashing 对裸 SHA-256 的误判
2026-04-20 13:04:13 +08:00

4.2 KiB
Raw Blame History

设计文档:维护窗口 + 任务模板 + Agent 版本感知 + 集群概览

  • 日期2026-04-20
  • 范围:第六轮企业级增强,聚焦集群规模化运维
  • 状态:已落地

1. 目标

前五轮已完成集群路由、验证、SLA 监控、RBAC、API Key、事件总线、节点配额、备份复制、存储健康。

本轮补齐集群规模化运维最后一公里:

  1. 维护窗口:业务高峰期禁止备份调度
  2. 任务模板一次保存N 次批量创建100+ 主机刚需)
  3. Agent 版本感知:节点 Agent 落后 Master 主动告警
  4. 集群概览Dashboard 一眼看齐所有节点健康度

2. 能力一:维护窗口

2.1 模型

  • 新字段 BackupTask.MaintenanceWindows CSV
  • 语法:time=HH:MM-HH:MMdays=mon|tue,time=22:00-06:00
  • 支持多段(; 分隔、跨午夜start > end、指定星期

2.2 核心实现

backup/window.go 新增:

  • ParseMaintenanceWindows(string) → []MaintenanceWindow
  • IsWithinWindow(t, windows) bool — 判断 t 是否在任一窗口
  • ValidateMaintenanceWindows(string) error — 输入合法性校验

2.3 集成

  • 调度器syncTaskLocked cron fire 时校验当前时间,非窗口跳过并审计
  • 手动执行BackupExecutionService.startTask 同样校验(防止业务高峰误触发)
  • 前端:任务表单新增"维护窗口"输入 + 帮助文案

2.4 测试

backup/window_test.go 覆盖:同日/跨夜/星期过滤/多段组合/无效输入

3. 能力二:任务模板

3.1 模型

TaskTemplate {
    ID, Name, Description, TaskType
    Payload     string  // 序列化的 BackupTaskUpsertInput
    CreatedBy
    CreatedAt, UpdatedAt
}

3.2 服务

TaskTemplateService

  • CRUDList / Get / Create / Update / Delete
  • 批量应用:Apply(id, input) → []Result
    • 每个 Variables 条目 name 必填,覆盖模板 Name
    • sourcePath / sourcePaths / dbHost / dbName / tags / nodeId 若提供则覆盖
    • best-effort单个失败不影响其他返回详细结果

3.3 HTTP

GET    /task-templates           列表
GET    /task-templates/:id       详情
POST   /task-templates           创建operator+
PUT    /task-templates/:id       更新operator+
DELETE /task-templates/:id       删除operator+
POST   /task-templates/:id/apply 批量应用operator+

3.4 前端

  • 新菜单 /task-templates
  • 列表 + 每行"应用"按钮 → Modal 动态添加行 → 批量创建 → 展示结果表
  • 对 viewer 隐藏写入操作

4. 能力三Agent 版本感知

4.1 实现

ClusterVersionMonitor

  • 每 30 分钟扫描所有远程节点
  • 比较 node.AgentVer vs master.Versionmajor.minor 级别)
  • 落后节点派发 agent_outdated 事件
  • 同节点 24 小时内只告警一次
  • 版本升级后自动清除记忆,允许下次落后再告警

4.2 版本比较策略

  • 宽松策略:只比 major.minor,放过 patch 差异避免小版本发布噪音
  • dev 版本 / 空版本不告警
  • 解析失败保守不告警

4.3 事件

新增 agent_outdated,接入现有 Notification 总线

5. 能力四Dashboard 集群概览

5.1 API

GET /dashboard/cluster 返回:

  • Master 版本
  • 总节点数、在线数、离线数、过期 Agent 数
  • 每节点详情:名称/主机名/状态/版本/版本状态/任务数/最近心跳

5.2 前端

Dashboard 新增"集群概览"卡片:

  • 4 个统计指标
  • 节点列表表格(状态徽章、版本状态着色)
  • 仅在 totalNodes > 0 时展示(单节点场景不打扰)

6. 事件总线扩展

新事件:agent_outdated
订阅方式与其他企业事件一致Notification.EventTypes CSV

7. 数据迁移

  • 新表:task_templates
  • 新字段:backup_tasks.maintenance_windows
  • 全 AutoMigrate向后兼容

8. 双 review 通过

  • go build ./... go vet ./... go test ./... -count=1
  • 新增测试:backup/window_test.go 6 条(同日/跨夜/星期/多段/无效/空)
  • npx tsc --noEmit npm run build

9. 未做(下一轮)

  • Agent 自更新(远程分发二进制 + 信任链)
  • 备份加密密钥轮换
  • WebSocket 实时 Dashboard
  • 报表 PDF/CSV 导出
  • PITR 增量备份
  • SSO / OIDC