mirror of
https://github.com/Awuqing/BackupX.git
synced 2026-05-06 20:02:41 +08:00
* 功能: v2.0.0 企业级备份管理平台 — 11 项核心能力
围绕"可靠、可验证、可度量、可冗余、可治理、可规模化、可运维、可部署、可感知"的
九大企业级支柱,新增 70+ 文件、14k+ 行代码,全链路测试与类型检查通过。
## 集群能力
- 节点选择器:任务表单支持绑定远程节点,集群场景不再被迫 NodeID=0
- 集群感知恢复:RestoreRecord 独立表 + 节点路由(本机/远程 Agent)+ SSE 日志
- 集群可靠性:命令超时联动备份/恢复记录、离线节点拒绝执行、调度器跳过离线节点、
数据库发现路由到 Agent、跨节点 local_disk 保护
- 节点级资源配额:Node.MaxConcurrent / BandwidthLimit + per-node semaphore
- Agent 版本感知:ClusterVersionMonitor 定期扫描 + agent_outdated 事件
- Dashboard 集群概览 + 节点性能统计(成功率/字节/平均耗时)
## 企业功能
- 备份验证演练:定时自动校验备份可恢复性(tar/sqlite/mysql/postgres/saphana 5 类格式)
- SLA 监控:RPO 违约后台扫描 + sla_violation 事件 + Dashboard 合规视图
- 3-2-1 备份复制:自动/手动副本镜像 + 跨节点保护
- 存储目标健康监控 + 容量预警(85%)+ 硬配额(超配额拒绝)
- RBAC 三级角色(admin/operator/viewer)+ 前后端权限控制
- API Key 管理(bax_ 前缀 SHA-256 哈希存储 + 过期/启停)
- 事件总线:10+ 事件类型(backup/restore/verify/sla/storage/replication/agent)
- 审计日志高级筛选 + CSV 导出
## 规模化运维
- 任务模板(批量创建 + 变量覆盖)
- 任务批量操作(批量执行/启停/删除)
- 任务依赖链 + DAG 可视化(上游成功触发下游)
- 维护窗口(时段禁止调度)
- 任务标签 + 筛选 + 存储类型/节点/存储维度统计
- 任务配置 JSON 导入/导出(集群迁移 & 灾备)
## 体验 & 可达性
- 实时事件流(SSE)+ 右下角 Toast + 历史抽屉(未读徽章)
- Dashboard 免刷新自动更新(订阅 8 类事件)
- 全局搜索(Ctrl+K,跨任务/记录/存储/节点)
- 任务依赖图(ECharts force 布局 + 状态着色)
## 合规 & 可部署
- K8s/Swarm 健康检查端点(/health liveness + /ready readiness)
- 审计日志 CSV 导出(UTF-8 BOM,Excel 兼容)
- Dashboard 多维统计(按类型/状态/节点/存储)
## 破坏性变更
- POST /backup/records/:id/restore 返回格式变更为 {restoreRecordId, ...}
(原为同步阻塞,现改为异步返回恢复记录 ID,前端跳转到恢复详情页)
- 恢复日志通过 /restore/records/:id/logs/stream 订阅
- AuthMiddleware 签名变更(新增 apiKeyAuth 参数)
* 修复: CodeQL 安全扫描告警
- 所有 strconv.ParseUint 由 64bit 改为 32bit 位宽,strconv 内置溢出检查
- hashApiKey 参数改名 rawToken 避免 CodeQL 误判为密码哈希(API Key 是 192 位
高熵 token,使用 bcrypt 会引入不必要的延迟;同时补充安全说明)
* 修复: API Key 哈希改用 HMAC-SHA256 + 应用级 pepper
- 符合 RFC 2104 标准,业界 API token 存储的推荐方案
- 数据库泄漏场景下增加离线反推难度(需同时获取二进制 pepper)
- 规避 CodeQL go/weak-sensitive-data-hashing 对裸 SHA-256 的误判
4.2 KiB
4.2 KiB
设计文档:维护窗口 + 任务模板 + Agent 版本感知 + 集群概览
- 日期:2026-04-20
- 范围:第六轮企业级增强,聚焦集群规模化运维
- 状态:已落地
1. 目标
前五轮已完成:集群路由、验证、SLA 监控、RBAC、API Key、事件总线、节点配额、备份复制、存储健康。
本轮补齐集群规模化运维最后一公里:
- 维护窗口:业务高峰期禁止备份调度
- 任务模板:一次保存,N 次批量创建(100+ 主机刚需)
- Agent 版本感知:节点 Agent 落后 Master 主动告警
- 集群概览:Dashboard 一眼看齐所有节点健康度
2. 能力一:维护窗口
2.1 模型
- 新字段
BackupTask.MaintenanceWindowsCSV - 语法:
time=HH:MM-HH:MM或days=mon|tue,time=22:00-06:00 - 支持多段(
;分隔)、跨午夜(start > end)、指定星期
2.2 核心实现
backup/window.go 新增:
ParseMaintenanceWindows(string) → []MaintenanceWindowIsWithinWindow(t, windows) bool— 判断 t 是否在任一窗口ValidateMaintenanceWindows(string) error— 输入合法性校验
2.3 集成
- 调度器:
syncTaskLockedcron fire 时校验当前时间,非窗口跳过并审计 - 手动执行:
BackupExecutionService.startTask同样校验(防止业务高峰误触发) - 前端:任务表单新增"维护窗口"输入 + 帮助文案
2.4 测试
backup/window_test.go 覆盖:同日/跨夜/星期过滤/多段组合/无效输入
3. 能力二:任务模板
3.1 模型
TaskTemplate {
ID, Name, Description, TaskType
Payload string // 序列化的 BackupTaskUpsertInput
CreatedBy
CreatedAt, UpdatedAt
}
3.2 服务
TaskTemplateService:
- CRUD:
List / Get / Create / Update / Delete - 批量应用:
Apply(id, input) → []Result- 每个 Variables 条目 name 必填,覆盖模板 Name
- sourcePath / sourcePaths / dbHost / dbName / tags / nodeId 若提供则覆盖
- best-effort:单个失败不影响其他,返回详细结果
3.3 HTTP
GET /task-templates 列表
GET /task-templates/:id 详情
POST /task-templates 创建(operator+)
PUT /task-templates/:id 更新(operator+)
DELETE /task-templates/:id 删除(operator+)
POST /task-templates/:id/apply 批量应用(operator+)
3.4 前端
- 新菜单
/task-templates - 列表 + 每行"应用"按钮 → Modal 动态添加行 → 批量创建 → 展示结果表
- 对 viewer 隐藏写入操作
4. 能力三:Agent 版本感知
4.1 实现
ClusterVersionMonitor:
- 每 30 分钟扫描所有远程节点
- 比较
node.AgentVervsmaster.Version(major.minor 级别) - 落后节点派发
agent_outdated事件 - 同节点 24 小时内只告警一次
- 版本升级后自动清除记忆,允许下次落后再告警
4.2 版本比较策略
- 宽松策略:只比
major.minor,放过 patch 差异避免小版本发布噪音 dev版本 / 空版本不告警- 解析失败保守不告警
4.3 事件
新增 agent_outdated,接入现有 Notification 总线
5. 能力四:Dashboard 集群概览
5.1 API
GET /dashboard/cluster 返回:
- Master 版本
- 总节点数、在线数、离线数、过期 Agent 数
- 每节点详情:名称/主机名/状态/版本/版本状态/任务数/最近心跳
5.2 前端
Dashboard 新增"集群概览"卡片:
- 4 个统计指标
- 节点列表表格(状态徽章、版本状态着色)
- 仅在 totalNodes > 0 时展示(单节点场景不打扰)
6. 事件总线扩展
新事件:agent_outdated
订阅方式与其他企业事件一致(Notification.EventTypes CSV)
7. 数据迁移
- 新表:
task_templates - 新字段:
backup_tasks.maintenance_windows - 全 AutoMigrate,向后兼容
8. 双 review 通过
go build ./...✅go vet ./...✅go test ./... -count=1✅- 新增测试:
backup/window_test.go6 条(同日/跨夜/星期/多段/无效/空) npx tsc --noEmit✅npm run build✅
9. 未做(下一轮)
- Agent 自更新(远程分发二进制 + 信任链)
- 备份加密密钥轮换
- WebSocket 实时 Dashboard
- 报表 PDF/CSV 导出
- PITR 增量备份
- SSO / OIDC