Linux云原生资源治理教程_资源浪费与成本优化_运维开发

云原生资源浪费典型场景包括无流量测试服务、未设资源限制的Pod、执行完不释放内存的CronJob、高配低载开发实例；需通过ResourceQuota、requests/limits、VPA推荐、LimitRange等K8s原生能力约束，并结合Prometheus监控与自动化治理机制持续优化。

云原生环境里，资源浪费往往藏在“看不见”的地方：比如长期运行但实际无流量的测试服务、未设置资源限制的Pod导致节点资源被单个应用吃尽、定时任务（CronJob）执行完不自动释放内存、或是开发环境常年开着高配实例却只跑一个轻量API。这些不是配置错误，而是治理盲区。

不依赖第三方工具也能迈出优化第一步：

为所有命名空间设置ResourceQuota，限制CPU/内存总量和Pod数量，防止开发随意申请资源；
给每个Deployment和StatefulSet定义requests/limits，尤其避免只设limit不设request——这会导致调度器无法准确评估节点负载；
启用Vertical Pod Autoscaler（VPA）的recommendation模式，先观察两周再生成调优建议，比盲目拍脑袋缩容更可靠；
用LimitRange为命名空间设置默认requests，让没写资源声明的Pod也能被合理约束。

看Prometheus指标比看云厂商账单更早发现问题：

查container_cpu_usage_seconds_total除以container_spec_cpu_quota，算出CPU实际使用率；持续低于10%的Pod大概率可降配；
盯container_memory_working_set_bytes曲线，对比container_spec_memory_limit，若长期稳定在30%以下，内存可减半；
用kube_pod_status_phase{phase="Running"}结合标签筛选，找出运行超7天且无网络请求（通过Service或Ingress日志验证）的“僵尸Pod”。

一次性优化管不了三个月，得靠流程卡点：

CI流水线中加入资源检查：MR提交时校验YAML是否含requests/limits，缺失则阻断合并；
每月自动邮件通报TOP10高耗资源命名空间，附带优化建议（如“命名空间dev-test有3个Pod内存limit为4Gi但平均只用0.6Gi，建议调至1.5Gi”）；
把成本指标纳入SLO：例如“非生产环境单Pod月均CPU成本≤$2”，超标需负责人说明原因并限期整改；
下线策略自动化：用K8s Job定期扫描label=env:staging且last-seen>14d的Pod，自动打上drain标记并通知负责人。