1 / 21
文档名称:

滴滴自动化运维实践.pdf

格式:pdf   页数:21页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

滴滴自动化运维实践.pdf

上传人:精品库 2016/3/9 文件大小:0 KB

下载得到文件列表

滴滴自动化运维实践.pdf

相关文档

文档介绍

文档介绍:滴滴?自动化运维实践滴滴如何运维千级别机器@ 俞进秋 2015/08/29 ?自我介绍俞进秋? 2010 - 2014 百度- 业务运维- 消息中间件运维研发? 2014 - ?至今滴滴- Devops 团队 Agenda ?滴滴运维问题与挑战?滴滴?自动化运维思路?滴滴?自动化运维实践- WorldTree - 监控系统- 故障处理滴滴运维挑战?产品线同构, 运维?角度如何复?用? - 出租?车: api, mis, … - 专?车: api, mis, … - … ?流量突增, 如何快速扩容? - 初始化环境- 监控采集- … ?业务频繁变更, 如何维护服务稳定? - 代码 bug - 故障处理- …运维思路?以服务节点为中?心, ?而不是机器?服务节点包含运维相关资源( 机器, 初始化策略,…) ?资源变更?自动化感知并执?行应?用到对应服务器滴滴实践(Odin) WorldTree( 平台基?石) 部署系统 User(OP/RD/…) 监控系统… WorldTree ( 设计) ?叶?子节点包含资源- 机器- 初始化策略- 监控采集- 报警策略- …… ?资源?文本存储?资源变更版本记录???目录结构即树??父节点包含模板, 创建?子节点时继承?资源变更产?生 Event, 外部系统消费 WorldTree ( 架构) MasterTree SlaveTree SlaveTree MQ machine .. 获取机器列表(NameService) collect .. 获取监控采集列表 deploy .. 获取部署策略列表 Api Read Write Sync C C 处理资源变化 Event. ?比如新上线?一台机器, ?自动安装 Agent Gitlab Sync User(OP/RD/…) 批量处理 Pull Request Event 监控系统( 需求: ?自动化+ 复?用) ?新上架机器?自动化安装 Agent ?服务扩容之后, 所有监控?自动?生效?新增?一个模块, 所有基础监控?自动添加?节点迁移, 采集/ 报警策略?自动完成迁移?各个产品线架构类似, 采集/ 报警策略复?用? ……监控系统( 架构) WorldTree Alarm1 Alarm2 Alarm3 Channels SMS IRC Callback … OdinAgent LogAgent NSQProxy NSQ NSQ In?uxDBProxy In?uxDBCluster1 In?uxDBCluster2 Event1 Event2 Event3 Zk AlarmProxy( ?一致性 Hash)