• 系统运维日常工作有哪些,应该具备哪些技能

    2、熟悉常见Linux系统(以CentOS/Redhat为主)和故障处理;3、熟练shell脚本,熟悉php、perl、python、ruby等至少一种开发语言;4、熟悉常见应用服务(如:Nginx、Tomcat、HAProxy、Redis、RabbitMQ等)的配置维护 ...
    文章 2017-11-15 1554浏览量
  • 企业级IT运维平台的发展趋势与规划要点

    故障分析:通过运维数据及事件、告警,结合以前发现问题的经验知识库和模型,建立故障树分析,结合决策树等相关算法,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易。趋势预测:进行...
    文章 2018-11-09 5033浏览量
  • 阿里巴巴在混沌工程领域的实践和思考

    因为故障演练之前是作为一个技术组件被嵌入到常态和大促的流程中,所以在系统构建自动化的编排和分析方面的产品度并不高。演练可视化编排和能力开放会是我们团队未来的一个重点,下文中的规划部分会有所阐述。2.5 ...
    文章 2018-12-19 3264浏览量
  • 搜狗智能联想输入法,背后的运维又是如何智能的?

    每当出现一类问题,就编入知识库和故障分析模块,避免下一个同样的故障发生。但实际情况是,大家在操作某一个模块时,不一定会去看之前存在的问题和解决方案。搜狗的做法是把这些问题与知识固化到系统里,让机器人...
    文章 2017-11-27 1241浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    网络故障处理全面进入自动化处理和智能化调度时代,60%以上的风险隐患已经实现了自动化处理,大大降低了问题处理时长,实现故障的快速恢复。自恢复是一种怎样的体验?当监控系统探知到一个具体故障正在发生时,就会...
    文章 2018-01-05 4917浏览量
  • 鲜为人知的混沌工程,到底哪里好?

    因为故障演练之前是作为一个技术组件被嵌入到常态和大促的流程中,所以在系统构建自动化的编排和分析方面的产品度并不高。演练可视化编排和能力开放会是我们团队未来的一个重点,下文中的规划部分会有所阐述。2.5 ...
    文章 2019-01-29 3236浏览量
  • 闲鱼神探——线上问题定位与快速解决

    为响应故障报警最快解决,集团内部很多团队都在做故障定位系统,这里简单比较常见的解法。1、基于专家经验的决策树模式目前最成熟,做的最多的方案是基于专家经验,对以往排查路径进行沉淀收敛,以决策树模型进行...
    文章 2020-07-28 1664浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    网络故障处理全面进入自动化处理和智能化调度时代,60%以上的风险隐患已经实现了自动化处理,大大降低了问题处理时长,实现故障的快速恢复。自恢复是一种怎样的体验?当监控系统探知到一个具体故障正在发生时,就会...
    文章 2019-07-31 1009浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    网络故障处理全面进入自动化处理和智能化调度时代,60%以上的风险隐患已经实现了自动化处理,大大降低了问题处理时长,实现故障的快速恢复。自恢复是一种怎样的体验?当监控系统探知到一个具体故障正在发生时,就会...
    文章 2017-12-14 1890浏览量
  • 零基础转行Linux云计算运维工程师获得20万年薪的超级...

    9、生产环境基于自动化运维常见场景如自动化发布、灰度发布、批量上线、降级方案、无缝切换等核心技术 第五阶段:Linux系统架构师&运维架构师 1、全面介绍缓存技术要点,讲解数据流式化、代理式缓存、旁路式缓存...
    文章 2018-02-28 3685浏览量
  • 最适合初学者的Linux运维学习教程2018版

    9、生产环境基于自动化运维常见场景如自动化发布、灰度发布、批量上线、降级方案、无缝切换等核心技术 第五阶段:Linux系统架构师&运维架构师 1、全面介绍缓存技术要点,讲解数据流式化、代理式缓存、旁路式缓存...
    文章 2018-02-28 4266浏览量
  • 面向失败的设计-自动化运维管控

    1.由于系统变更导致的线上故障分是否有所收敛,是否有因为变更导致的故障,出现故障后是否有快速分析定位和修复问题的自动化机制等;2.在满足所负责产品日常答疑需求的前提下观察团队在答疑支持上面的投入程度,这是...
    文章 2019-11-08 719浏览量
  • 异步社区本周(4.30-5.6)半价电子书

    本书是一本详尽而又实用的IP路由协议故障排除手册,内容层次分明、阐述清晰、分析透彻、理论与实践并重,能够帮助读者解决实战中所遇到的各种IP路由协议常见故障。本书涉及了各种新式和老式IP路由协议,包括:RIP、...
    文章 2018-05-03 1748浏览量
  • 运维工程师需要掌握的技能

    3、TCP/HTTPs协议及三次握手,四次挥手,get/post的差异,协议头,跳转,常见返回码的含义200/30x/40x/50x等知识及导致返回码的可能故障原因,如果可能请详细了解TCP/TP协议内容;4、web的优化,web 访问的流程,从...
    文章 2018-05-09 6283浏览量
  • 转行做Linux运维工程师,简历的项目经验应该怎么写...

    平时没事的时候安装一个纯的linux系统把常见一些软件自己亲自安装一下,并且把过程整理成文档,多总结归纳时间长了积累的经验够了慢慢也就有了感觉,安装部分相对比较简单,主要是监控部分以及出现系统故障如何快速...
    文章 2018-10-17 23064浏览量
  • 传感器应用全面开花,国产传感器产业任重而道远

    近日,国网镇江供电公司变电检修室的“并联电力电容器故障预警技术研究”获颁国家知识产权专利。该技术是一种并联电力电容器故障预警系统,其由局放传感器、电压电流互感器等多种传感器和系统工作站组成,可实现对...
    文章 2017-07-17 1273浏览量
  • 阿里云马劲:保证云产品持续拥有稳定性的实践和思考

    1、SSRD设计和对应产品的负责人一起确定用哪些指标来描述服务的稳定状态,常见的指标可以参考服务的SLA、SLO设计。这些指标主要用来描述系统的可靠性设计以及衡量的指标。在这个过程中,我们会和云产品的负责人一起...
    文章 2018-12-06 15834浏览量
  • 10 人,2 个月|虾米音乐的监控体系升级之路

    本文已添加至『StabilityGuide』,该项目是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测、故障演练、JVM、应用容器、服务框架、流量调度、监控、诊断等多个技术领域,以更结构化的...
    文章 2019-08-22 2352浏览量
  • Linux运维工程师的一天是如何度过的

    数据库备份和恢复,是运维日常操作中最常见的操作了,一般是写计划任务对数据进行备份 但是更重要的是需要对备份的数据定期进行检查,计划任务是否成功执行,数据库份是否完整等。5.紧急故障处理 服务器内存故障,...
    文章 2017-11-27 1956浏览量
  • 阿里大数据运维新成员——24小时待命!...

    如今大家在碰到问题时,都非常喜欢使用搜索引擎,因此我们只需要将搜索能力引入到机器人中,配合适当的自然语言分词技术,就可以让机器人起到答疑一线的作用,解决大部份常见问题。同时,为了让答疑能有更好的效果,...
    文章 2019-03-27 1830浏览量
  • 运维数据生态:高阶落地的一些场景

    知识图谱在运维领域主要构建了常见的容量场景、业务链路场景、故障场景&xff0c;通过一定策略判断对数据输出实现辅助决策功能。对于AiOps而言&xff0c;知识图谱实现了一定的数据思考和数据推理&xff0c;和监控系统的打通...
    文章 2021-11-04 30浏览量
  • AI助力日志中心智能化运营

    在业务流程链中,当业务模块出现问题时,用户可以通过点击跳转到对应业务线的仪表盘,所有的仪表盘可以通过灵活配置使其一层一层转到某一点,该过程表现为故障知识积累。当业务请求出现问题时,例如某一时间点的某一...
    文章 2018-06-23 10199浏览量
  • 日志易饶琛琳分享:AI 助力日志中心智能化运营

    在业务流程链中,当业务模块出现问题时,用户可以通过点击跳转到对应业务线的仪表盘,所有的仪表盘可以通过灵活配置使其一层一层转到某一点,该过程表现为故障知识积累。当业务请求出现问题时,例如某一时间点的某一...
    文章 2018-09-25 2226浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    演讲嘉宾简介:滕圣波(云普),阿里云高级技术专家,2018年5月加入阿里云,作为架构师搭建了ECS的事件体系,同时也是阿里云的官方自动化运维平台-运维编排服务的主架构师之一,目前负责ECS智能自治服务、云桌面等...
    文章 2020-10-28 3610浏览量
  • 25-30K ??|网络工程师职业技巧与经典面试题?

    尽管自动化工程师通常在开发自动化功能起主要作用&xff0c;但是网工最好也要对相关功能做一个了解。x1f3f3;??&x1f308;MPLS尽管SD-WAN的出现已经部分取代了MPLS在企业中的地位&xff0c;但许多企业仍然依赖MPLS来确保...
    文章 2021-12-06 14浏览量
  • 如何监测多云环境

    发生故障时,企业需要能够诊断和修复故障、自动修复常见的重复性问题,同时限制停机时间。而停机不仅成本高昂,还会严重影响用户的信任度。调研机构Gartner公司调查表明,计划外停机的平均成本为每分钟5,600美元。...
    文章 2019-12-12 834浏览量
  • Devops入门手册

    此 DevOps 工程师证书将测试您如何使用最常见的 DevOps 模式在 AWS 上开发,部署和维护应用程序。它还会评估 DevOps 方法的核心原则。该认证有两个必要条件:认证费用为300美元,持续时间为170分钟。Red Hat ...
    文章 2019-04-09 4825浏览量
  • Kubernetes Operator不仅仅用于数据库,关于它你要...

    正如红帽产品经理Rob Szumski在博客中指出的那样,“Operator的关键属性是对应用程序的主动、持续管理,包括故障转移、备份、升级和自动缩放,就像云服务一样。当然,如果你的应用程序不存储状态数据,则备份可能不...
    文章 2021-11-03 16浏览量
  • 《工业控制网络安全技术与实践》一一导读

    其中涉及的不仅仅是信息泄露、信息系统无法使用等“小”问题,而是会对现实世界造成直接的、实质性的影响,如设备故障、环境污染、人员伤亡甚至危害国家安全,其后果是无法预计的。我国政府对工业控制系统的安全性...
    文章 2017-08-02 1032浏览量
  • 网络自动化挑战及ONAP介绍

    自愈性:采用自动化系统解决常见故障,由于平台对问题和故障可以自动感知,故平台可以基于已有经验或者预置策略实现常见故障自动化修复。这样可以明显降低常见故障的平均修复时间(MTTR)。在Google的基础设施中,...
    文章 2019-11-07 2664浏览量
1 2 3 4 ... 12 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化
http://www.vxiaotou.com