• 阿里巴巴在混沌工程领域的实践和思考

    原因也不复杂,虽然故障注入自动化了,业务验证的成本仍然比较高。在业务高速发展、人员变化较快的环境之下,保持一套相对完善的线上回归用例集对是见非常难的事情。虽然也出现了流量录制技术,不过因为混沌工程实验...
    文章 2018-12-19 3264浏览量
  • 企业级IT运维平台的发展趋势与规划要点

    故障分析:通过运维数据及事件、告警,结合以前发现问题的经验知识库和模型,建立故障树分析,结合决策树等相关算法,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易。趋势预测:进行...
    文章 2018-11-09 5033浏览量
  • 搜狗智能联想输入法,背后的运维又是如何智能的?

    每当出现一类问题,就编入知识库和故障分析模块,避免下一个同样的故障发生。但实际情况是,大家在操作某一个模块时,不一定会去看之前存在的问题和解决方案。搜狗的做法是把这些问题与知识固化到系统里,让机器人...
    文章 2017-11-27 1241浏览量
  • 鲜为人知的混沌工程,到底哪里好?

    原因也不复杂,虽然故障注入自动化了,业务验证的成本仍然比较高。在业务高速发展、人员变化较快的环境之下,保持一套相对完善的线上回归用例集对是见非常难的事情。虽然也出现了流量录制技术,不过因为混沌工程实验...
    文章 2019-01-29 3236浏览量
  • 新技术导向下的IT运维管理

    通过自动化的流程触发,方便进行监控和事故处理?对重要的网络设备实施主动式监控、管理,如:路由器、交换机、防火墙等,甚至提升至服务监控网络设备和应用配置参数,一旦配置参数发生变化,将触发流程,转给相关...
    文章 2017-11-17 1131浏览量
  • IT运维,关注技术还是管理

    市场研究机构Gartner调查发现,在导致IT基础设施出现故障原因中,源自技术或产品方面的因素其实只占了20%,而因为运维管理方面的原因则占到80%,可见IT系统运维管理思想是相当重要的。所以,我们必须要向管理要...
    文章 2017-11-09 836浏览量
  • 系统运维日常工作有哪些,应该具备哪些技能

    2、熟悉常见Linux系统(以CentOS/Redhat为主)和故障处理;3、熟练shell脚本,熟悉php、perl、python、ruby等至少一种开发语言;4、熟悉常见应用服务(如:Nginx、Tomcat、HAProxy、Redis、RabbitMQ等)的配置维护 ...
    文章 2017-11-15 1554浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2018-01-05 4917浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2019-07-31 1009浏览量
  • 面向失败的设计-故障与攻防演练锤炼容灾应急能力

    初期:可以选择故障覆盖率这个指标(即发生并改进过故障的系统,要能够免疫同样原因故障)。此时实验场景数就近似等同于故障覆盖率的分母。中期:可以选择监控发现率这个指标。此时实验场景数与实验次数是分母,...
    文章 2019-11-08 1507浏览量
  • 一目了然,看民生银行 IT 运维故障管理可视化案例

    排障结束后,还可借助应用画像功能(如下图4所示),对故障的形成原因及解决方法进行复盘,制定预案,为可能的故障二次发生或次生风险提供预防措施和紧急处理指导意见。图4:应用画像展示 3 变更影响分析 在日常的...
    文章 2018-09-27 3450浏览量
  • 自动化测试最佳实践 连载五

    用这个新工具实施的某产品的首次发布测试中,要求不论何种原因,无论是产品原因或者是测试原因,至少75%的测试运行的时候不会出现故障。最后,要求至少96%的测试运行的时候不会出现故障。2.5 结果 该工具经过3年的...
    文章 2017-07-10 1620浏览量
  • 闲鱼神探——线上问题定位与快速解决

    神探具备下游依赖、DB、容器(CPU、LOAD、线程池满)、单机异常、多原因综合定位,满足日常绝大部分故障、日常定位需求。实际案例 XXXX年X月XX日*引起的故障 XXXX年X月XX日全站交易下跌超过20%,闲鱼也受影响。报警...
    文章 2020-07-28 1664浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2017-12-14 1890浏览量
  • ITIL好看不好吃?(四)

    就是这个问题是否可以提供给我处理依据,可以将以往已经处理过得类似的处理方式提供给我做参考,所以这才是服务台的关键,自动化的根据故障的类型,关联出知识库中的对应条目,那就更好了,比如下面途中的示例: ...
    文章 2017-11-07 1214浏览量
  • 运维工程师需要掌握的技能

    3、TCP/HTTPs协议及三次握手,四次挥手,get/post的差异,协议头,跳转,常见返回码的含义200/30x/40x/50x等知识及导致返回码的可能故障原因,如果可能请详细了解TCP/TP协议内容;4、web的优化,web 访问的流程,从...
    文章 2018-05-09 6283浏览量
  • 阿里云弹性计算研发团队如何从0到1自建SRE体系

    其中有部分和现有的 DevOps 平台合作,游离在现 DevOps 之外的部分我们都自己做了研发支持,比如日志清理以及进程自动重启,并开发了自动化工具可以自动化清理大文件以及重启故障进程。举一个例子就是数据订正,数据...
    文章 2021-06-08 710浏览量
  • 面向失败的设计-自动化运维管控

    这里有个有趣的现象:如果某产品的客户是技术/研发类人员,则其自动化程度会高些,而若产品的客户是pd、运营、商家等非技术类人员则其系统自动化程度相对较低,究其原因这和产品研发团队支持的客户群体、问题量大小...
    文章 2019-11-08 719浏览量
  • 托管节点池助力用户构建稳定自愈的 Kubernetes 集群

    所以我们说自愈难度大,原因在于我们无法事先穷举所有可能的故障,也就无法完全覆盖故障解法。并且维护复杂多样的自愈方案对人类的脑容量来讲将会是灾难。千奇百怪的故障总会突破任何一个人脑容量的上限。2.第二阶段...
    文章 2021-02-02 3218浏览量
  • 自动化测试最佳实践:来自全球的经典自动化测试案例...

    也常用TiP测试来鉴定发生随时间不断流逝的间歇失效的根本原因(随着时间流逝出现故障的百分比,而不仅仅只是在单个事故中出现故障)。3.6.4 聚集处理结果中的“噪声”我们学到了很多关于对一个实时服务如何执行测试...
    文章 2017-08-02 1258浏览量
  • Linux运维工程师的一天是如何度过的

    2.处理发布,基本都是自动化,但是总有发布不成功或者需要回滚的时候,这时候就需要手工介入,找到原因,并跟开发一起讨论最后是否撤销还是重上 3.日常一起能够自动化的工作尽量找到自动化的方法 4.会启动一些和运维...
    文章 2017-11-27 1956浏览量
  • 2017 热门开源自动化测试框架优缺点对比

    因 JUnit 中的方法名称受 Java 约定限制等原因,非技术人员很难读懂测试结果。如果你正在为你的 Java 应用编写单元测试,那这可能是最好的选择。但是,对于功能测试或非 Java 应用,应考虑其他解决方案。3.Spock ...
    文章 2018-03-13 1889浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    2.预测性维修预测性维修是以设备当前的实际工作状况为依据,相比传统的以设备使用时间为依据的维修,它通过先进的状态监测与诊断手段,识别故障的早期征兆,对故障部位、故障程度和发展趋势做出判断,根据诊断结果来...
    文章 2019-11-08 1477浏览量
  • 阿里大数据运维新成员——24小时待命!...

    初期发展可能还能够采用统一的存储,但是随着业务的发展,我们将越来越难通过统一的存储完成完整的知识图谱的构建,而且由于历史原因,我们本来就有大量结构化的数据存储在不同的产品上,我们应该借助于这些产品已有...
    文章 2019-03-27 1830浏览量
  • 10 人,2 个月|虾米音乐的监控体系升级之路

    本文已添加至『StabilityGuide』,该项目是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测、故障演练、JVM、应用容器、服务框架、流量调度、监控、诊断等多个技术领域,以更结构化的...
    文章 2019-08-22 2352浏览量
  • 如何应对数据中心突发事件(下)

    报告的目的是通知与故障相关的人发生的故障情况,不是原因分析,这通常在后续的故障分析报告中显示。报告中的图片是非常有用的。每个步骤应该有已知的时间戳。当事件超过一天,应插入日期分隔符,其中包含模板中提供...
    文章 2017-07-04 1659浏览量
  • 人工智能如何改变制造业和工业物联网?

    除了自动化和机器人等明显的用例之外,人工智能系统还能够优化制造流程,发送早期警报,促进质量检查和质量控制并预测机械设备的故障。关键是收集正确的数据,然后制造商可以开发创新的AI应用,从而使其与众不同。...
    文章 2021-02-25 246浏览量
  • 云计算将扼杀一些IT人员的工作机会

    随之而来的是,组织的数据中心缩小规模,不再需要构建和维护数据中心网络,服务器和应用程序,并且排除日常故障的工作人员。组织只需要更少的工作人员来管理工作负载,安全性以及供应商合同。自动化的应用将会使许多...
    文章 2017-07-04 1061浏览量
  • 极致用云,数智护航

    提供智能监控(智能基线、黄金指标异常检测等)能力,精准高效地发现故障、并迅速判定故障的级别和影响面,并对故障原因作出定界。同时,我们也提供报警处理和监控运维联动能力,智能化地收敛与分级报警,并联动运维...
    文章 2021-12-24 143浏览量
  • 浅谈告警管理能力成熟度模型

    告警自愈是一套完备的故障自动化处理流程,通过打通监控工具、告警平台、任务调度平台、CMDB、ITIL等相关系统,实现从告警接收,根因定位,规则匹配,脚本执行,故障恢复,人工确认,最后到告警恢复,真正实现告警的...
    文章 2019-08-14 1272浏览量
1 2 3 4 ... 15 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化
http://www.vxiaotou.com