• 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2018-01-05 4917浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2019-07-31 1009浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2017-12-14 1890浏览量
  • 阿里云弹性计算研发团队如何从0到1自建SRE体系

    可参考以下思路:在设计阶段时定义该依赖的性质,是强依赖还是弱依赖对方提供的SLO/SLA是什么,依赖方可能会出现什么问题以及对我们服务的影响是什么?如果依赖方出现了预期/非预期的异常,我们的策略是什么?如何...
    文章 2021-06-08 710浏览量
  • 自动化测试最佳实践 连载五

    1)在哪些平台上有一些什么样的bug及其出现的频率(可以帮助指定bug的优先级)。2)每个平台上的一般信息统计。3)测试中bug的检出率。4)测试的冗余。一个测试完成之后,自动发送一个包含测试结果的汇总邮件,...
    文章 2017-07-10 1620浏览量
  • 托管节点池助力用户构建稳定自愈的 Kubernetes 集群

    该类型错误可能被立即反应,也可能很久后才能反应,它的特点是需要人为的知识干预,即使替换副本也无法解决,智能决策,智能纠错)。瞬时故障通常在外部条件恢复后自行恢复,此类故障通常在能触发响应之前已经...
    文章 2021-02-02 3218浏览量
  • DBA很忙—MySQL的性能优化及自动化运维实践

    一般情况下跟我们相关就是MySQL这一层,比方说使用CPU的70%以上,我们就要去检查一下这个 MySQL 出现什么问题。再进一步往里推进,如果我们发现MySQL里面是执行某一条大MySQL的时候,发现整个服务器或者是整个数据库...
    文章 2018-11-16 4348浏览量
  • 面向失败的设计-自动化运维管控

    因此,我们一般会从两个视角来定义应用系统关键指标:业务视角和系统视角,这两个视角密不可分(如接口调用量和业务单量)。我们将指标分为面向最终结果的指标和面向过程的指标,这些指标同样也需要精确无歧义的定义...
    文章 2019-11-08 719浏览量
  • 运维数据生态:高阶落地的一些场景

    本章节中的高阶场景以告警自动阈值、知识图谱、故障自动评估、无人值守变更和数据血缘流向为例&xff0c;分别阐述相应的场景落地和具体方法。1、知识图谱知识图谱的大面积运用是从谷歌的搜索服务开始的&xff0c;从此知识...
    文章 2021-11-04 30浏览量
  • 企业Web应用中的敏捷测试和瀑布测试

    压力测试还覆盖故障转移和恢复,例如正在工作的集群中的一台服务器出现问题,检查是否可以做到故障转移和恢复。瀑布项目直到项目接近尾声的时候才做性能测试,这个时候应用程序已经“完成了”开发,通过单元测试和...
    文章 2017-07-10 1440浏览量
  • 阿里云行业视觉智能诊断技术

    对于电池片断栅故障的检测需求,客户不但要知道这个电池上断栅的故障现象,而且要知道断栅的条数,从而判断断栅的严重程度,我们一般选用目标检测网络加上回归网络的方式来检测此类问题。对于养殖业,畜牧业的动物...
    文章 2018-06-23 1536浏览量
  • kafka集群内复制功能深入剖析

    由于broker级别的故障一般会非常少,所以预期的leader和ISR都会不经常改变。对客户端来说,broker仅向消费者公开已经提交的消息。broker故障期间,已提交的数据始终被保留。消费者使用相同的offset可以从另一个被...
    文章 2018-10-16 845浏览量
  • 《Effective Debugging:软件和系统调试的66个有效...

    我们在开发软件或对运行软件的系统进行管理的时候,经常遇到故障。有些故障是因代码问题而引发的编译错误,这种故障可以在短时间内修复;还有一些故障使大型系统停机,这将给公司带来每小时数百万的损失(具体...
    文章 2017-07-04 1402浏览量
  • 分布式主动感知在智能运维中的实践

    但这样处理,下次可能还会出现同样的问题。如果将故障放到ITSM部分进行分析,就能让问题得到更根本的解决。发现故障后,通过请求管理把这件事告诉后台人员,后台人员看到请求后将故障升级为“事件”并提交给研发人员...
    文章 2019-07-09 2307浏览量
  • 基于ITIL的SCOM监控最佳实践

    同样,您还可以在科研系统文件夹下,再新建警报视图,警报视图的展示对象也可以按照父类组为展示对象,这样做了之后,您会发现,每一个系统文件夹下面的的警报视图,就会出现,整个科研系统所有的警报,但不会有除...
    文章 2017-11-12 1211浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2016-05-05 4959浏览量
  • 资料:数据恢复知识基础

    一般情况下,硬盘在发生故障时系统在屏幕上显示一些提示信息,所以我们可以按照屏幕显示的提示信息找到故障原因,有针对性地实施解决方案。软故障包括误分区、误格式化、误删除、误克隆、MBR丢失、BOOT扇区丢失、...
    文章 2017-11-16 1017浏览量
  • 腾讯最赚钱的部门是怎么做运维的?

    有些游戏类道具非常值钱,说不准哪个同学手一抖给自己加个几十万,所以我们成立了内部安全团队,做安全监控,其中也包括权限控制,大家都知道,自动化系统权限控制非常重要,如果这个没控制好就会出现灾难性后果。...
    文章 2017-05-02 2135浏览量
  • 什么?还没听说过Prometheus,或许你需要了解这些知识...

    如果是因为底层Web服务出现故障,你同样也知道。4 静态监控 另一种反模式是使用静态阈值-例如,如果主机的CPU使用率是否超过80%就发出警报。这种检查通常是不灵活的布尔逻辑或者一段时间内的固定阈值,它们通常...
    文章 2019-09-20 769浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2017-11-08 1019浏览量
  • WSFC多站点与灾难恢复

    在2008R2时代,如果我们部署多站点架构,很容易碰见网络问题而导致群集出现脑裂,2012开始,微软新增动态仲裁功能,在动态仲裁情况下,我们很少可以看见脑裂的情况,一般如果出现脑裂情况,我们根据业务需要,选择...
    文章 2017-11-12 1292浏览量
  • 分分钟拯救监控知识体系

    但是如果一般业务出现了严重故障,我们通常根据故障的级别,故障的业务,来指派不同的运维人员进行处理。当然不同业务形态、不同架构、不同服务可能采用的方式都不同,这个没有一个固定的模式套用。8 面试监控 在运...
    文章 2017-11-12 2131浏览量
  • 专访搜狗DBA负责人王林平:为何从Oracle转向MySQL?

    系统的学习各类基础知识,熟悉数据库、操作系统的架构及相关工具的使用,熟悉主流脚本语言的开发,同时还需要对故障定位有一定的理解。其次是经验沉淀。要耐得住寂寞,不断积累经验。做运维工作需要丰富的经验,高...
    文章 2016-01-12 1424浏览量
  • 触类旁通,从400错误看Nginx常见故障与修复

    但是为什么一样的客户端请求方式,旧配置完全ok,新配置则会出现大量400错误?节点2 至此,小明怀疑自己没有完全diff出新旧两份配置的差别,于是他使用vimdiff再次对比新旧两份配置。下面仅贴出关键配置: 旧配置: ...
    文章 2017-05-16 3825浏览量
  • 圆桌对话:云时代下,企业运维面临的挑战与机遇

    从两个方面对自动化运维的落地情况进行分析。??第一点&xff0c;自动化运维有大量的告警监控&xff0c;如果数据量过大&xff0c;就造成告警无效。我们可以通过对历史数据的积累和分析&xff0c;总结出它的趋势&xff0c;...
    文章 2022-01-11 119浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    其次是管理体系,即团队以什么方式推动事情的运转、依托什么样的流程等,固化人在考虑问题和做事情时系统化的思维和方式。备件资源。如果将维修人员比作大厨,备件就相当于粮食和蔬菜。俗话讲:巧妇难为无米之炊。...
    文章 2019-11-08 1477浏览量
  • 运维真的被云革命掉了吗?

    一般,很多企业把运维部门的工作分成两个层级:一是基础设施运维,主要是针对企业 IT 基础设施的管理,包括服务器、交换机、网络等物理资源的监控、报警、维修上线等。二是应用运维,主要是针对企业具体业务的运维...
    文章 2021-03-22 784浏览量
  • 软件测试基本流程与方案(以电商大促为例)

    各类购物软件为了吸引用户消费,各类促销玩法的层出不穷并且规则复杂多变,在任一个链路出现问题,都将给商家和普通消费者带来巨大的经济损失,如何保障业务在一个快速迭代的节奏下稳定、安全的发展,对于技术质量...
    文章 2021-09-30 71浏览量
  • 浅谈SAP Cloud for Sales 自动化

    对于ABAP后台功能代码,主要是开发人员为核心功能编写完备的,覆盖率高的单元测试,然后用事务码SUT调度成后台作业定期执行,如果自动化测试执行时发现故障自动发邮件通知相关人员。前台UI代码,无论是原生的...
    文章 2018-12-31 998浏览量
  • 《Oracle数据库性能优化方法论和最佳实践》——第1章 ...

    1.1.1 从一个真实病例说起下面是本人的真实经历,也许很能够说明一些问题:不知道从什么时候起,我开始头疼,主要是半边头疼,有时候伴随眼睛疼和牙齿疼,疼痛顺序一般为头疼→眼睛疼→牙齿疼。当持续头疼根本不...
    文章 2017-05-02 1153浏览量
1 2 3 4 ... 9 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化
http://www.vxiaotou.com