2026/1/3 4:00:59
网站建设
项目流程
外贸手机网站建设,网上花店网页制作代码,lamp网站开发黄金组合下载,做移动网站快速很多时候我们能把大部分的Bug或一些部署等问题在业务上线之前就解决了#xff0c;但由于某些因素#xff0c;线上问题还是时而出现#xff0c;影响业务生产甚至是公司效益。
避免线上问题的发生以及线上问题及时处理是测试人员的一项重要职责#xff0c;如何快速地处理但由于某些因素线上问题还是时而出现影响业务生产甚至是公司效益。避免线上问题的发生以及线上问题及时处理是测试人员的一项重要职责如何快速地处理最大限度地降低影响范围后续如何避免此类问题的发生,是我们需要复盘的重点内容。一 为什么要复盘?在发布上线后对测试过程进行复盘总结遇到的问题对当时的解决方案进行探讨。通过复盘从而达到指导后续工作减少重复踩坑。并在可以在个人复盘完成后在部门内进行信息共享。每个人负责的项目虽然不同但是测试思想确有共通之处。通过复盘分享可以有效提升团队整体测试经验。从质量保障的角度来说针对线上问题进行复盘可以发现工作中的不足并持续改进不断提高线上的交付质量。从团队管理的角度来说针对线上问题进行复盘也可以发现团队短板并针对性的补齐技术体系提高团队效率。从业务目标的角度来说技术团队作为成本中心也需要不断提高自身的交付产出质量来支撑业务目标更好的达成。二 故障复盘的步骤故障复盘的实施步骤通常包含以下步骤理解故障的技术背景梳理故障的整体情况识别故障的直接/间接影响梳理故障时间线识别和分析故障触发条件和关键环节层层下钻故障根因分析解决方案归纳推演出后续的跟进措施总结经验教训复盘的意义1.不是为了逃避现实也不是为了炫耀而是能真正解决某些问题。2.检验完成的结果回溯过程总结利弊得失做好资源沉淀。3.为后续工作积累经验提升个人能力。4.作为跟领导汇报的材料用方便未来查询。GRAI复盘法GGoal回顾目标回顾最初情景列出当时的目标。RRult对比结果列出目标完成情况将结果和目标进行比较。AAnalysis分析过程用今天的眼光和能力审视昨天的做法学到对未来有用的信息。IInsight总结规律总结提炼出适用于类似情况的规律合理进行模块整理。三 问题跟进前提进行一切线上问题跟进的活动是基于测试人员本身对业务系统的熟悉程度业务系统也就是指业务和系统除了业务之外需要测试人员对业务所在的整体系统架构具备一定的熟悉程度这里从上到下分应用层软件层系统层来分析。1、应用层在应用层我们主要关注的是我们能直接接触到的内容。首先我们需要了解自己负责的业务系统在整体业务系统中的位置。除了了解业务系统内部的情况我们还需要了解外部系统如何调用我们的业务系统以及我们的业务系统如何调用外部系统。同时我们也需要清楚最基本的关键要素量。这包括了业务系统的访问量比如日访问量等。此外我们还需要熟悉核心接口或核心功能的最大并发量以应对突然的高流量以及网络攻击等问题。2、软件层在软件层我们主要涉及到数据、配置和相关组件。数据通常指的是数据库了解数据库的部署情况可以帮助我们解决数据读写等问题。同时对于基础组件如nginx涉及到负载均衡和跨域访问等业务配置了解这些信息可以帮助我们定位问题。此外对于缓存的合理使用情况的分析也有助于我们分析持久化和数据库使用方面的问题。还有一些相关的事项比如JDK版本、JVM的启动参数等等也需要了解。3、系统层在系统层面与硬件相关的内容更多。这包括业务系统的部署方式是在单台机器上还是分布式部署具体所在的机房和网络段以及部署时使用的是物理机还是docker等虚拟化技术。同时还需要了解部署机器的硬件信息比如内存大小、CPU数量和磁盘类型大小等。要做好线上问题跟进就得对自己所负责的业务系统了如指掌只有知己知彼才能百战百胜。四 问题跟进策略对于问题跟进的策略可以分为四个环节包括影响范围评估、快速恢复、定位方法和问题复盘接下来具体介绍这四个环节的内容。策略1影响范围评估在跟进问题时首要步骤是评估问题的影响范围根据评估结果来设计应对策略和救火方案。评估过程中首先要确定问题的类型例如功能、性能或硬件方面的故障。例如突然的大流量和大并发可能导致资源不足造成许多待处理请求内存故障可能导致资源效率下降等等。对于功能上的故障可以确定功能的重要性和优先级。对于核心功能的故障需要尽快制定救火策略减少影响范围并确保敏感功能和信息的安全稳定。根据问题的影响范围采取相应措施。如果是面向用户的功能应尽量避免问题功能与用户接触如果是与上下游业务相关的功能应及时通知相关业务方采取规避措施。在评估和制定救火策略时必须迅速行动因为问题的影响范围和程度会随时间扩大。建立良好的告警反馈体系至关重要通过线上监控、客服反馈等手段实时了解问题情况以有效降低时间带来的影响。策略2快速恢复在评估问题的影响范围后需要快速响应并恢复系统。一般情况下问题的定位速度可分为快速定位和无法快速定位两种情况。对于可以快速定位问题的情况如果是由业务功能导致的问题通常会采取修复补丁的方式。但对于无法立即回收或发布版本的客户端应用程序如移动应用可以通过后台配置功能降级或关闭来处理。此外一些问题可以通过调整配置参数来规避也可以采取这种方式减小线上问题的影响范围。当无法快速定位问题时就需要果断行动首要原则是将问题的影响范围降到最低。可以通过回滚版本来规避问题这是最有效且首选的方法回滚版本可以切断问题发生的原因并保证最初的稳定业务。当然对于负载过高导致的问题回滚版本并不能解决。这时通常采用重启的策略重新启动后继续观察资源情况通常是由于新版本的问题导致资源死锁等情况所以有必要时回滚版本和重启策略可以同时使用。如果问题涉及硬件方面一般可以通过扩容来解决例如增加硬盘、增加内存等先提供足够的资源然后再考虑性能优化方案。对于已进行功能配置的情况可以先关闭。或降级功能然后在测试环境中继续定位和解决问题最后再发布修复版本。策略3定位方法在处理线上问题时降低影响范围后的下一步是定位问题的原因。无论是功能问题、性能问题还是环境问题日志是重要的定位工具。因此通常要求业务日志要准确记录并及时告警错误。然而也不能将所有内容都记录在日志中只有精确的业务日志才能为业务系统的稳定运行提供有效依据。通过排查日志信息来定位问题的原因是最有效的方法。功能问题通常可以在测试环境中重新出现尽量模拟线上的情况包括数据和配置这样问题再次发生的概率就会增加便于更容易地定位。对于资源性能问题可以通过监控告警日志和一些常用命令来获取信息然后采取相应的解决措施。一旦定位到问题就要迅速制定修复和上线方案确保业务系统在稳定状态下继续运行。策略4问题复盘经过上述过程的执行我们还需要进行总结也就是问题复盘。我们都不希望问题再次发生因此通过复盘来总结经验可以提升大家规避问题和处理线上问题的能力。在问题复盘中我们可以分析问题的原因是由人为因素导致的还是系统Bug是遗漏的Bug还是新引入的Bug以及是否由于外部系统数据流或组件不兼容等问题导致的。处理问题的流程是否合理也是需要考虑的。有时候明明需要回滚版本却没有做有时候又回滚了不必要的版本。在这方面需要权衡成本和方案的合理性毕竟有时候版本很紧急回滚会延迟进度对业务来说并不是理想的结果。如何避免类似问题再次发生也是问题复盘的核心环节。我们需要检查监控是否完善是否由于监控告警不及时或信息不完善而影响了整体救火进度。同时在系统架构上是否可以进行性能相关的优化建立起对系统的保护措施例如过载保护、服务降级、数据解耦等。问题的复盘对于团队救火能力的提升是最有效果的同时建立起相关文档加强团队对业务以及系统的了解程度。总结:线上问题跟进是测试工程师的一项重要的职责也是测试工程师的一门重要的能力除了发现在研发测试阶段的问题我们需要去解决线上的问题为业务系统保驾护航对于测试工程师来说责无旁贷。提升自己代码能力测试工具使用能力写用例能力的同时也要提升自己应对问题处理的能力丰满自己在各个质量保证环节的能力这样才能成为一名优秀的测试工程师。总结感谢每一个认真阅读我文章的人作为一位过来人也是希望大家少走一些弯路如果你不想再体验一次学习时找不到资料没人解答问题坚持几天便放弃的感受的话在这里我给大家分享一些自动化测试的学习资源希望能给你前进的路上带来帮助。软件测试面试文档我们学习必然是为了找到高薪的工作下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料并且有字节大佬给出了权威的解答刷完这一套面试资料相信大家都能找到满意的工作。视频文档获取方式这份文档和视频资料对于想从事【软件测试】的朋友来说应该是最全面最完整的备战仓库这个仓库也陪伴我走过了最艰难的路程希望也能帮助到你以上均可以分享点下方小卡片即可自行领取。