服务器宕机了应该怎么办?

服务器是许多企业的命脉,因为它们提供对有关公司、其服务和客户代表的信息的基本访问。这就是为什么当您的服务器出现故障时,您的企业可能会在客户信任、生产力和利润方面遭受重大损失。虽然有多种方法可以防止服务器关闭(定期服务器升级是主要示例),但您的组织需要制定计划来响应出现故障的服务器。

那么当你的服务器宕机时你该怎么办?最好的方法是遵循一个精心制定的计划,该计划的重点是查明原因、解决问题,并确保您的服务器将来不会出现类似故障。大多数公司倾向于以非常笼统的方式对此做出反应,但制定具体计划可确保您的公司减少停机时间并尽快实现恢复目标。

服务器关闭后应遵循的 7 个步骤

我们在下面列出的步骤是通用的,应该已经成为服务器关闭时应急措施的一部分,但您应该根据紧急情况进行修改或添加。例如,小公司的服务器关闭可能需要一些时间才能恢复,而大企业则无法承受这种情况,因为这对他们来说是一个更严重的问题。

以下是停机期间要做的事情:

  1. 确保服务器确实已关闭

首先要做的是确保服务器确实已关闭。如果服务器关闭最初是由组织之外的人员报告的,可能的解释是他们的设备或连接无法与您的服务器建立连接。根据网站的大小和预期访问者数量,用户错误很可能是原因。

如果崩溃是由公司内部人员报告的,请尝试检查服务器是否没有自行重新启动。一些服务器(尤其是旧服务器)倾向于自行重新启动以清理处理空间或应对增加的需求。这些关闭通常是暂时的,持续时间不会太长,不会引起人们的注意。

无论哪种方式,请先确定您的服务器确实已关闭,然后再继续使用其余协议来恢复它。跟踪服务器重新启动或滞后等事件是决定何时需要在服务器上进行额外工作或升级的绝佳方法。

  1. 通知 服务器技术 人员

一旦您确定服务器确实没有响应,就应该提醒您的服务器技术 人员。大多数时候,他们很可能已经在处理这个案子了——但无论如何都要联系他们,以防你是第一个发现关闭的人。它们越早开始工作,您的服务器就能越早恢复正常。

如果您尽可能描述您发现服务器关闭时的工作活动,也会很有帮助。鉴于大多数网站和服务器的复杂性,任何因素都可能导致其崩溃。如果您正在做某事,而服务器突然关闭,这一点尤其重要——您可能发现了程序中的错误或缺陷,导致服务器离线。

  1. 查明原因

接下来要做的就是确定到底是什么原因导致服务器关闭。虽然这可能因网站和服务器而异,但应首先检查几个可能的原因:

  • 人为错误:用户输入是服务器崩溃最常见的罪魁祸首之一,因为系统在关闭之前只能处理这么多请求。这个原因通常不是故意的,尽管修复它需要强大的用户跟踪系统来查看到底是哪个活动导致了崩溃。
  • 设备故障:虽然服务器大多在基于云的环境中运行,但它们仍然由硬件供电(因此容易受到影响)。服务器停机可能是由于硬件无法满足服务器需求而导致的。在大多数情况下,可能的原因是组件过热。
  • 软件错误:考虑到访问服务器和与服务器交互的方式不同,软件错误是服务器故障的另一个可能的罪魁祸首。诊断此类错误也可能变得复杂,因为它可能是由过时的软件到数据损坏等任何原因引起的,因此弄清楚发生了哪种软件错误至关重要。
  • 网络攻击:最严重的服务器崩溃通常是由网络攻击引起的。在这些情况下,当您的团队评估攻击的最终目标时,减轻损害和数据隔离是首要任务。您的 IT 团队可能需要延长服务器关闭时间,以应对企图或正在发生的违规行为。

确定服务器关闭的确切原因可能会有所不同,因此请相应地调整您的期望。

  1. 通知所有受影响的用户

重要的是要记住,并非所有服务器崩溃都是相似的。有些错误很严重,可能需要完全通过服务器来修复,而另一些错误可能是特定错误,可以在服务器其余部分运行时隔离。无论哪种情况,您的公司都有责任通知所有受影响的用户有关服务器停机的信息。

更重要的是,这个通知对于让大家在事态解决过程中保持冷静是必要的。当服务器关闭时,用户(尤其是客户)往往会感到恐慌。如果不能消除他们的担忧,可能会导致他们对您的公司失去信任。每当服务器关闭时,请始终与受影响的用户保持联系,因为他们最有可能为您提供有关其发生情况的更多信息以及如何修复它的想法。

  1. 修复问题

确定原因后,现在就可以解决问题了。服务器停机时间可能会有所不同,具体取决于崩溃的严重程度和受影响的数据类型。有些服务器可以在几个小时内启动并运行,而另一些服务器可能需要几天的时间才能修复。

这里要记住的一件事是,您应该始终了解修复服务器的过程。这是您可以向组织的所有成员和使用您网站的人员传播的关键信息。但是,在某些情况下,无法给出服务器正常运行时间的预计到达时间。在这些情况下,最好对受影响的用户现实和诚实,而不是承诺您可能无法保留的时间和数据。

当服务器仍然关闭时,您应该开始寻找其他途径,让您的用户和/或客户仍然可以访问您并与您互动。这对于金融机构、银行和零售商来说尤其重要,因为他们最有可能在服务器关闭期间遭受巨大的利润损失。

  1. 编写报告

问题解决后,您的 IT 团队应该获得有关导致崩溃的情况的全面报告。请记住保留这些报告的副本以供将来参考,因为服务器崩溃在修复后可能并不总是停止。

报告也很重要,因为它可以让您了解服务器在一段时间内的健康状况。虽然我们的目标是完全不经历服务器崩溃,但在服务器崩溃是否发生以及何时发生时从中吸取教训也同样重要。与您的 IT 团队密切协调,确保服务器崩溃期间没有重要数据丢失或损坏,并联系所有受影响的用户,查看他们的访问权限是否发生了任何更改。

编制的报告也是为了透明度而向任何用户或客户提供信息的绝佳机会。承认您的服务器遭受了一些停机似乎是一个坏主意,但最好诚实地与受影响的用户进行沟通。这使得他们不太可能失去对您的组织的信任。

  1. 制定预防措施

最后,您需要做的最后一步是确保服务器停机的原因不会再次发生,或者如果失败,请改进您的服务器以使其更具弹性。您可以通过多种方法来完成此操作,具体取决于导致服务器停机的具体原因:

  • 与您的 IT 团队协调,对服务器进行必要的更改
  • 通知并教育您的用户,以便他们能够主动维护您的服务器
  • 提出冗余的故障安全方法,以确保您的服务器能够从意外关闭中快速恢复
  • 投资下一代防火墙和其他类似的 IT 安全系统以抵御网络攻击
  • 为未来的服务器故障创建数据恢复计划/数据备份例程
  • 安排定期维护会议,以确保服务器保持正常工作

同样,确保服务器不关闭的最佳方法是预测这些情况何时以及如何发生。虽然您可以通过查看趋势和跟上网络安全的步伐来找到保护您的组织免受服务器停机影响的潜在方法,但您自己的经验仍然是您最好的资产。

THE END