Аппаратная диагностика сервера DELL R640

Задачи
У клиента перестал стартовать сервер, после включения сервер перестал выдавать изображение, вентиляторы включались в аварийном режиме. Мигал пост диод на материнской плате.
Диагностика серверного оборудования — это системный подход к выявлению, анализу и устранению проблем, связанных с физическими компонентами сервера. Ниже — ключевые принципы, по которым выполняется диагностика «железа»
Решения

Первично был заменен блок питания на донорский. Основная гипотеза, которая требовала подтверждения, — наличие КЗ на одном из компонентов.
Для поиска проблемных компонентов можно собрать минимальную конфигурацию: только плата + процессор + 1 модуль памяти + встроенное видео — чтобы отсеять лишние влияющие факторы.
Вторым этапом, поочередно, в следующей последовательности было отключено периферийное оборудование:
1. RAID контроллер
2. SATA диски
3. PCI диски
4. Отключена и заменена оперативная память
5. Сетевая карта
6. Бэкплейн
Отключение последнего дало результат— сервер ожил.
Backplane (бэкплейн) в сервере — это печатная плата, к которой подключаются жесткие диски, SSD или другие устройства хранения данных. Она играет роль пассивного распределителя питания и сигнала между накопителями и контроллером (RAID или HBA). Обеспечивает интерфейс подключения дисков (SAS/SATA/NVMe) к материнской плате или RAID-контроллеру.
Для детальной диагностики был отключен бэкплейн.
При детальном рассмотрении нашелся выгоревший компонент.
Большинство серверов, которые мы используем для работы —серверное оборудование компании DELL.
Благодаря единообразию, был снят данный компонент с донорского сервера и замен.
Точный номер детали по каталогу DELL (Бекплейн на 10 дисков формата 2,5” и поддержка NVME): T9JCP 73V17
Далее, после замены и сборки сервер был отправлен на тестирование.
У серверов DELL есть функция, Lifecycle Controller Diagnostics — это встроенный в серверы Dell EMC диагностический инструмент, который позволяет проверять работоспособность основного «железа» сервера (процессор, память, диски, RAID, сеть и др.) без загрузки операционной системы.
Он является частью Lifecycle Controller — среды управления, доступной через интерфейс BIOS при загрузке сервера.
После успешного завершения самодиагностики, сервер был запакован и отправлен заказчику.
Время на диагностику и замену компонента — 40 минут, стоимость замененного элемента составила 39 000 руб.