فهرست محتوایی مستندات

در این راهنما قرار است سلامت هارد و سخت‌افزار سرور اختصاصی لینوکسی به‌صورت عملی بررسی شود تا قبل از بروز قطعی یا از دست رفتن اطلاعات مشکلات احتمالی شناسایی شوند.

مرحله اول: ورود به سرور اختصاصی از طریق SSH

در این مرحله هدف برقراری دسترسی مستقیم به سیستم‌عامل سرور است تا بتوان وضعیت سخت‌افزار را بدون واسطه بررسی کرد. اتصال SSH این امکان را می‌دهد که دستورات سطح پایین اجرا شوند و خروجی واقعی هسته لینوکس دیده شود. برای انجام این بررسی‌ها باید با کاربری که دسترسی root یا امکان استفاده از sudo داشته باشد وارد سرور شوید؛ زیرا بیشتر ابزارهای بررسی سلامت سخت‌افزار به سطح دسترسی مدیریتی نیاز دارند. اگر اتصال SSH پایدار نباشد یا دسترسی کامل وجود نداشته باشد نتایج بررسی قابل اعتماد نخواهد بود.

مرحله دوم: بررسی شناسایی صحیح هاردها توسط سیستم‌عامل

در این مرحله بررسی می‌شود که آیا هاردها و دیسک‌ها به‌درستی توسط کرنل لینوکس شناسایی شده‌اند یا نه. این بررسی نشان می‌دهد که از نظر اتصال فیزیکی و ارتباط با کنترلر مشکلی وجود ندارد. دستور lsblk ساختار کلی دیسک‌ها، پارتیشن‌ها و محل mount شدن آن‌ها را نمایش می‌دهد و کمک می‌کند مشخص شود چه تعداد هارد فعال هستند و هر کدام چه ظرفیتی دارند. اگر هاردی در این خروجی دیده نشود معمولاً مشکل از کابل اتصال کنترلر یا خرابی کامل دیسک است.

برای دیدن جزئیات بیشتر و تشخیص مدل هارد می‌توان از دستور زیر استفاده کرد تا اطلاعات کامل‌تری نمایش داده شود.

lsblk -o NAME,SIZE,TYPE,MOUNTPOINT,MODEL

مرحله سوم: نصب ابزارهای پایه بررسی سلامت هارد

قبل از بررسی سلامت واقعی هارد باید ابزارهای لازم روی سرور نصب شوند. ابزار smartmontools مهم‌ترین بسته برای بررسی وضعیت داخلی هارد است و اطلاعاتی را نمایش می‌دهد که مستقیماً از کنترلر هارد خوانده می‌شوند. بدون این ابزار امکان بررسی خطاهای داخلی، سکتورها و وضعیت عمر هارد وجود ندارد. در کنار آن نصب ابزار util-linux و pciutils کمک می‌کند اطلاعات سخت‌افزاری دقیق‌تری از دیسک‌ها و کنترلرها در دسترس باشد.

برای نصب این ابزارها کافیست از دستور زیر استفاده کنید تا پکیج‌ها مستقیماً از مخازن رسمی سیستم‌عامل دانلود و نصب شوند.

apt update && apt install smartmontools util-linux pciutils -y

مرحله چهارم: بررسی گزارش کامل SMART هارد

در این مرحله وضعیت واقعی و فعلی هارد بررسی می‌شود. دستور smartctl -a گزارشی کامل شامل وضعیت کلی سلامت، تعداد خطاها، عمر تقریبی هارد و اطلاعات مربوط به سکتورها را نمایش می‌دهد. مقدار SMART overall-health اولین شاخص برای تشخیص سلامت است اما به‌تنهایی کافی نیست و باید جزئیات دیگر گزارش نیز بررسی شوند. این گزارش نشان می‌دهد هارد در چه شرایطی کار می‌کند و آیا نشانه‌ای از خرابی تدریجی وجود دارد یا خیر.

در هاردهای NVMe مسیر دیسک متفاوت است و باید از دستور مخصوص آن‌ها استفاده شود تا گزارش به‌درستی نمایش داده شود.

smartctl -a /dev/nvme0n1

مرحله پنجم: تحلیل پارامترهای بحرانی SMART

در این مرحله تمرکز روی مقادیری از گزارش SMART است که مستقیماً به خرابی فیزیکی هارد اشاره دارند. پارامتر Reallocated Sector نشان می‌دهد که هارد چه تعداد سکتور خراب را کنار گذاشته و از سکتورهای جایگزین استفاده کرده است. مقدار Current Pending Sector به سکتورهایی اشاره دارد که هنوز قابل خواندن نیستند و احتمال از دست رفتن داده در آن‌ها وجود دارد. افزایش این مقادیر حتی در صورتی که وضعیت کلی سلامت PASSED باشد نشانه شروع خرابی است و نباید نادیده گرفته شود.

برای نمایش سریع این مقادیر حساس می‌توان از دستور زیر استفاده کرد تا فقط پارامترهای مهم فیلتر شوند.

smartctl -A /dev/sda | egrep "Reallocated|Pending|Uncorrectable"

مرحله ششم: اجرای تست کوتاه SMART

تست کوتاه SMART برای بررسی سریع وضعیت داخلی هارد استفاده می‌شود و معمولاً چند دقیقه طول می‌کشد. این تست بدون ایجاد فشار زیاد روی دیسک اجرا می‌شود و برای بررسی‌های دوره‌ای مناسب است. اجرای این تست کمک می‌کند خطاهای واضح و فوری شناسایی شوند. پس از پایان تست باید نتیجه بررسی شود تا مشخص شود آیا هارد توانسته تست را بدون خطا کامل کند یا خیر.

اجرای تست کوتاه و مشاهده نتیجه آن به شکل زیر انجام می‌شود.

smartctl -t short /dev/sda
smartctl -l selftest /dev/sda

مرحله هفتم: اجرای تست کامل SMART

تست کامل SMART تمام سکتورهای هارد را بررسی می‌کند و دقیق‌ترین روش برای شناسایی خرابی‌های پنهان است. این تست زمان‌بر است و ممکن است چند ساعت طول بکشد اما برای تصمیم‌گیری درباره تعویض هارد اهمیت زیادی دارد. اجرای این تست معمولاً در زمان‌هایی با مصرف کمتر سرور توصیه می‌شود تا فشار اضافی روی سرویس‌ها ایجاد نشود. نتیجه این تست مشخص می‌کند آیا سکتورهای غیرقابل بازیابی روی هارد وجود دارند یا خیر.

دستور اجرای تست کامل و بررسی نتیجه آن به شکل زیر است.

smartctl -t long /dev/sda
smartctl -l selftest /dev/sda

مرحله هشتم: بررسی دما و شرایط محیطی هارد

در این مرحله دمای هارد بررسی می‌شود چون بالا بودن دما یکی از دلایل اصلی کاهش عمر هارد در سرورهای اختصاصی است. با این بررسی می‌توان فهمید مشکل از تهویه رک است یا فن‌های سرور درست کار نمی‌کنند. وقتی دمای هارد در محدوده مناسب و پایدار باشد هم عمر آن بیشتر می‌شود و هم احتمال بروز خطاهای ناگهانی کمتر خواهد بود.

برای مشاهده و مانیتورینگ دما به‌صورت لحظه‌ای می‌توان از دستور زیر استفاده کرد:

watch -n 5 smartctl -A /dev/sda | grep Temperature

در این تصویر بجای Temperature از celsius استفاده شده و ممکن است در سیستم شما متفاوت باشد.

مرحله نهم: بررسی خطاهای I/O در لاگ سیستم

در این مرحله بررسی می‌شود که آیا سیستم‌عامل هنگام خواندن یا نوشتن اطلاعات روی دیسک با خطا مواجه شده است یا نه. خطاهای I/O معمولاً قبل از خرابی کامل هارد در لاگ‌های سیستم ثبت می‌شوند. بررسی آن‌ها کمک می‌کند مشکلاتی شناسایی شوند که ممکن است هنوز در وضعیت سلامت هارد به‌صورت واضح مشخص نشده باشند. اگر این خطاها تکرار شوند باید آن را یک هشدار جدی در نظر گرفت.

برای بررسی لاگ‌های مربوط به خطاهای دیسک می‌توان از دستورات زیر استفاده کرد.

dmesg | grep -i "I/O error"
journalctl -k | grep -i disk

مرحله دهم: بررسی سلامت RAID در سرور

اگر سرور از RAID استفاده می‌کند بررسی وضعیت آن ضروری است؛ زیرا خرابی یک دیسک می‌تواند کل آرایه را تحت تأثیر قرار دهد. این مرحله نشان می‌دهد که RAID در وضعیت پایدار قرار دارد یا در حالت degraded است. بررسی منظم وضعیت RAID باعث می‌شود خرابی دیسک‌ها قبل از از دست رفتن اطلاعات شناسایی شوند.

برای بررسی RAID نرم‌افزاری و دریافت جزئیات بیشتر از وضعیت آن می‌توان از دستورات زیر استفاده کرد.

cat /proc/mdstat
mdadm --detail /dev/md0

مرحله یازدهم: بررسی سلامت CPU و حافظه RAM

در این مرحله وضعیت کلی منابع سرور بررسی می‌شود تا مشخص شود آیا فشار غیرعادی روی CPU یا حافظه وجود دارد یا خیر. مشکلات سخت‌افزاری RAM می‌توانند باعث خراب شدن فایل‌ها و بروز خطاهای دیسک شوند. بررسی مصرف منابع کمک می‌کند تشخیص داده شود مشکلات مشاهده‌شده مربوط به هارد است یا از فشار کلی سخت‌افزار ناشی می‌شود.

برای بررسی وضعیت پردازنده و حافظه می‌توان از دستورات زیر استفاده کرد.

top
htop
free -h

مرحله دوازدهم: بررسی خطاهای حافظه RAM

در این مرحله پیام‌های مربوط به خطاهای حافظه بررسی می‌شوند. در سرورهایی که از RAM با ECC استفاده می‌کنند خطاهای اصلاح‌شده و اصلاح‌نشده در لاگ سیستم ثبت می‌شوند. مشاهده این پیام‌ها نشانه وجود مشکل سخت‌افزاری در ماژول‌های RAM است و باید جدی گرفته شود زیرا می‌تواند باعث خرابی داده‌ها روی دیسک شود.

برای مشاهده پیام‌های مرتبط با خطاهای حافظه می‌توان از دستور زیر استفاده کرد.

dmesg | grep -i ecc

مرحله سیزدهم: مانیتورینگ مداوم و تصمیم‌گیری نهایی

در این مرحله هدف تبدیل بررسی‌های دستی به یک روند مداوم و قابل تکرار است. با مانیتورینگ منظم وضعیت SMART لاگ‌های سیستم و دمای هارد می‌توان از خرابی ناگهانی جلوگیری کرد. اگر مقادیر بحرانی SMART در حال افزایش باشند یا تست‌ها با خطا به پایان برسند باید برای تعویض هارد برنامه‌ریزی شود و قبل از هر اقدامی بکاپ کامل از اطلاعات تهیه شود تا ریسک از دست رفتن داده به حداقل برسد.

در پایان با اجرای منظم این مراحل می‌توان سلامت سخت‌افزار سرور اختصاصی را کنترل کرد و قبل از بروز مشکل جدی برای حفظ پایداری سرویس اقدام لازم را انجام داد.

آیا توانستیم چالش شما را حل کنیم؟

مشکل حل شد، متشکرم به کمک بیشتری نیاز دارم

لیبل‌گذاری دستورات طولانی در لینوکس

انتقال داخلی دامنه بین دو حساب کاربری در ایران‌سرور

فهرست مطالب

مرحله اول: ورود به سرور اختصاصی از طریق SSH مرحله دوم: بررسی شناسایی صحیح هاردها توسط سیستم‌عامل مرحله سوم: نصب ابزارهای پایه بررسی سلامت هارد مرحله چهارم: بررسی گزارش کامل SMART هارد مرحله پنجم: تحلیل پارامترهای بحرانی SMART مرحله ششم: اجرای تست کوتاه SMART مرحله هفتم: اجرای تست کامل SMART مرحله هشتم: بررسی دما و شرایط محیطی هارد مرحله نهم: بررسی خطاهای I/O در لاگ سیستم مرحله دهم: بررسی سلامت RAID در سرور مرحله یازدهم: بررسی سلامت CPU و حافظه RAM مرحله دوازدهم: بررسی خطاهای حافظه RAM مرحله سیزدهم: مانیتورینگ مداوم و تصمیم‌گیری نهایی

نقش‌ها و مجوزها در n8n

نمونه اتصال به سرویس‌های خارجی با Credential در n8n

وارد کردن و خروجی گرفتن ورک‌فلوها در n8n

اتصال به سرویس‌های خارجی

قوانین و مقررات دامنه

چطور نام دامنه مناسبم را پیدا کنم؟

فرآیند رزرو و تایید دامنه‌های .ir در ایرنیک

تغییر رابط کاربری در ایرنیک

نصب افزونه در وردپرس

انتقال دامنه ایرانی از دیگر نمایندگان به ایران سرور

کد EPP

انتقال دامنه بین المللی از دیگر نمایندگان به ایران سرور

تغییر کد انتقال دامنهٔ در حال انتقال

بارگذاری وبسایت در aapanel

تنظیم سرویس ایمیل در aapanel

نصب و فعالسازی ماژولهای php

نصب دیتابیس روی aapanel

تغییر پسورد یوزر sa دیتابیس

آشنایی با کانفیگ و مسیرهای دایرکت‌ادمین در VPS با پنل دایرکت ادمین

دریافت اطلاعات سخت‌افزاری سرور (memory, cpu)

انتقال فایل‌ها با استفاده از دستور rsync

نصب و کانفیگ MailEnable و مدیریت اکانت ایمیل

افزایش تعداد Session همزمان RDP در ویندوز سرور

بکاپ‌گیری و بازگردانی دیتابیس

اتصال به SQL Server

بازیابی فایل‌ها و پوشه‌های حذف‌شده از سطل بازیافت در Nextcloud

ساخت لینک اشتراک‌گذاری فایل و پوشه در Nextcloud با رمز عبور، تاریخ انقضا

آپلود، سازمان‌دهی و جابه‌جایی فایل‌ها و پوشه‌ها در Nextcloud

نصب و راه‌اندازی اپلیکیشن موبایل Nextcloud و همگام‌سازی خودکار فایل‌ها

آموزش ساخت کانال، تیم و گروه‌های خصوصی و عمومی در Rocket.Chat

مدیریت کاربران و سطح دسترسی در Rocket.Chat

تنظیمات اولیه Workspace در Rocket.Chat

راهنمای انتخاب پلن Rocket.Chat

بازیابی فایل‌ها و پوشه‌های حذف‌شده از سطل بازیافت در Nextcloud

ساخت لینک اشتراک‌گذاری فایل و پوشه در Nextcloud با رمز عبور، تاریخ انقضا

آپلود، سازمان‌دهی و جابه‌جایی فایل‌ها و پوشه‌ها در Nextcloud

نصب و راه‌اندازی اپلیکیشن موبایل Nextcloud و همگام‌سازی خودکار فایل‌ها

ایجاد و توسعه نودهای سفارشی در n8n

راهنمای پایداری n8n: حل 3 مشکل اساسی در پروژه‌های بزرگ

اتوماسیون‌های واقعی با n8n: سناریوهای تجاری

Debugging پیشرفته در n8n

خطاهای مرحله «رزرو و بررسی دامنه» و روش رفع آن‌ها

خطاهای مرحله «در انتظار تأیید ایرنیک» و روش رفع آن‌ها

خطاهای HTTP

فعالسازی گوگل سرچ کنسول با استفاده از تنظیم رکورد DNS

ایجاد و توسعه نودهای سفارشی در n8n

راهنمای پایداری n8n: حل 3 مشکل اساسی در پروژه‌های بزرگ

نقش‌ها و مجوزها در n8n

نمونه اتصال به سرویس‌های خارجی با Credential در n8n

کاربردهای محصول پردازش گرافیکی

شیوه استفاده محصول پردازش گرافیکی

سفارش محصول پردازش گرافیکی

مشاهده و مدیریت دیتابیس‌ها در پلسک

تنظیم Forwarder در پلسک

نحوه بکاپ‌گیری و بازیابی در پلسک

تغییر رمز کنترل‌پنل در پلسک

رفع مشکلات احتمالی پس از بازگردانی سایت

مدیریت MIME Types و Handler Mappings

فعال‌سازی و مدیریت SSL برای سایت‌ها (Let’s Encrypt و Custom)

ساخت اکانت جدید و ویرایش پلن‌ها و حذف کاربران

رفع نمایش اشتباه فضای دیسک در دایرکت ادمین در VPS با پنل دایرکت ادمین

تنظیم کران بکاپ یوزرها در VPS با پنل دایرکت ادمین

مدیریت فایروال csf (مشترک) در VPS با پنل دایرکت ادمین

فعالسازی وب‌سرور litespeed و مدیریت و کانفیگ آن در VPS با پنل دایرکت ادمین

آموزش ریست هاست

رفع مشکل درگاه بانکی در سرورهای میزبانی شده خارج کشور

چگونه یک کلمه عبور امن ایجاد کنم؟

از چه روش‌هایی می‌توانم با پشتیبانی در ارتباط باشم؟

نحوهٔ تهیهٔ سرور اختصاصی خارج از شبکه ایران‌سرور

با مشکلی مواجه شده‌ام، چگونه تیکت ثبت کنم؟

چگونه فاکتور رسمی خرید را دانلود کنم؟

چطور می‌توانم دسترسی اکانت خودم را به شخص دیگری بدهم؟

پرداخت آفلاین و ثبت فیش در ایران سرور چگونه است؟

رفع خطای مسدود شدن کوکی‌ها هنگام ورود به پیشخوان وردپرس

راهکارهای رفع مشکل آپلود فایل در وردپرس

چطور دامنه ای را پیش از منقضی شدن تمدید کنیم؟

گزارش‌گیری، مانیتورینگ و تحلیل حملات در CDN

قوانین محافظتی و محدودسازی در فایروال CDN

محدودسازی نرخ دسترسی (Rate Limiting)

دیوار آتش وب (WAF) در CDN