Sophos Firewall: কোনো CVE নেই, তবে बग এ ভরপুর (v21.5 থেকে v22)

Sophos Firewall: কোনো CVE নেই, তবে बग এ ভরপুর (v21.5 থেকে v22)

21 min read
Network Sophos Security

সূচিপত্র

আপনি যদি বর্তমানে ফায়ারওয়াল নিয়ে কাজ করে থাকেন, তবে সাধারণত দুটি বড় সমস্যার একটির মুখোমুখি হতে হবে: হয় আপনি সর্বদা মারাত্মক দুর্বলতার (CVEs, যেমনটা এখন Fortinet-এর ক্ষেত্রে হচ্ছে) কারণে মানসিক চাপে আছেন এবং রাত জেগে প্যাচ করছেন—অথবা সিস্টেমের অস্থিতিশীল ফার্মওয়্যার এবং বিরক্তিকর বাগগুলির কারণে (যেমনটা এখন Sophos-এর সাথে হচ্ছে) দৈনন্দিন কাজে এত বাধার সৃষ্টি হচ্ছে যে আপনি অন্য কোনো কাজই করতে পারছেন না।

আমার কোম্পানিতে কাজের ক্ষেত্রে, ঠিক এই শেষের বিষয়টিই ঘটছে—এমন একটি চাপ যা স্বাভাবিকভাবেই মাঝে মাঝে আমাকে বাড়ি পর্যন্ত বয়ে নিয়ে যেতে হয়। আমাদের বর্তমান মাথাব্যথার নাম হলো: Sophos Firewall

যেখানে Fortinet-এর মতো প্রতিযোগীরা মনে হচ্ছে প্রতি সপ্তাহেই নতুন PSIRT অ্যাডভাইজরি প্রকাশ করছে, অ্যাডমিনিস্ট্রেটরদের প্যাচিংয়ের এক অন্তহীন চক্রের মধ্যে ফেলে দিচ্ছে, সেখানে Sophos আমাদের বিপুল পরিমাণ সময় নষ্ট করছে। এমন কোনো দুর্বলতার কারণে নয় যা খবরের শিরোনাম হয়, বরং প্রতিদিনের কাজে (Operations) অত্যন্ত সাধারণ কিন্তু মারাত্মক সব বাগের কারণে।

ডিসক্লেমার, যাতে মনে না হয় আমি আপেলের সাথে কমলার তুলনা করছি: আমি খুব ভালো করেই জানি যে Fortinet-ও বড়সড় বাগ নিয়ে লড়াই করছে (FortiOS 7.2/7.4/7.6-এর Conserve Mode এবং Memory Leaks-এর কথা ভাবুন) এবং অতীতে Sophos-এরও গুরুতর CVE ছিল। যাইহোক, বর্তমান v21.5/v22 পর্যায়ে, ঠিক এই নির্দিষ্ট পরিস্থিতিটাই আমাদের ভোগাচ্ছে: এক ভেন্ডরের ক্ষেত্রে এটি হলো একটানা CVE প্যাচিংয়ের বিষয়; আর Sophos-এর ক্ষেত্রে, এটি হলো স্থিতিশীলতার সমস্যার কারণে সৃষ্ট অপ্রয়োজনীয় কাজের চাপ (Ops-Work)।

ভার্সন প্রসঙ্গের সারসংক্ষেপ (TL;DR)

এটি স্পষ্ট করার জন্য যে আমি ধুলোমাখা পুরানো কোনো v19 নিয়ে লিখছি না, বরং অনেকেই বর্তমানে যাকে “আপ-টু-ডেট” হিসেবে চালাচ্ছেন তা নিয়ে বলছি:

  • SFOS 21.5 GA (০২.০৬.২০২৫): রিলিজ নোটস: SFOS 21.5
  • SFOS 21.5 MR2 (Build 323, ১৮.০২.২০২৬): রিলিজ নোটস অনুযায়ী, এই সময়সীমায় এটিই সর্বশেষ 21.5 ভার্সন।
  • SFOS 22.0 GA (ডিসেম্বর 2025) এবং v22 GA Re-Release (Build 411, ২০.০১.২০২৬): রিলিজ নোটস: SFOS 22.0

এগুলো হলো GA (General Availability) এবং Maintenance রিলিজ, কোনো সাধারণ “Nightly” বিল্ড নয়।

এই তুলনাটি যে কেবল অনুভূতির উপর ভিত্তি করে নয় তা নিশ্চিত করার জন্য, এখানে একটি দ্রুত বাস্তবতা যাচাই (Reality check) দেওয়া হলো।

Fortinet: নভেম্বর 2025 থেকে FortiOS CVE (২৬.০২.২০২৬ পর্যন্ত)

সময়কাল: ০১.১১.২০২৫ থেকে ২৬.০২.২০২৬ (প্রকাশের তারিখ)। সূত্র: Fortinet PSIRT অ্যাডভাইজরি (PSIRT ওভারভিউ)।

আমি এখানে উদ্দেশ্যমূলকভাবেই “Fortinet-এর সব কিছু” তালিকাভুক্ত করছি না, বরং শুধুমাত্র এই সময়ের FortiOS/FortiGate-সম্পর্কিত অ্যাডভাইজরিগুলো রাখছি, কারণ বাস্তবে এটাই সবচেয়ে বড় ভোগান্তি: আপনাকে প্যাচ করতে হবে, পরিকল্পনা করতে হবে, পরীক্ষা করতে হবে।

CVSS স্কোরই সবকিছু নয়, কিন্তু এটি কাজের পার্থক্যকে দৃশ্যমান করে তোলে: 5.x স্কোরের একটি Medium লেভেলকে প্রায়শই পরিকল্পনা করে ম্যানেজ করা যায়, কিন্তু একটি 9.x স্কোর দ্রুতই “সবকিছু ফেলে এখনই প্যাচ করো” পরিস্থিতিতে পরিণত হয়।

১০ ফেব্রুয়ারি ২০২৬ তারিখে প্রকাশিত (একই দিনে একাধিক অ্যাডভাইজরি)

  • FG-IR-25-667 (CVE-2025-55018, CVSSv3 5.2): FortiOS GUI-তে Request smuggling। এটি অপ্রীতিকর কারণ এর মধ্যে “unlogged requests” (লগ না হওয়া রিকোয়েস্ট) জড়িত।
  • FG-IR-25-795 (CVE-2025-64157, CVSSv3 6.7): CAPWAP ফাস্ট-ফেলওভার মোডে ফরম্যাট-স্ট্রিং সমস্যা (Admin/Config ট্রিগার হিসেবে)।
  • FG-IR-25-1052 (CVE-2026-22153, CVSSv3 7.5): Agentless VPN/FSSO-তে LDAP অথেনটিকেশন বাইপাস (বাস্তবে প্রায়শই এর ওয়ার্কঅ্যারাউন্ড হয়: LDAP সার্ভারে আনঅথেনটিকেটেড বাইন্ড নিষ্ক্রিয় করা)।
  • FG-IR-25-934 (CVE-2025-68686, CVSSv3 5.3): SSL VPN সিমলিঙ্ক পারসিস্টেন্স প্যাচ বাইপাস। প্রসঙ্গের জন্য গুরুত্বপূর্ণ: অ্যাডভাইজরি অনুসারে, এর জন্য ফাইল সিস্টেম লেভেলে অন্য কোনো দুর্বলতার মাধ্যমে আগে থেকেই কম্প্রোমাইজ হওয়া প্রয়োজন।
  • FG-IR-25-384 (CVE-2025-62439, CVSSv3 3.8): FSSO টার্মিনাল সার্ভিসেস এজেন্টে পলিসি বাইপাস (FortiOS ভার্সন এবং TS এজেন্টের ন্যূনতম ভার্সনের সমন্বয়ে ফিক্স করতে হয়)।

জানুয়ারি ২০২৬

  • FG-IR-26-060 (CVE-2026-24858, CVSSv3 9.4), প্রকাশিত ২৭.০১.২০২৬: অ্যাডমিনিস্ট্রেটিভ FortiCloud SSO অথেনটিকেশন বাইপাস। অ্যাডভাইজরিটি ইন-দ্য-ওয়াইল্ড (in the wild) এক্সপ্লয়টেশন এবং নির্দিষ্ট প্রতিকারের কথাও বর্ণনা করে।
  • FG-IR-25-084 (CVE-2025-25249, CVSSv3 7.4), প্রকাশিত ১৩.০১.২০২৬: cw_acd ডেমনে (FortiOS/FortiSwitchManager) হিপ-বেসড বাফার ওভারফ্লো।

৯ ডিসেম্বর ২০২৫ তারিখে প্রকাশিত

  • FG-IR-25-647 (CVE-2025-59718, CVE-2025-59719, CVSSv3 9.1): জালিয়াতি করা SAML মেসেজের মাধ্যমে FortiCloud SSO লগইন অথেনটিকেশন বাইপাস (ফিচারটি ডিফল্টভাবে বাধ্যতামূলক নয়, তবে ফিল্ডে এর ব্যবহার রয়েছে)।
  • FG-IR-25-411 (CVE-2025-62631, CVSSv3 5.3): SSL VPN-এ অপর্যাপ্ত সেশন এক্সপায়ারি (সেশনের মেয়াদ/পাসওয়ার্ড পরিবর্তনের চরম ক্ষেত্রে)।
  • FG-IR-24-268 (CVE-2024-47570, CVSSv3 6.3): সংবেদনশীল তথ্য REST API লগে চলে যায় (যদি REST API লগিং সক্রিয় থাকে)।
  • FG-IR-24-133 (CVE-2024-40593, CVSSv3 5.9): অ্যাডমিন প্রাইভেট কী (Private key) পড়তে পারেন (কী ম্যানেজমেন্ট এরর, প্যাচ লেভেলের মাধ্যমে ঠিক করা যায়)।

১৮ নভেম্বর ২০২৫ তারিখে প্রকাশিত

  • FG-IR-25-358 (CVE-2025-53843, CVSSv3 6.9): CAPWAP ডেমন স্ট্যাক বাফার ওভারফ্লো।
  • FG-IR-25-632 (CVE-2025-58413, CVSSv3 6.9): CAPWAP ডেমনে আরও একটি স্ট্যাক বাফার ওভারফ্লো।
  • FG-IR-25-545 (CVE-2025-54821, CVSSv3 1.8): SSH-এর মাধ্যমে ট্রাস্টেড হোস্ট (Trusted hosts) বাইপাস (CLI এজ কেস)।

হ্যাঁ, এটা অনেকটাই। এবং হ্যাঁ, আপনি এটিকে প্রসেসের (প্যাচ উইন্ডো, স্টেজিং, চেঞ্জ ম্যানেজমেন্ট, মেইনটেন্যান্স উইন্ডো) মাধ্যমে ম্যানেজ করতে পারেন।

আর তারপর আসে মুদ্রার অপর পিঠ।

Sophos: কোনো বড় হেডলাইন নেই, তবে অপস (Ops) জ্বলে পুড়ে খাক

Sophos-এর সাথেও আমরা অবশ্যই নিরাপত্তা নিয়ে কথা বলি। কিন্তু বর্তমানে যে জিনিসটা আমাদের সময় সবচেয়ে বেশি খাচ্ছে, তা হলো কেবলই বাগ।

ফায়ারওয়াল ক্রমাগত সমস্যা তৈরি করার কারণে বর্তমানে আমাদের কোম্পানিতে প্রচুর অপ্রয়োজনীয় কাজ হচ্ছে। আর এক পর্যায়ে এসে আপনি নিজেকে এমন একটি প্রশ্ন করতে শুরু করবেন যা সত্যিই অযৌক্তিক:

আমি কোনটা পছন্দ করব: একটি নিরাপত্তা দুর্বলতা সম্পন্ন ফায়ারওয়াল যা অন্তত স্থিতিশীলভাবে চলে, নাকি বড় কোনো CVE হেডলাইন ছাড়া এমন একটি ফায়ারওয়াল যা রিবুট করার পর আর চালুই হয় না?

এটি কোনো তাত্ত্বিক বা অ্যাকাডেমিক বিতর্ক নয়। এটি হলো অপারেশনস (Operations)। দুঃখজনকভাবে, একটি তাত্ত্বিক নিরাপত্তা দুর্বলতা যা হয়তো কোনো এক সময় কাজে লাগানো হতে পারে, সেটি এখন আমার কাছে তার চেয়েও বেশি ভালো মনে হয় যখন দেখি একটি সাধারণ বাগের কারণে গ্রাহকের নেটওয়ার্ক আবারও কয়েক ঘণ্টার জন্য পুরোপুরি ডাউন হয়ে গেছে।

আমাদের বর্তমান ভোগান্তি (হ্যাঁ, সব একসাথে)

এবং বিষয়টি পরিষ্কার করার জন্য বলি: এগুলো কেবল সেই বাগ যা আমরা সাম্প্রতিক মাসগুলোতে বিভিন্ন সিস্টেমে একাধিকবার পেয়েছি। যখন অপারেশন একটি প্রোজেক্টে পরিণত হয়, তখন এটি ভীষণ ক্লান্তিকর এবং হতাশাজনক। বিশেষ করে যখন আপনি আবার Sophos সাপোর্টের গোলকধাঁধায় আটকে যান, এবং তারা এমন ভান করতে ভালোবাসে যেন “পুরো বিশ্বে আপনিই প্রথম এবং একমাত্র গ্রাহক যার এই সমস্যাটি হচ্ছে”। না, আমরা তা নই।

  • রিবুটের পর ফায়ারওয়াল মাঝে মাঝে ঠিকমতো (cleanly) স্টার্ট হয় না।
  • HA ক্লাস্টার ভেঙে পড়ে অথবা স্প্লিট-ব্রেইন (split-brain) এর মতো আচরণ করে।
  • লগিং হঠাৎ করে অনির্ভরযোগ্য হয়ে ওঠে (অথবা পুরোপুরি গায়েব হয়ে যায়)।
  • Let’s Encrypt সার্টিফিকেট রিনিউ হয় না, এবং আপনাকে রাতে ম্যানুয়ালি এটি ঠিক করতে হয়।
  • একটি ইন্টারফেস হারিয়ে যায় অথবা হঠাৎ করে GUI-তে আর দেখা যায় না।
  • SSD-গুলো নষ্ট হয়ে যাচ্ছে (হার্ডওয়্যার বিকল হওয়া)।
  • WebAdmin লগইন পুরোপুরি ধর্মঘটে চলে যায় – আপনি আর লগইন করতে পারেন না, প্রায়ই শুধুমাত্র রিবুট করলেই কাজ হয়।
  • কনফিগারেশন থেকে ইন্টারফেসগুলো হঠাৎ করেই পুরোপুরি উধাও হয়ে যায়।
  • লগ ডিস্ক (Log-Disk) ভরে যায়, যার ফলে এরর মেসেজ দেখা দেয় অথবা প্রভাবিত সার্ভিসগুলো সরাসরি বন্ধ হয়ে যায়।

কমিউনিটি কী বলছে (আপনি একা নন!)

আপনি যদি Sophos কমিউনিটিতে (২০২৬-এর শুরুর দিকে) চোখ বুলান, তবে মানের এই অবনতির চিত্রটি দুঃখজনকভাবে আমাদের অভিজ্ঞতার সাথেই মিলে যায়। আমাদের সমস্যার পাশাপাশি, অন্যান্য ব্যবহারকারীরা v21.5 / v22-তে আরও গুরুতর বাধা (showstoppers) পাচ্ছেন:

  • ভাঙা SSL VPN প্রোফাইল (v22.0 Build 411): কিছু ব্যবহারকারী রিপোর্ট করেছেন যে সর্বশেষ v22-তে আপগ্রেড করার পর, SSL VPN প্রোফাইল তৈরি করা ব্যর্থ হচ্ছে। নতুন ভার্সনটি এতই বাগ-পূর্ণ যে কখনো কখনো তাদের v21.5-এ রোলব্যাক করতে হয়েছে।
  • ভাঙা SNAT / ওয়েব সার্ভার অ্যাক্সেস (v22.0 Build 365): আপডেট করার পর, বাইরে থেকে অভ্যন্তরীণ ওয়েব সার্ভারে অ্যাক্সেস বিচ্ছিন্ন হয়ে যায় বলে রিপোর্ট রয়েছে। ম্যানুয়ালি SNAT-কে ডিফল্ট MASQ অপশনে রিসেট না করা পর্যন্ত ইন্টারনেট রাউটিং প্রায়শই পুরোপুরি কাজ করা বন্ধ করে দেয়।
  • CLI স্প্যাম / “Invalid rule id”: কনসোলে ব্যাপকভাবে “Invalid rule id or family for update”-এর মতো সতর্কতা দেখা যায়। (এটি “কেবলমাত্র” একটি ডিসপ্লে এরর বলে মনে হচ্ছে, তবে এটি অযথাই লগে ভরে যায়)।

এবং এই সবকিছুর সবচেয়ে তিক্ত দিকটি হলো: এর প্রতিটি বিষয়ই শুধু বিরক্তিকর নয়, এটি একটি বিশাল ঝুঁকি। লগ যদি না থাকে, তবে আপনি অন্ধের মতো চলছেন। HA যদি অস্থিতিশীল হয়, তবে আপনি ফেইলওভারের (failover) ওপর ভরসা হারান। যদি সার্টিফিকেট রিনিউ না হয়, তবে আপনি ওয়ার্কঅ্যারাউন্ড (workarounds) তৈরি করেন। আর এই ওয়ার্কঅ্যারাউন্ডগুলোই পরবর্তীতে বড় দুর্ঘটনার জন্ম দেয়।

Sophos বাগ (v21.5 থেকে v22): যা সরাসরি আপনার সমস্যার সাথে মিলে যায়

আপনি একজন অ্যাডমিন হিসেবে যাতে এটি স্পষ্টভাবে ট্র্যাক করতে পারেন, সেজন্য আমি ইচ্ছাকৃতভাবে অফিসিয়াল রিলিজ নোট বা আনুষ্ঠানিকভাবে নথিবদ্ধ পরিচিত সমস্যা (Known Issues) থেকে নির্দিষ্ট NC-ID-গুলো এখানে তালিকাভুক্ত করছি।

সংক্ষেপে: লক্ষণ -> নোটে কী বলা আছে

অপস-এ লক্ষণ (Symptoms in Ops)রিলিজ নোটস / Known Issues থেকে উদাহরণ
বুট/রিস্টার্ট ঠিকভাবে চালু হয় নাNC-151715, NC-152641, NC-123910
ফেইলওভারের সময় HA নড়বড়ে বা প্যানিক করেNC-142962, NC-132291, NC-147307, NC-147739, NC-149039
লগ/রিপোর্ট গায়েব বা অনির্ভরযোগ্য হয়ে যায়NC-158526, NC-160962, NC-157663, NC-169237, NC-135594, NC-175936, NC-170292, NC-166381
Let’s Encrypt/WAF মানসিক চাপ সৃষ্টি করছেNC-148937, NC-152022, NC-140663, NC-141062, NC-152540, NC-146082, NC-159041
Entra SSO/Captive Portal/VPN Portal ঝামেলা করছেNC-167126, NC-157635, NC-167130, NC-167128
VPN/IPsec চালু হচ্ছে না বা ইন্টারঅপ (interop) ভেঙে যাচ্ছেNC-136352, NC-128116
নির্দিষ্ট কোনো রুলের কারণ ছাড়াই ট্রাফিক ড্রপ (Traffic Drops)NC-169842 (এবং আপগ্রেডের পর IPS/Snort-কেও কারণ হিসেবে মনে রাখুন)
ইন্টারফেস “গায়েব” (UI)পরিচিত সমস্যা (Known Issue): 10 বা তার বেশি অঙ্কের ইন্টারফেসের নামগুলো WebAdmin ভিউতে ইন্টারফেসটিকে অদৃশ্য করে দেয়

অপারেশনস থেকে একটি হতাশাজনক গল্প

আমরা সকালে সেখানে বসে वही করি যা আপনি সবসময় করেন: টিকিটে কাজ করা, পরিবর্তনের পরিকল্পনা করা, মনিটরিং পড়া।

আর তারপর ফায়ারওয়াল দরজায় কড়া না নেড়েই হাজির।

কোনো CVE নিয়ে নয়, কোনো “Critical Advisory” নিয়ে নয়। বরং দৈনন্দিন জীবনের এক বিরক্তিকর রূপ নিয়ে।

প্রথম কফি, প্রথম রিস্টার্ট, আর মাথায় একটি প্রশ্ন: এটি কি আবার চালু হবে নাকি হবে না?

সবকিছু ঠিক থাকলে, এটি চালু হয়। পরিস্থিতি খারাপ হলে, এটি “Failsafe” এবং “চালু আছে, কিন্তু ট্রাফিক প্রসেস করছে না”-এর মাঝামাঝি কোথাও আটকে যায়। আর যখন আপনি ভাবছেন যে আপনাকে সত্যিই আবার কনসোল কেবল বের করতে হবে কিনা, ঠিক তখনই পরের অধ্যায় শুরু হয়।

HA (High Availability)। আপনার এয়ারব্যাগ। এবং কখনো কখনো মনে হয় যেন পার্কিং করার সময়ই এয়ারব্যাগ খুলে গেছে।

তারপর লগিং। আমরা সবাই জানি: আপনি যদি দেখতে না পান যে কী হচ্ছে, তবে আপনি এটি নিয়ন্ত্রণ করতে পারবেন না। আর হঠাৎ করে লগ গায়েব হয়ে যায়, রিপোর্টগুলো ফাঁকা দেখায়, অথবা কোনো সার্ভিস বিদায় নেয়। আপনি সেখানে দাঁড়িয়ে ভাবেন যে আপনার কি এখন সিকিউরিটি সমস্যা আছে, ডেটা কোয়ালিটির সমস্যা আছে, নাকি দুটোই।

আর তারপর আসে আসল ধাক্কা: WAF, রিভার্স প্রক্সি, Let’s Encrypt।

আপনি খুব ফ্যান্সি (fancy) কিছু চানও না। আপনি কেবল চান যেন সার্টিফিকেটগুলো রিনিউ হয় এবং আপনার ওয়েবসাইটগুলো রাত ০২:১৩-তে “connection refused” বলে চিৎকার না করে।

আর বোনাস হিসেবে, একটি ইন্টারফেস “উধাও” হয়ে যায়। সত্যিই উধাও হয় না, শুধু UI-তে দেখা যায় না। ট্রাফিক হয়তো তখনও চলছে, কিন্তু ডিবাগ করার জন্য আপনার যা দেখা দরকার তা আপনি দেখতে পান না।

এক পর্যায়ে, আপনি নিজেকে এমন একটি প্রশ্ন করেন যা সত্যিই অযৌক্তিক:

আমি কোনটা পছন্দ করব: একটি নিরাপত্তা দুর্বলতা সম্পন্ন ফায়ারওয়াল যা অন্তত স্থিতিশীলভাবে চলে, নাকি বড় কোনো CVE হেডলাইন ছাড়া এমন একটি ফায়ারওয়াল যা অপস-এ প্রতি সপ্তাহে আমার ফ্লোরে নতুন নতুন গর্ত পুড়িয়ে তৈরি করে?

1) বুট, রিবুট, আপগ্রেড: “সে বেঁচে আছে, কিন্তু কাজ করছে না”

যদি কোনো ফায়ারওয়াল বুট করার পর ঠিকমতো চালু না হয়, তবে এটি কেবল “আপটাইম (uptime)” এর বিষয় নয়। এটি হলো একটি নষ্ট হওয়া দিন এবং সাথে ঝুঁকি, কারণ এমন পরিস্থিতিতে আপনি প্রায়শই এমন কাজ করেন যা আপনি অন্যথায় কখনোই করতেন না।

SFOS 21.5 রিলিজ নোটস থেকে কিছু উদাহরণ:

  • রিস্টার্টের সময় Failsafe: NC-151715 (ফার্মওয়্যার ম্যানেজমেন্ট): রিস্টার্টের সময় অক্সিলিয়ারি (Auxiliary) ডিভাইসটি Failsafe-এ চলে গেছে; রিস্টার্ট ব্যর্থ হয়েছে।
  • আপগ্রেডের পর ট্রাফিক বন্ধ হয়ে যায়: NC-152641 (ফার্মওয়্যার ম্যানেজমেন্ট): আপগ্রেড করার পর (21.0 MR1 Build 237), কোনো ট্রাফিক প্রসেস করা হয়নি (SWAP মেমরি কনফিগারেশনে পরিবর্তন)।
  • কার্নেল প্যানিক (Kernel Panic): NC-123910 (ফায়ারওয়াল): কার্নেল প্যানিক সমস্যা।

এবং হ্যাঁ: SFOS 22.0 একটি অতিরিক্ত আপগ্রেড ফ্যাক্টর নিয়ে এসেছে: Sophos রিলিজ নোটে জানিয়েছে যে v22 আর্কিটেকচারাল পরিবর্তন আনে এবং বিরল ক্ষেত্রে অতিরিক্ত ম্যানুয়াল স্টেপসের প্রয়োজন হতে পারে। ঠিক এই ধরনের আপগ্রেড এজ কেসগুলোই (edge case) অপস-এ ভোগান্তি বাড়ায়।

2) HA: যে এয়ারব্যাগ পার্কিংয়ের সময় খুলে যায়

HA হলো আপনার সেফটি নেট (safety net)। আর ঠিক এ কারণেই সবচেয়ে বেশি কষ্ট হয় যখন এজ কেসগুলো ঠিক সেখানেই এসে বড় আকার ধারণ করে।

SFOS 21.5 রিলিজ নোটস থেকে (নির্বাচিত):

  • একই সাথে রিস্টার্ট হলে HA Event Tracking বন্ধ হয়ে যায়: NC-142962 (HA)।
  • প্যাসিভ (Passive)-এ ফার্মওয়্যার আপলোড হ্যাং হয়ে যায়: NC-132291 (HA)।
  • ফেইলওভারের কারণে Restart Loop তৈরি হয়: NC-147307 (HA) (নোটগুলোতে স্পষ্টভাবে যেমন XGS 2300 উল্লেখ করা হয়েছে)।
  • পাওয়ার আউটেজ (Power Outage)-এর পর সিঙ্ক ব্যর্থ হয়: NC-147739 (HA)।
  • HA স্ট্যাটাস ফ্ল্যাপ (flap) করে, ডেডিকেটেড লিঙ্কে Crash Dump হয়: NC-149039 (HA)।

3) লগিং এবং রিপোর্টিং: যখন আপনি অন্ধের মতো উড়ে চলছেন

আমার কাছে, “বাগ” যে শুধুমাত্র “অপারেশনস”-এর বিষয় নয়, তার আসল কারণ এটাই। যখন লগিং/রিপোর্টিং নড়বড়ে হয়ে যায়, তখন এটি একটি সিকিউরিটি সমস্যা।

SFOS 21.5 রিলিজ নোটস থেকে (নির্বাচিত):

  • লগিং/রিপোর্টিং মাঝে মাঝে বন্ধ হয়ে যায়; Garner ঘন ঘন coredump হয়: NC-158526 (লগিং ফ্রেমওয়ার্ক)।
  • Garner এবং fwcm-heartbeatd বন্ধ হয়ে যায়: NC-160962 (লॉगিং ফ্রেমওয়ার্ক)।
  • আপগ্রেডের পর: আর কোনো রিপোর্ট নেই: NC-157663 (লগিং ফ্রেমওয়ার্ক)।
  • DB করাপশন (Corruption)-এর কারণে Log Viewer ইভেন্ট হারিয়ে ফেলে: NC-169237 (লগিং ফ্রেমওয়ার্ক)।
  • Syslog ফাইল ডেসক্রিপ্টর (fd) করাপশন, ডেটা ভুল FD-তে যায়: NC-135594 (লগিং ফ্রেমওয়ার্ক)।

এছাড়া, আপনি Sophos-এর Known Issues List (KIL)-এ এমন কিছু পয়েন্ট পাবেন যা দৈনন্দিন জীবনে সমানভাবে যন্ত্রণাদায়ক:

  • লগ ভিউয়ার নতুন ডেটা দেখায় না (active.db মিসিং): NC-175936 (লগিং ফ্রেমওয়ার্ক)। কিছু 21.5.1 সিস্টেমে, /tmp/eventlogs/-এর অধীনে active.db মিসিং থাকতে পারে। তখন লগ ভিউয়ার “ফ্রিজ” হয়ে যায়, যদিও ট্রাফিক এবং সিকিউরিটি ফাংশনগুলো চলতে থাকে। KIL অনুসারে, এটি v22-তে ফিক্স করা হয়েছে এবং 21.5 MR2 ফিক্সে অন্তর্ভুক্ত করা উচিত।
  • HA-তে ফলস পজিটিভ (False Positive) “advanced threat detected”: NC-170292 (লগিং ফ্রেমওয়ার্ক)। Sophos Central HA ডিপ্লয়মেন্টে একটি অ্যালার্ট পাঠাতে পারে, যার বর্ণনায় র-লগ (raw logs) অন্তর্ভুক্ত থাকে। KIL অনুযায়ী ওয়ার্কঅ্যারাউন্ড: Garner সার্ভিস রিস্টার্ট করা। KBA: https://support.sophos.com/support/s/article/KBA-000043672
  • ReportDB_v9 STOPPED দেখায় (দেখতে ভয়ংকর লাগে, কিন্তু তা নয়): NC-166381 (রিপোর্টিং)। v21.0 GA বা তার পরের ভার্সনে আপগ্রেড করার পর, এই সার্ভিসটি একটি নির্দিষ্ট সময়কালের পর STOPPED হিসেবে দেখায়। KIL অনুযায়ী, এটি প্রত্যাশিত এবং এর কোনো অপারেশনাল প্রভাব নেই কারণ এটি শুধুমাত্র v21-এর আগের লেগ্যাসি (legacy) রিপোর্টিংকে প্রভাবিত করে।

আর এখানেই আসে “Sophos Central Factor”: আপনি যদি Central-কে সিঙ্গেল প্যান অফ গ্লাস (Single Pane of Glass) হিসেবে ব্যবহার করেন, তবে লগিংয়ের সমস্যা দ্বিগুণ কষ্ট দেয়। যদি লোকাল লগিং পাইপলাইন (Garner/DB) পড়ে যায়, তবে Central Firewall Reporting (CFR)-এ আপলোডও ব্যর্থ বা হ্যাং হতে পারে। আর এমনিতেও CFR সবসময় “রিয়েলটাইম” নয়। এর অর্থ হলো: সবচেয়ে খারাপ পরিস্থিতিতে, আপনি শুধু লোকাল লগই হারাচ্ছেন না, বরং ঠিক সেই সেন্ট্রাল ভিউটিও হারাচ্ছেন যার ওপর আপনি দৈনন্দিন কাজে নির্ভর করতে চেয়েছিলেন।

4) WAF এবং Let’s Encrypt: পাবলিক সার্ভিস, কিন্তু দয়া করে কোনো নাটক ছাড়া

যখন সার্টিফিকেট রিনিউ হয় না এবং রিভার্স প্রক্সি (reverse proxy) পাগলের মতো আচরণ করে, তখন এটি কোনো “ছোট বাগ” নয়। এটি সরাসরি কাস্টমার ইমপ্যাক্ট (Customer Impact)।

SFOS 21.5 রিলিজ নোটসে আপনি WAF/Let’s Encrypt সমস্যার পুরো এক পরিবার খুঁজে পাবেন:

  • Let’s Encrypt সার্টিফিকেট তৈরি ব্যর্থ হয়: NC-148937 (WAF)।
  • LE রিকোয়েস্ট ব্যর্থ হয় কারণ Auto-Firewall-Rule নেই: NC-152022 (WAF)।
  • ভুল LE কনফিগারেশনের কারণে রিভার্স প্রক্সি বারবার রিস্টার্ট হতে থাকে: NC-140663 (WAF)।
  • ACME IP-এর জন্য সার্টিফিকেট ইস্যু করে না: NC-141062 (WAF)।
  • WAF রুল নিজে নিজেই চালু/বন্ধ (toggles on/off) হয়ে যায়: NC-152540 (WAF)।

আর এরপর এমন কিছু বিষয় আছে যা “দেখতে বাগের মতো মনে হয়, কিন্তু আসলে এটি সিকিউরিটি ট্রেডঅফ (tradeoff)"। KIL থেকে উদাহরণ:

  • URL-এ এনকোডেড স্ল্যাশ (%2F): WAF 404 রিটার্ন করে: NC-159041 (WAF)। যদি আপনার অ্যাপ URL-এ এনকোডেড স্ল্যাশ ব্যবহার করে, তবে Apache ডিফল্টভাবে এটিকে ব্লক করে দেয় (ডিরেক্টিভ AllowEncodedSlashes ডিফল্ট হিসেবে No-তে থাকে) এবং আপনি 404 দেখতে পান, যদিও ব্যাকএন্ডে “আসল” পাথ (path) রয়েছে। প্রেক্ষাপট: এনকোডেড স্ল্যাশগুলো পাথ রেস্ট্রিকশনকে (path restrictions) বাইপাস করতে পারে (ক্লাসিক উদাহরণ: .../something%2F..%2Fadmin)। বিস্তারিত: https://httpd.apache.org/docs/2.4/mod/core.html#allowencodedslashes

আর আপনি যদি জানতে চান ফিল্ডে এটি কেমন দেখায়: এই কমিউনিটি থ্রেডে, একজন ব্যক্তি বর্ণনা করেছেন যে 21.5.x-এ আপগ্রেড করার পর, অটো-রিনিউ (auto-renew) সার্টিফিকেটগুলো “উধাও” হয়ে যায়, WAF স্টার্ট হয়নি, এবং ওয়েবসাইটগুলো ERR_CONNECTION_REFUSED মেসেজ দিয়ে বন্ধ হয়ে যায়। এর চূড়ান্ত সমাধান ছিল: ওয়েব প্রোটেকশন রুলস (Web Protection Rules) পরিষ্কার করা এবং ভাঙা LE CSR ডিলিট করা, এরপর এটি আবার কাজ করতে শুরু করে। (থ্রেড: আপগ্রেডের পর WAF/Let’s Encrypt ফেইল, ERR_CONNECTION_REFUSED)।

আর কখনো কখনো এটি “বাগ”-ও নয়, বরং একটি প্রসেস: Sophos কমিউনিটিতে এমন ঘটনাও ঘটেছে যেখানে WebAdmin-এ Let’s Encrypt-এর টার্মস অফ সার্ভিস (Terms of Service) মেয়াদোত্তীর্ণ (expired) হিসেবে মার্ক করা ছিল এবং সেগুলো আবার গ্রহণ (accept) করতে হয়েছিল। (থ্রেড: Let’s Encrypt Terms of Service have expired)।

Known Issues List থেকে আরও একটি “আপগ্রেড ট্র্যাপ (upgrade trap)” ক্লাসিক: CA স্টোরে সদ্য যোগ করা Let’s Encrypt সার্টিফিকেটের সাথে যদি কোনো অনবোর্ড সার্টিফিকেটের নাম মিলে যায়, তবে আপগ্রেড ব্যর্থ হতে পারে (NC-146082)।

5) “একটি ইন্টারফেস গায়েব” (বা শুধু দেখা যাচ্ছে না)

এটি এমন এক ধরণের বাগ যা রিলিজ নোটসে শুনতে খুব সাধারণ মনে হলেও, বাস্তবে এটি আপনাকে অন্ধের মতো কাজ করতে (blind flight) বাধ্য করে।

অফিসিয়ালি একটি Known Issue হিসেবে নথিবদ্ধ:

যদি SFOS 21.5 GA এবং এর পরের ভার্সনগুলোতে কোনো ফিজিক্যাল (physical) বা লজিক্যাল (logical) ইন্টারফেসের নামের শেষে ১০ বা তার বেশি সংখ্যা থাকে (নোটের উদাহরণ: VLAN_1234567890), তবে ഫিজিক্যাল ইন্টারফেসগুলো WebAdmin-এ Network > Interfaces-এর অধীনে দৃশ্যমান থাকে না, অথবা লজিক্যাল ইন্টারফেসগুলো এক্সপ্যান্ড (expand) করা যায় না। গুরুত্বপূর্ণ: রিলিজ নোটস অনুযায়ী, ফাংশনটি প্রভাবিত হয় না, শুধুমাত্র WebAdmin কনসোলে এর ডিসপ্লে প্রভাবিত হয়।

অন্তর্বর্তীকালীন উপসংহার (এই পর্যন্ত): বুট/আপগ্রেড, HA, লগিং/রিপোর্টিং, WAF/Let’s Encrypt এবং এমনকি UI আপনাকে একসাথেই বিপদে ফেলতে পারে। এখান থেকে এমন কিছু বিষয় আসে যেগুলো শুরুতে “নেটওয়ার্ক ডিটেইলস” মনে হলেও অপারেশনালি সেগুলো সমানভাবে ব্যয়বহুল: Entra SSO, VPN Interop, এবং মনে হওয়া র‍্যান্ডম ট্রাফিক ড্রপস।

6) আইডেন্টিটি/SSO (Entra) এবং Captive Portal: যখন অ্যাক্সেস “র‍্যান্ডম” মনে হয়

বাগের এই ক্যাটাগরিটি অপস-এ বিশেষভাবে প্রতারণাপূর্ণ: ইউজারের (User) কাছে মনে হয় “আমার অ্যাকাউন্টে কোনো সমস্যা হচ্ছে”। আপনার কাছে মনে হয় “এটি শুধুই SSO-এর সমস্যা”। বাস্তবে, অনেক ক্ষেত্রেই এর মাঝখানে ফায়ারওয়াল থাকে।

আপনার মিক্সে Microsoft Entra ID (Azure AD) থাকলে KIL থেকে কিছু ওপেন ইস্যু:

  • Sophos Connect VPN: কন্ডিশনাল অ্যাক্সেস (Conditional Access) পুরোপুরি সাপোর্টেড নয়: NC-167126 (অথেনটিকেশন)। প্রথমবার লগইনের সময় প্রাথমিক MFA চ্যালেঞ্জের পর, পরবর্তী প্রতিটি কানেকশনে কন্ডিশনাল অ্যাক্সেস চেক অপরিহার্যভাবে ট্রিগার হয় না। KIL অনুযায়ী, পলিসি এনফোর্সমেন্ট ততক্ষণ পর্যন্ত পুনরায় হয় না যতক্ষণ না ইউজার Sophos Connect Client-এ ম্যানুয়ালি লগ আউট করেন।
  • VPN SSO: UPN এবং ইমেইল আলাদা, লগইন ভেঙে যায়: NC-157635 (অথেনটিকেশন)। Entra-তে ইমেইল আইডি এবং UPN আলাদা হলে, ইউজাররা VPN পোর্টালে ঢুকতে পারলেও SSL VPN বা IPsec পোর্টালে ঢুকতে পারেন না। KIL অনুযায়ী কারণ: OAuth হেডার ইমেইল প্রদান করে, যা পরে UPN হিসেবে ভুলভাবে ব্যাখ্যা করা হয়।
  • Captive Portal: Entra SSO ইউজারদের রুলে (Rule) প্রাইমারি গ্রুপ (Primary Group) প্রয়োজন হয়: NC-167130 (অথেনটিকেশন)। ইন্টারনেট অ্যাক্সেস তখনই কাজ করে যখন আপনি ফায়ারওয়াল রুল ম্যাচে (Firewall Rule Match) প্রাইমারি গ্রুপ ব্যবহার করেন (সেকেন্ডারি গ্রুপ এখানে গণ্য হয় না)। KIL অনুযায়ী ফিক্স “পরবর্তী মেইনটেন্যান্স রিলিজে” আসবে; ওয়ার্কঅ্যারাউন্ড: প্রাইমারি গ্রুপ এক্সপ্লিসিটলি (explicitly) ম্যাচ করুন অথবা ইউজার-ভিত্তিক রুল ব্যবহার করুন।
  • Entra SSO-এর সাথে মাঝে মাঝে “no permission” (অনুমতি নেই) এরর: NC-167128 (অথেনটিকেশন)। যখন Entra ID Auth এবং On-Prem AD Auth সমান্তরালভাবে (parallel) ব্যবহার করা হয় (টোকেন-রিইউজ) তখন এটি ঘটতে পারে। KIL অনুযায়ী ওয়ার্কঅ্যারাউন্ড: ব্রাউজার কুকিজ ক্লিয়ার করা অথবা Sophos Connect Client-এ “force re-logon” করা। বিকল্প হিসেবে, ধারাবাহিকভাবে একটি অথেনটিকেশন পদ্ধতি ব্যবহার করুন।

7) VPN/IPsec ইন্টারঅপারেবিলিটি (Interop): আপগ্রেড প্রায়শই “প্রতিপক্ষ”-এর কারণে ব্যর্থ হয়

দুটি KIL বিষয় যা শুধুমাত্র 21.5 দিয়ে শুরু হয়নি, বরং ফিল্ডে পুরোনো ক্লায়েন্ট বা রিমোট পিয়ার (remote peers) থাকলে 21.5/v22-তেও সমানভাবে প্রাসঙ্গিক:

  • IPsec IKEv2: টানেল চালু হয় না (ফ্রেগমেন্টেশন/PMTU): NC-136352 (IPsec)। 20.0 MR1 থেকে, ডিফল্ট IKEv2 প্রোফাইল বড় প্যাকেট (আরও বেশি ডিফল্ট ফিল্ড) তৈরি করতে পারে, যা কখনো কখনো ১৫০০ বাইটের বেশি হয়। যদি পাথ (path)-এ ফ্রেগমেন্টেশন/PMTU খারাপ হয় (ফ্রেগমেন্ট ড্রপ হয়ে যায়), তবে S2S টানেল চালু হবে না। KIL অনুযায়ী প্রশমন (Mitigation): IPsec প্রোফাইলে DH গ্রুপ (DH Groups) কমান (ন্যূনতম ৪) অথবা রিমোট পিয়ার যে গ্রুপ ব্যবহার করে ঠিক সেটিই কনফিগার করুন।
  • SSL VPN/OpenVPN 2.6.0: EoL ক্লায়েন্ট/UTM9-এর সাথে অসামঞ্জস্যতা (Incompatibility): NC-128116 (SSLVPN)। 20.0 MR1 থেকে, OpenVPN 2.6.0 ভার্সনে রয়েছে। এটি পুরানো SFOS ভার্সন (18.5 এবং পুরনো), লেগ্যাসি (Legacy) SSL VPN ক্লায়েন্ট (EoL) এবং UTM9 OS-এর সাথে সাইট-টু-সাইট SSL VPN ভেঙে দেয়। KIL অনুযায়ী সুপারিশ: উভয় দিকই আপগ্রেড করুন অথবা IPsec/RED-তে সুইচ করুন; রিমোট (Remote): Sophos Connect অথবা বর্তমান OpenVPN ক্লায়েন্ট ব্যবহার করুন।

8) রুল হিট ছাড়াই ট্রাফিক ড্রপ: একটি জঘন্য কারণ হিসেবে Accurate ECN

যখন ট্রাফিক “র‍্যান্ডম” ভাবে ড্রপ হচ্ছে বলে মনে হয়, তখন আপনি প্রথমেই রুল (rules), IPS, TLS ইন্সপেকশন এবং রাউটিং চেক করেন। আর ফার্মওয়্যার আপগ্রেডের পর এই তালিকায় একটি ক্লাসিক বিষয় যোগ হয়: IPS ইঞ্জিন (Snort) বা সিগনেচার (signatures) আরও কড়াকড়ি হয়ে যায়, যা বৈধ (legitimate) ট্রাফিককেও ব্লক করে দেয়, আর আপনি লগে এর জন্য তাৎক্ষণিকভাবে স্পষ্ট কোনো ইভেন্ট খুঁজে পান না। এরপর আপনি “রাউটিং” বা “রুলস” ডিবাগ করতে ঘণ্টার পর ঘণ্টা ব্যয় করেন, যদিও শেষ পর্যন্ত এটি একটি পলিসি বা টিউনিং (Tuning) সংক্রান্ত কাজ হয়ে দাঁড়ায়।

তবে, KIL-এ এমন একজন প্রার্থীও রয়েছে যা আপনাকে দীর্ঘ সময়ের জন্য ব্যস্ত রাখতে পারে যদি আপনি এটিকে আপনার রাডারে না রাখেন:

  • Accurate ECN Bits-এর কারণে ট্রাফিক ড্রপ করা হয়েছে: NC-169842 (ফায়ারওয়াল)। Accurate ECN, TCP বিটস (ECE/CWR/NS)-কে ভিন্নভাবে সেট করে (RFC 7560)। KIL অনুযায়ী, কার্নেল এটিকে “রিজার্ভড বিট সেট (reserved bit set)” হিসেবে ব্যাখ্যা করে এবং ট্রাফিক ড্রপ করে দেয়। এটি দ্রুত খুঁজে বের করার জন্য, ক্লায়েন্ট সাইডটি একটু দেখে নেওয়া কাজে আসতে পারে: বাস্তবে, নতুন লিনাক্স (Linux) কার্নেল বা Apple ক্লায়েন্টদের ক্ষেত্রে এটি বেশি নজরে আসতে পারে, কারণ তারা আরও সক্রিয়ভাবে RFC 7560/Accurate ECN ব্যবহার করে (“শুধু MacBooks-ই কেন কিক আউট হচ্ছে?")। RFC: https://www.rfc-editor.org/rfc/rfc7560

9) v22 GA Re-Release Build 411: শুরুতেই কেন এর প্রয়োজন ছিল

২০ জানুয়ারি ২০২৬-এ, Sophos “বিরল এবং বিচ্ছিন্ন সমস্যাগুলো” ঠিক করার জন্য একটি রি-রিলিজ (Build 411) হিসেবে v22 GA পুশ করে। তালিকাটি পড়লে মনে হয় যেন এটি “চেঞ্জ উইন্ডোতে (change window) অপ্রয়োজনীয় কাজ”-এর একটি বেস্ট-অফ (Best-Of) হিটস (সূত্র: রি-রিলিজ নিয়ে Sophos কমিউনিটি ব্লগপোস্ট):

  • NC-171003: VLAN ফিল্টারিং সহ ব্রিজ (Bridge) ইন্টারফেসের মাধ্যমে WebAdmin-এ প্রবেশ করা যাচ্ছে না।
  • NC-170987: CLI স্প্যাম লগ “Invalid rule id or family for update”।
  • NC-170970: DNAT রুলে (Rule) নির্দিষ্ট কোনো আউটবাউন্ড ইন্টারফেস (outbound interface) থাকলে DNAT ট্রাফিক ফেইল করে।
  • NC-171600: SSL/TLS উইজেট এবং সেশন চার্ট (Session Chart) ডেটা ভুল/ফাঁকা।
  • NC-172197: কোনো SNMP কনফিগারেশন যোগ করা যাচ্ছে না।

ব্লগপোস্ট: v22 GA re-release (Build 411) is now available

আসল ক্ষতি: বাগ সিকিউরিটিকে আরও ব্যয়বহুল করে তোলে

আসল কথা এটা নয় যে “বাগ, CVE-এর চেয়েও খারাপ” বা এর বিপরীত কিছু।

আসল কথা হলো: যখন আপনার অপারেশনস (Ops) নড়বড়ে থাকে, তখন স্বয়ংক্রিয়ভাবেই সিকিউরিটির মান কমে যায়।

  • আপনি আপগ্রেড করতে দেরি করেন কারণ আপনি পরবর্তী রিগ্রেশন বাগ (Regression-Bug) নিয়ে ভয়ে থাকেন।
  • আপনি বিভিন্ন ফিচার ডিজেবল করে দেন (“আমাদের এখন এটার দরকার নেই”) কারণ সেগুলো মানসিক চাপ বাড়ায়।
  • আপনি অবজারভেবিলিটি (লগ) হারিয়ে ফেলেন, যার মানে হলো রেসপন্স করতে দেরি হওয়া।
  • আপনি সেগমেন্টেশন, ব্যাকআপ এবং পরিষ্কার রুল (clean rules) তৈরির বদলে সারাক্ষণ আগুন নেভানোর (firefighting) কাজে সময় নষ্ট করেন।

এবং একটি বিষয় যা বাস্তবে পুরোপুরি অবমূল্যায়ন করা হয়: Time-to-Resolution (সমাধানের সময়)। CVE-এর ক্ষেত্রে, আপনার কাছে সাধারণত একটি অ্যাডভাইজরি, মিটিগেশন (mitigation) এবং একটি ফিক্স (fix) থাকে। বাগের ক্ষেত্রে, প্রমাণের দায়ভার (burden of proof) খুব দ্রুত অ্যাডমিনের ঘাড়ে এসে পড়ে: tcpdump, CTR লগ, অ্যাডভান্সড শেল এক্সপোর্ট (Advanced Shell export), “আপনি কি একবার রিস্টার্ট করে দেখেছেন?” - আর এসবের মধ্যেই প্রোডাকশন (production) জ্বলতে থাকে। আর তারপরই আপনি সাপোর্টের গোলকধাঁধায় ঢোকেন: সমস্যাটি এস্কেলেট (escalating) করা, হটফিক্স (hotfix) বা পরবর্তী MR-এর জন্য অপেক্ষা করা। এটি আপনার সেই অতিরিক্ত অপস টাইম (ops time) খেয়ে ফেলে যার কোনো প্ল্যান আপনি করেননি।

আর ঠিক এই কারণেই “একটি দুর্বলতা থাক, কিন্তু স্থিতিশীল (stable) হোক?” এই প্রশ্নটি খুব মানবিক হলেও, বাস্তবে এটি একটি ভুল পথ:

কেবলমাত্র “দুর্বলতা” থাকলেই যে তা সিকিউরিটি সমস্যা, তা নয়। একটি “অস্থিতিশীল ফায়ারওয়্যাল”-ও একটি বিরাট সিকিউরিটি সমস্যা।

আমরা এ থেকে কী শিখতে পারি (যাতে পরিস্থিতি পুরোপুরি নিয়ন্ত্রণের বাইরে চলে না যায়)

এমন কিছু বিষয় যা প্রতি সপ্তাহে চাকা নতুন করে আবিষ্কার না করেই এই পাগলামিকে সীমিত করতে সাহায্য করে:

আপগ্রেড প্রিফ্লাইট (Upgrade-Preflight) (শুরু করার আগে)

  • ব্যাকআপ (Backups)-কে রিস্টোর (Restores)-এর মতো গুরুত্ব দিন: কনফিগারেশন এক্সপোর্ট করুন, অফলাইন ব্যাকআপ নিন, এবং রিস্টোর যে কাজ করছে তা অন্তত একবার পরীক্ষা করে নিন।
  • HA স্ট্যাটাস “সবুজ (green)” হওয়াই যথেষ্ট নয় – ফেইলওভার টেস্ট করুন! GUI অনুযায়ী, আমাদের সিঙ্ক (sync) ঠিক ছিল এবং হার্টবিটও পরিষ্কার ছিল। কিন্তু ইমার্জেন্সির সময়, অক্সিলিয়ারি অ্যাপ্লায়েন্স (Auxiliary Appliance) ফেইলওভারটিকে মসৃণভাবে টেকওভার করতে পারেনি। WebAdmin-এর সবুজ চেকমার্কটি দুঃখজনক হলেও বর্তমানে এই নিশ্চয়তা দেয় না যে চেঞ্জ-উইন্ডোর (change-window) সময় এটি ঠিকমতো কাজ করবে।
  • লগিং ভেরিফাই করুন: এক্সটার্নাল Syslog/Collector ইভেন্টগুলো পাচ্ছে, লগে কোনো গ্যাপ নেই, সময়/NTP ঠিক আছে।
  • সার্টিফিকেট/WAF চেক করুন: মেয়াদ উত্তীর্ণ হওয়ার তারিখ, Let’s Encrypt ভ্যালিডেশন, এবং প্ল্যান B হিসেবে একটি ফলব্যাক (Fallback) সার্টিফিকেট।
  • SSO/VPN সত্যিই টেস্ট করুন: Entra লগইন, Captive Portal, Sophos Connect, SSL VPN, IPsec S2S (ফেইলওভার সহ) এগুলোর প্রত্যেকটিই আলাদা আলাদা টেস্ট কেস (test cases)।
  • ব্রেক-গ্লাস (Break-Glass)-এর জন্য প্রস্তুত থাকুন: কনসোল/আউট-অফ-ব্যান্ড (Out-of-band) অ্যাক্সেস, লোকাল অ্যাডমিন (local admins), এবং রোলব্যাকের জন্য ফার্মওয়্যার ইমেজ (images)।
  • ডুয়াল-বুট (Dual-Boot)-এর কথা ভুলবেন না (এবং একে বেশি গুরুত্বও দেবেন না): Sophos-এর দুটি ফার্মওয়্যার পার্টিশন (partitions) থাকে। আপগ্রেড করার সময় কোনো ঝামেলা হলে, 21.5-এ রোলব্যাক করাটা অনেক সময়ই শুধু অন্য পার্টিশন সিলেক্ট করে রিবুট করার মতোই সহজ। কিন্তু: এমন ঘটনাও ঘটেছে যেখানে দ্বিতীয় পার্টিশনটিও ঠিকমতো বুট হয়নি, এবং তখন কেবল রিইমেজ (reimage) করাই একমাত্র উপায় থাকে (যা সাপোর্ট সাধারণত খুব দ্রুত করতে বলে)। এবং এমনকি একটি রিইমেজ-ও সবসময় আসল মূল কারণটি সমাধান করতে পারে না।

আপগ্রেড চলার সময় (যদি HA যুক্ত থাকে)

  • প্রথমে প্যাসিভ/সেকেন্ডারি (Passive/Secondary), তারপর ফেইলওভার, এবং তারপর অ্যাক্টিভ (Active)।
  • প্রতিটি ধাপের পর সংক্ষেপে ভ্যালিডেট (validate) করুন: ট্রাফিক, VPN, DNS, লগিং, WAF/রিভার্স প্রক্সি

চলমান অপারেশনসে (Ongoing Operations)

  • HA-কে শুধু কনফিগারই করবেন না, এটি টেস্টও করুন: ফেইলওভার ড্রিল (Failover drills) এবং কখন ক্লাস্টার আলাদা (split) করতে হবে তার স্পষ্ট মাপকাঠি।
  • লগিং-কে একটি প্রোডাক্ট হিসেবে বিবেচনা করুন: লগ গ্যাপের জন্য অ্যালার্ট, সার্ভিস হেলথ (Service Health), এবং UI কোনো ঝামেলা করলে CLI-এর মাধ্যমে ইমার্জেন্সি এক্সপোর্টের (Emergency export) ব্যবস্থা রাখা।
  • সক্রিয়ভাবে সার্টিফিকেট মনিটর করুন: রিনিউয়াল (Renewal) কোনো “নাইস টু হ্যাভ (nice to have)” বিষয় নয়, বরং এটি একটি অপারেশনাল রিস্ক। ToS পরিবর্তনগুলোকে ইনফ্রাস্ট্রাকচার পরিবর্তনগুলোর (Changes) মতোই গুরুত্ব দিয়ে বিবেচনা করুন।
  • হেলথ চেক (Health Check) একটি ইঙ্গিত হিসেবে, KPI হিসেবে নয়: v22-তে, Sophos হেলথ চেক (Health Check) চালু করেছে (আমার আর্টিকেল Sophos Firewall v22 Health Check - সম্পূর্ণ ওভারভিউ -এ বিস্তারিত দেওয়া আছে)। একটি বেস্ট-প্র্যাকটিস চেকলিস্ট (best-practice checklist) হিসেবে এটি ভালো, কিন্তু কখনো কখনো এটিকে “ইকোসিস্টেমের সুইচগুলো শুধু সবুজ করে রাখার” মতো মনে হয়। প্র্যাকটিস থেকে একটি উদাহরণ: অনেকেই শুধুমাত্র হেলথ চেকে সবুজ চেকমার্ক পাওয়ার জন্য লগইন ডিসক্লেইমার (Login Disclaimer) অ্যাক্টিভেট করে রাখেন। আমি সেখানে যেটির অভাব বোধ করি, তা হলো কঠিন অপারেশনাল ইন্ডিকেটর, যেমন “লগিং/রিপোর্টিং DB কি সুস্থ আছে?” অথবা “SSD-এর বর্তমান অবস্থা কী?” - বিশেষ করে এই কারণে যে কিছু অ্যাপ্লায়েন্স (appliances)-এ প্রত্যাশার চেয়ে অনেক দ্রুত স্টোরেজের সমস্যা দেখা গেছে।

উপসংহার: যখন টুল নিজেই একটি ঝুঁকি হয়ে দাঁড়ায়

দিনের শেষে, আমরা সবাই একই নৌকার যাত্রী। আমরা গুরুত্বপূর্ণ ইনফ্রাস্ট্রাকচার (infrastructure) পরিচালনা করি এবং আমাদের এমন টুলের ওপর ভরসা করতে পারা উচিত যেগুলো আমাদের বিশৃঙ্খলা থেকে বাঁচানোর কথা, নিজেরাই সেই বিশৃঙ্খলা তৈরি করার কথা নয়। বর্তমান ফার্মওয়্যার কোয়ালিটি (v21.5 / v22) বিবেচনা করে, Sophos-কে নিশ্চিতভাবেই তাদের হোমওয়ার্ক আরও ভালোভাবে করতে হবে। “স্টেবল রিলিজ (stable releases)"-এর ওপর যে আস্থা ছিল, তা আমাদের এবং কমিউনিটির অন্যান্য অনেকের কাছেই একটা বড় ধাক্কা খেয়েছে।

আমি এমন কোনো ফায়ারওয়্যাল চাই না যা “হয় নিরাপদ অথবা স্থিতিশীল”। আমি এমন একটি ফায়ারওয়্যাল চাই - না, আমার এমন ফায়ারওয়্যাল দরকার - যার মধ্যে এই দুটো গুণই আছে।

যতক্ষণ না Sophos কোয়ালিটির এই সমস্যাগুলোর সমাধান করছে, অপারেশনসে আমাদের কাছে কেবল একটিই উপায় খোলা আছে: আমাদের আরও বেশি শৃঙ্খলাবদ্ধ হতে হবে, UI-তে “সবুজ চেকমার্ক”-এর পরোয়া করা ছাড়তে হবে, এবং ডেপ্লয়মেন্ট (deployment) পরিকল্পনায় সাধারণ বাগগুলোকেও ঠিক ততটাই গুরুত্বের সাথে নিতে হবে যতটা গুরুত্ব আমরা একটি ক্রিটিক্যাল CVE-কে দিয়ে থাকি।

পরবর্তী সময় পর্যন্ত,
Joe

সূত্র (Sources)

© 2026 trueNetLab