CISA Series ตอนที่ 31 : D4 - เปิด Domain 4: ระบบที่สร้างเสร็จแล้ว ดูแลให้ทำงานยังไง + รอดยังไง

ขึ้น Domain 4 แล้วครับ เอาตรงๆ Domain นี้ผมตั้งใจอ่านที่สุดในทั้งซีรีส์เลย

เหตุผลง่ายๆ: D4 น้ำหนักข้อสอบ 26% ใหญ่สุดร่วมกับ D5 มี section รวม 16 sections (มากที่สุดในทุก Domain) แล้วก็เป็น Domain ที่ผมว่าใกล้เคียงกับ “ระบบที่อยู่ในสนามจริง” ไม่ใช่ระบบบนกระดาน — ออกแนวสิ่งที่เจ้าของกิจการต้องเจอทุกวันมากกว่าทฤษฎี

ก่อนลงรายละเอียด ขอใช้บทนี้วาดแผนที่ใหญ่ก่อน — แบบเดียวกับใน ตอน 03 สำหรับ D1, ตอน 14 สำหรับ D2, และ ตอน 23 สำหรับ D3

ที่ผ่านมาเรารู้อะไรแล้ว#

ลองย้อนภาพรวมทั้งซีรีส์ก่อน เพราะ D4 ไม่ได้อยู่โดดเดี่ยว มันต่อยอดจากทุก Domain ก่อนหน้าหมด

Domain 1 — วิธีของ auditor: รู้กฎ มีอำนาจ วางแผนตามความเสี่ยง ลงสนาม เก็บหลักฐาน ออก report
Domain 2 — สรีระของ organization ที่ดี: governance, ERM (Enterprise Risk Management / การบริหารความเสี่ยงระดับองค์กร), policy hierarchy, vendor management, performance
Domain 3 — กระบวนการสร้างระบบใหม่: business case, SDLC (Software Development Life Cycle / วงจรพัฒนาซอฟต์แวร์), application controls, testing, go-live, post-implementation review
Domain 4 — ระบบที่ go-live แล้ว ดูแลยังไง รอดยังไง — ที่กำลังจะคุยกัน
Domain 5 — ปกป้องระบบและข้อมูลจากการถูกโจมตี (รออยู่)

ทุก Domain ต่อกันแน่น D4 รับช่วงมาจาก D3 ตอนที่ระบบเพิ่ง go-live ส่วน D5 ค่อยมารับต่อในมิติ security

คำถามใหญ่ของ D4 — Run + Survive#

D3 จบลงตรงไหน? ตรงที่ระบบใหม่ผ่าน UAT (User Acceptance Testing / การทดสอบให้ผู้ใช้ยอมรับระบบ), migrate ข้อมูลเข้าได้ครบ, เปิดให้ user ใช้งาน, ผ่าน post-implementation review

แล้วต่อจากนั้นล่ะ?

ระบบก็อยู่ในสนาม มีคนใช้งานจริง 8 ชั่วโมงต่อวัน 365 วันต่อปี ข้อมูลไหลเข้าออกตลอดเวลา มี integration กับระบบอื่น มี vendor มาเสริม patch ใหม่ออกทุกเดือน พนักงานใหม่เข้า พนักงานเก่าออก server อายุเริ่มเก่า ข้อมูลโตขึ้นเรื่อยๆ

แล้วก็จะมีวันที่ ระบบช้า ระบบแฮ้ง ระบบเพี้ยน serverล่ม น้ำท่วม data center, hard driveพัง, พนักงานกดผิด, hackerเข้ามา, vendorผิดสัญญา

D4 คือคำตอบของ 2 คำถามที่อยู่คู่กันตลอด:

Run — ทำยังไงให้ระบบทำงานสม่ำเสมอทุกวัน ไม่ล่มก่อนเวลา
Survive — เมื่อเกิดเหตุที่ระบบล่มจริง รอดมาได้ยังไง

ในมุม business owner D4 คือเรื่องของ continuity (ธุรกิจไม่หยุด) กับ resilience (เจ็บแล้วยังลุกได้)

ในมุม auditor D4 คือเรื่องของการตรวจว่า control ที่อยู่รอบๆ การ run + survive มีครบและทำงานจริงรึเปล่า

โครงของ Domain 4 — 16 sections แบ่งเป็น 2 parts#

CRM แบ่ง D4 เป็น 2 ส่วนใหญ่ๆ:

Part A — Information Systems Operations (Section 4.1-4.11): เรื่องของการ “Run” ระบบในวันธรรมดา

Part B — Business Resilience (Section 4.12-4.16): เรื่องของการ “Survive” เมื่อเกิดเหตุ

ขอ map สั้นๆ ก่อนว่าแต่ละ section คุยเรื่องอะไร แล้วตอนถัดๆ ไปค่อยเจาะทีละส่วน

Part A: Run — งานประจำที่ทำให้ระบบทำงาน#

เรื่องที่ Part A คุยกัน เรียงตามลำดับที่ผมจะเล่า:

ขั้น	เรื่อง	คำถามใหญ่
รู้จักโครงสร้าง	OSI Model + LAN/WAN + USB + Asset Inventory + Job Scheduling	auditor ต้องอ่านโครงสร้าง IT ให้ออกก่อนตรวจอะไรเลย
รอยต่อ	System Interfaces + Shadow IT	ข้อมูลหายไปไหนระหว่างระบบ — รอยต่อมักเป็นจุดอ่อน
เมื่อระบบมีปัญหา	Capacity + Incident + Problem Management	ป้องกันก่อนล่ม / กู้คืนเมื่อล่ม / เลิกล่มซ้ำ
เมื่อต้องเปลี่ยนแปลง	Change + Configuration + Patch Management	ทำไมระบบดีๆ ถึงพังหลัง update
ความจำขององค์กร	Log Management + SLA	จดทุกเหตุการณ์ไว้ + วัดบริการได้
โกดังข้อมูล	Database Management	ใครคุม DBA ที่มีกุญแจทุกดอก

จะเห็นว่า Part A เริ่มจาก infrastructure ก่อน → operations process → data layer

ในมุมผม Part A คือเรื่องของ “ความสม่ำเสมอ” ระบบที่ดีไม่ใช่ระบบที่ไม่เคยมีปัญหา แต่เป็นระบบที่จัดการปัญหาได้สม่ำเสมอต่างหาก

Part B: Survive — แผนเมื่อเกิดเหตุ#

Part B สั้นกว่าแต่หนักกว่า เพราะนี่คือส่วนที่ exam ออกข้อสอบหนัก:

ขั้น	เรื่อง	คำถามใหญ่
รู้ว่าอะไรสำคัญ	BIA — Business Impact Analysis	ก่อนวางแผนรอด ต้องรู้ก่อนว่าอะไรสำคัญ + ทนได้นานแค่ไหน
สร้างความพร้อม	Resilience + Backup	ระบบไม่ล่ม + ข้อมูลไม่หาย — สองชั้นความพร้อม
เมื่อเกิดเหตุจริง	BCP + DRP + RPO/RTO + Recovery Sites	แผนตอนเกิดเหตุ + กลยุทธ์การฟื้นฟู

Part B มี logic ลำดับชัดเจน BIA (Business Impact Analysis / การวิเคราะห์ผลกระทบต่อธุรกิจ) เป็นต้นน้ำ ทุกอย่างไหลตามมา ถ้า BIA ผิด ทุก decision ที่ตามมา (RTO (Recovery Time Objective / เวลาที่ยอมระบบล่ม), RPO (Recovery Point Objective / จุดเวลาที่ยอมเสียข้อมูล), จะเลือก hot site หรือ cold site, จะลงทุน backup แบบไหน) ก็ผิดหมด

4 Theme ที่ขึ้นมาซ้ำตลอด D4#

ก่อนจะลงตอน 32 ขอ flag 4 theme ที่ขึ้นมาซ้ำๆ ตลอด D4 รู้ไว้ก่อน เวลาอ่านบทถัดๆ ไปจะจับแก่นได้เร็วขึ้น

Theme 1 — Lifecycle: Prevent → Detect → Respond → Recover#

D4 ไม่ใช่ list ของ control แต่เป็น lifecycle ที่ control แต่ละตัวอยู่ในตำแหน่งต่างกัน:

Prevent (ก่อนเหตุ) — change management, capacity planning, asset inventory ทำให้เหตุไม่เกิด
Detect (ตอนเหตุเริ่ม) — log monitoring, alert จาก SIEM (Security Information and Event Management / ระบบรวมและวิเคราะห์ log security), threshold ของ capacity เริ่มเตือน
Respond (ตอนเหตุเกิด) — incident management ตอบสนองเฉพาะหน้า กู้บริการคืน
Recover (หลังเหตุ + ระยะยาว) — problem management หาต้นตอ, BCP (Business Continuity Plan / แผนบริหารความต่อเนื่องของธุรกิจ) / DRP (Disaster Recovery Plan / แผนกู้คืนระบบหลังภัยพิบัติ) กู้คืนระยะยาว

control ที่ดีไม่ใช่ control ที่ป้องกันได้ทุกอย่าง แต่คือ control ที่ ครอบทุก phase ของ lifecycle ถ้าองค์กร invest แต่ Prevent ไม่ invest Detect ตอนเกิดเหตุจะไม่รู้ตัวด้วยซ้ำ

Theme 2 — Control Gap มักอยู่ที่ “รอยต่อ”#

จุดที่ control พังบ่อยสุดไม่ใช่ภายในระบบ แต่อยู่ที่รอยต่อ:

ข้อมูลส่งจากระบบ A ไประบบ B (interface)
ข้อมูลที่อยู่นอก official IT (Shadow IT, Excel ของฝ่ายบัญชี)
log ที่บันทึกแล้วไม่มีคนอ่าน
backup ที่มีแล้วไม่เคย test restore
BCP ที่เขียนแล้วไม่เคยซ้อม

Auditor ที่เก่ง รู้ว่าจะหา finding ตรงไหนก่อน คำตอบคือ รอยต่อ เสมอ

Theme 3 — BIA คือต้นน้ำของทุก resilience decision#

ถ้าจำได้แค่อย่างเดียวจาก D4 ขอให้จำเรื่องนี้ครับ BIA นำ ทุกอย่างตาม

ใครจะตัดสินใจว่า:

ระบบนี้ต้องกู้คืนภายในกี่ชั่วโมง? (RTO)
ข้อมูลย้อนหลังกี่ชั่วโมงที่ยอมเสียได้? (RPO)
ต้องลงทุน hot site หรือ cold site พอ?
ต้อง backup ทุกชั่วโมงหรือทุกวัน?

ทั้งหมดนี้ตอบได้ก็ต่อเมื่อ BIA ทำเสร็จ + business เป็นคนตอบเอง ไม่ใช่ IT

Theme 4 — Automation = Systemic Risk#

ใน D4 ระบบ auto-mate เยอะมาก: job scheduler รันงานคืนละหลายพัน, interface ส่งข้อมูลระหว่างระบบทุก 5 นาที, batch job คำนวณเงินเดือน, replication ทำ backup real-time

automation ลด human error ก็จริง แต่สร้างความเสี่ยงใหม่ขึ้นมา — เพราะพอ error เกิด มันเกิดที่ scale ใหญ่และเงียบมาก

ตัวอย่าง: ถ้าคน 1 คนกดผิด 1 ครั้ง = 1 record ผิด แต่ถ้า batch script กดผิด 1 บรรทัด = 50,000 record ผิด และไม่มีใครรู้ทันที

D4 บังคับให้ auditor มอง automation เป็น risk เฉพาะตัว ต้องตรวจ control ของกระบวนการที่ auto-mate ด้วย ไม่ใช่ตรวจแค่กระบวนการที่ทำมือ

บทเรียนใหญ่ที่ผมเก็บได้ตอนเรียนทั้ง Domain#

มีอยู่ 3 ความเข้าใจที่ผมว่าเป็น “key” ของทั้ง D4:

1. Operations ดูเหมือนเรื่องเทคนิค แต่ตัวตัดสินใจคือ business

จะวาง capacity เท่าไหร่, จะลงทุน hot site มั้ย, RTO ควรเท่าไหร่ ทั้งหมดนี้เป็น business decision ที่อาศัยข้อมูล technical ประกอบ ไม่ใช่กลับกัน

2. Test เท่านั้นที่พิสูจน์ว่า control ทำงาน

backup ที่ไม่เคย restore, BCP ที่ไม่เคยซ้อม, hot site ที่ไม่เคย test ทั้งหมดนี้คือ control ที่อยู่ในกระดาษ ไม่ได้อยู่ในความเป็นจริง

3. Document ที่ไม่มีคน maintain เป็นภาระ ไม่ใช่ control

asset register ที่ไม่ update, BCP contact list ที่ outdated, CMDB (Configuration Management Database) ที่ไม่มีใครแก้ เอกสารพวกนี้ให้ false sense of security ที่อันตรายกว่าการไม่มีเลย

ลำดับ 11 ตอนที่จะเล่าใน D4#

ผม restructure ลำดับ CRM ใหม่ให้เล่าต่อเนื่องดีกว่า ไม่ได้ตามเลข section เป๊ะๆ แต่อยู่ใน 16 sections ครบ

Part A — Operations ในวันธรรมดา (ตอน 32-37)

ตอน 32 — โครงสร้าง IT ที่ auditor ต้องเข้าใจ (OSI (Open Systems Interconnection — โมเดล network 7 ชั้น) + USB + Asset + Job Scheduling) + Hardware Review Program — 6 จุดที่ผู้สอบบัญชีต้องถามเวลาตรวจ hardware lifecycle
ตอน 33 — Interfaces + Shadow IT (รอยต่อที่มักหลุดมือ) + EDI (Electronic Data Interchange / การแลกเปลี่ยนข้อมูลทางอิเล็กทรอนิกส์) / EDIFACT / X12 standard, API risk ที่ลึกขึ้น, MFT (Managed File Transfer / ระบบรับส่งไฟล์ที่จัดการรวมศูนย์) 12-item capability list
ตอน 34 — Capacity + Incident + Problem (เมื่อระบบช้า/ล่ม)
ตอน 35 — Change + Configuration + Patch Management (ทำไมระบบดีๆ ถึงพังหลัง update) + IS Operations (Section 4.8.3) — งานหลังบ้านที่ทีม operations ทำทุกวัน: lights-out, librarian, operator manual
ตอน 36 — Log Management + SLA (Service Level Agreement / สัญญาระดับการให้บริการ) (Black Box ขององค์กร)
ตอน 37 — Database Management (โกดังกับคนถือกุญแจ) + DAM (Database Activity Monitoring) + cross-link ไป Database 101 EP.02/04/06/07/08/13/14

Part B — Business Resilience (ตอน 38-40)

ตอน 38 — BIA (รู้ว่าอะไรสำคัญก่อนเกิดเหตุ) + Classification of Operations 4 ระดับ (Critical / Vital / Sensitive / Nonsensitive) + ALE ที่ใช้ชั่งน้ำหนักว่าควรลงทุน control อันไหนก่อน
ตอน 39 — Resilience + Backup (สองระดับความพร้อม)
ตอน 40 — BCP + DRP + RPO/RTO (บทใหญ่สุด) + BCP test 3 ระดับ vs DR test 5 ระดับ (คนละชุดกัน อย่าผสม), Pandemic + Black Swan, Interruption Window, Orphan / Catch-up data, IS auditor checklist ของ BCP/DRP, insurance ที่เป็น component หนึ่งของ BCP

ปิดท้าย

ตอน 41 — ปิด D4 + Recap + เกริ่น D5 (Security)

ตอนนี้พร้อมแล้วครับ บทถัดไปจะเริ่มที่ infrastructure layer — OSI Model, USB risk, IT asset management และ job scheduling ที่ทำงานอยู่ในเงา

ก่อนตรวจอะไรในระบบ auditor ต้องอ่านโครงสร้างของระบบให้ออกก่อน เพราะถ้าอ่านโครงสร้างไม่เป็น เจอ finding ปุ๊บก็ไม่รู้ว่ามันมาจาก layer ไหน

อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.1-4.16 (synthesis post — ภาพรวม Domain 4 ทั้งหมด ไม่ตรงกับ section ใด section หนึ่ง)