สารบัญ
นี่คือบทที่ผมเตรียมตัวที่สุดเลยครับ เพราะ Section 4.15 + 4.16 รวมกันคือส่วนที่ exam D4 ออกถามหนักที่สุด แล้วยังเป็นเรื่องที่ exam ชอบหลอกผ่านการสลับศัพท์ที่ฟังคล้ายๆ กันอีก
จะพยายามเล่าให้ครบ 4 หัวข้อใหญ่ของบทนี้:
- BCP vs DRP — สองสิ่งที่ exam ชอบสลับ
- RPO vs RTO — มิติของ recovery ที่ตัดสินทุกอย่าง
- Hot / Warm / Cold / Mirror site — เลือกยังไงให้คุ้ม
- BCP testing + maintenance — กระดาษที่ไม่เคยซ้อม = ไม่มีค่า
ก่อนเข้าเนื้อหา เอาตรงๆ บทนี้คือสิ่งที่ผมว่าทุก IS auditor ต้องรู้แม่น เพราะ scenario เรื่อง BCP/DRP โผล่ในข้อสอบ CISA แทบทุกชุด และเป็นคำถามต้นๆ ที่ทุก audit engagement ใช้ scope งาน
ส่วนที่ 1 — BCP vs DRP: เรื่องคนละมิติ
BCP = ทั้งองค์กร / DRP = เฉพาะ IT
ความแตกต่างที่ exam ออกซ้ำๆ:
| มิติ | BCP | DRP |
|---|---|---|
| Scope | ทั้งองค์กร — business operations + IT + people + supply chain | เฉพาะ IT systems + data |
| Owner | senior management / CEO | CIO / IT operations |
| Time horizon | ตอนเกิดเหตุ + recovery + new normal | เฉพาะ technical recovery |
| Output | strategic — how org continues operating | tactical — step-by-step IT recovery |
| Example | ”ตอน flood ทีม HR ทำงานจาก backup site ได้ยังไง, supplier ติดต่อใครทดแทน" | "Restore database จาก tape ไป recovery server ตามขั้น 1-7” |
ความสัมพันธ์: DRP (Disaster Recovery Plan / แผนกู้คืนระบบหลังภัยพิบัติ) เป็น component หนึ่งของ BCP (Business Continuity Plan / แผนบริหารความต่อเนื่องของธุรกิจ)
ถ้าเขียน hierarchy:
BCP (ทั้งบริษัท)├── DRP (IT recovery)├── Crisis communication plan (สื่อสาร)├── Supply chain continuity plan├── HR continuity (relocate, work-from-home)└── Facility recovery planTrap ที่ exam ออก — “BCP = IT’s job”
ผิดเด็ดขาด BCP คือ board / senior management responsibility
IT รับผิดชอบ DRP ที่เป็น component ของ BCP แต่ BCP เป็นเรื่องของทั้งองค์กร
ถ้า org ไหน “BCP = IT department’s plan” → finding ทันที
ตัวอย่างจริง: น้ำท่วม 2554
โรงงานในนิคมที่ปทุมธานี มี BCP เก่า 3 ปีที่ assume worst case = ไฟดับ 2 วัน
ตอน flood 2554 โรงงานจม 6 สัปดาห์
BCP ที่มี ไม่ใช่ผิดทั้งหมด แต่ไม่ครอบ scenarioที่เกิดจริง:
- ไม่มีแผน relocate พนักงาน
- ไม่มีแผน remote payroll
- ไม่มีแผนสื่อสารกับ supplier ระหว่าง 6 สัปดาห์
- ไม่มี procedure เคลม insurance
- ไม่มี contingency operating ที่โรงงานสำรองพื้นที่อื่น
BCP มีอยู่ แต่ scope ผิด focus เฉพาะ technical incident ไม่ครอบ catastrophic scenario เลย
Creeping disaster — disaster ที่ค่อยๆ คืบมาเงียบๆ
ก่อนข้าม pandemic ขอ flag ศัพท์เล็กๆ ที่ CRM 4.15.2 พูดถึง — creeping disaster = disaster ที่ค่อยๆ พัฒนาช้าๆ ไม่ใช่เกิดทันที
ตัวอย่างที่เห็นชัด:
- database performance ที่ค่อยๆ ช้าลงจนถึงจุดที่ไม่ usable
- data corruption ที่กัดกินทีละ record ผ่านไปหลายเดือนกว่าจะรู้
- ภัยแล้งที่ค่อยๆ แห้ง
- pandemic ที่ค่อยๆ ลามจาก local outbreak ไปทั่วโลก
ตรงข้ามกับ sudden disaster เช่น แผ่นดินไหว ไฟไหม้ flood — เกิดแล้วรู้ทันที
อันตรายของ creeping disaster คือ “ไม่มี clear trigger point” ให้ activate BCP — กว่าจะรู้ว่านี่คือ disaster ระบบก็เสียหายไปนานแล้ว
ตรงนี้แหละที่ monitoring tools + helpdesk ที่เป็น early warning system มีบทบาทสำคัญ — ตามที่ CRM ระบุ “many disruptions start as minor incidents” และ helpdesk ที่ดีคือคนแรกที่จับ pattern ผิดปกติได้
Pandemic planning — โรคระบาดไม่ใช่ disaster แบบ flood
CRM แยก pandemic ออกเป็น scenario คนละแบบกับ disaster ปกติ เพราะ profile ของ disruption ต่างกันมากครับ:
- ยาวกว่ามาก — flood / ไฟไหม้ อาจกินสัปดาห์ ส่วน pandemic กินเดือนหรือเป็นปี
- กระทบทรัพยากรคน ไม่ใช่อาคาร — สำนักงานยังอยู่ดี แต่คนเข้ามาทำงานไม่ได้ / ป่วยพร้อมกัน / โดน quarantine
- ลามทั้ง supply chain + ลูกค้า + พนักงานพร้อมกัน — recovery site ปกติช่วยไม่ได้ เพราะคนที่ไปประจำ site ก็ป่วยเหมือนกัน
BCP สำหรับ pandemic ต้องเน้นต่างจาก disaster ทั่วไป — remote work readiness (VPN (Virtual Private Network / เครือข่ายส่วนตัวเสมือน) capacity, laptop deployment, secure home access), key-person redundancy ลึกกว่าปกติ (สำรอง 3-4 ชั้น เผื่อทั้ง chain ป่วยพร้อมกัน) และ supplier/customer communication plan สำหรับสถานการณ์ที่ไม่มีใครรู้ว่าจะจบเมื่อไหร่
Black Swan — เหตุที่ไม่มีใคร plan ทัน
อีกประเด็นที่ CRM 4.15.2 พูดตรงๆ คือ Black Swan event — เหตุที่ไม่มีใครคาดได้ ผลกระทบใหญ่ และมักอธิบายได้ “หลังเกิดแล้ว” เท่านั้น
ตัวอย่างคลาสสิก: 9/11, COVID-19, financial crisis ปี 2008, แผ่นดินไหวที่กระทบ nuclear plant ของ Fukushima
ประเด็นของ Black Swan ใน BCP ไม่ใช่ “ทำ plan ครอบให้ครบ” (เป็นไปไม่ได้) แต่คือ:
- มี plan ที่ generic พอ ครอบ “loss of headquarters / loss of key supplier / loss of large % ของ workforce” ทั้ง 3 scenario โดยไม่ต้องตั้งคำถามว่าสาเหตุคืออะไร
- หลีกเลี่ยง single point of failure ที่ระดับคนด้วย เช่น ห้าม CEO (Chief Executive Officer) + COO (Chief Operating Officer) บินไฟลต์เดียวกัน
- review BCP กว้างหลัง event ใหม่ๆ ไม่ใช่แค่ update contact list
CRM พูดชัด — “เหตุพวกนี้หายาก แต่ถ้าเกิดอาจ paralyze องค์กรได้ management ต้องคิดถึง contingency แม้ในกรณีสุดโต่ง”
ส่วนที่ 2 — RPO vs RTO: มิติที่ exam หลอกบ่อยที่สุด
นี่แหละสิ่งที่ผมว่าต้องจำให้แม่น
| ชื่อย่อ | ชื่อเต็ม | ตอบคำถาม | มิติ | อะไรเป็นตัวขับ |
|---|---|---|---|---|
| RPO | Recovery Point Objective | ”เรารับการสูญเสียข้อมูลย้อนหลังกี่ชั่วโมง?“ | data freshness | backup frequency / replication |
| RTO | Recovery Time Objective | ”เราต้องกลับมาให้บริการได้ภายในกี่ชั่วโมง?“ | downtime | recovery site / architecture |
Restaurant fire analogy
ลองนึกถึงร้านอาหารเกิดไฟไหม้ครับ มี 2 คำถามที่ต่างกัน:
คำถามแรก: “บัญชีรายรับรายจ่ายที่จดไว้ในกระดาษ — เราเสียได้ย้อนหลังเท่าไหร่?”
ถ้าจดทุกชั่วโมง backup → เสียอย่างมาก 1 ชั่วโมง = RPO (Recovery Point Objective / จุดเวลาที่ยอมเสียข้อมูล) = 1 ชั่วโมง ถ้าจดทุกวันสรุปวันเดียว → เสียอย่างมาก 1 วัน = RPO = 1 วัน
คำถามที่สอง: “ร้านต้องเปิดอีกครั้งภายในเท่าไหร่ ก่อนจะเสียลูกค้าทั้งหมด?”
ถ้าเป็นร้านแถบ business district → 1 วันก็เริ่มสูญลูกค้าประจำ = RTO (Recovery Time Objective / เวลาที่ยอมระบบล่ม) = 1 วัน ถ้าเป็นร้านในชุมชนเล็กๆ → 1 สัปดาห์ยังพอ = RTO = 1 สัปดาห์
RPO กับ RTO ต่างกันยังไง?
- RPO = “ข้อมูลที่ recover ได้ ย้อนได้ไกลแค่ไหน”
- RTO = “ใช้เวลานานแค่ไหนถึงกลับมา”
ระบบหนึ่งสามารถมี RPO 4 ชั่วโมง แต่ RTO 1 ชั่วโมงก็ได้ ยอม lose data 4 ชั่วโมงล่าสุด แต่ต้องกลับมาบริการใน 1 ชั่วโมง
Trap pattern
Pattern ที่เห็นใน practice question ของ CISA บ่อย:
“ระบบมี RPO 2 ชั่วโมง — backup ทุก 24 ชั่วโมงพอมั้ย?”
ไม่พอครับ RPO 2 ชั่วโมง = ยอม lose data ย้อนได้ 2 ชั่วโมง ต้อง backup อย่างน้อยทุก 2 ชั่วโมง (หรือใช้ replication)
“ระบบมี RTO 1 ชั่วโมง — restore จาก tape ที่ใช้เวลา 4 ชั่วโมงพอมั้ย?”
ไม่พอ restore ต้องเร็วกว่า RTO ถึงจะ work
MTTR — ตัวเลขที่เกี่ยวข้อง
อีกตัวที่บางครั้ง exam ออก: MTTR (Mean Time To Repair) = เวลาเฉลี่ยในการแก้ระบบที่ fail
MTTR ต่ำ → recovery เร็ว → support RTO ที่สั้นกว่า
แต่ MTTR ขึ้นกับ complexity ของ system, parts availability, skill ของช่าง
Other parameters: Interruption Window + MTO + SDO
| ตัวย่อ | หมายถึง | use case |
|---|---|---|
| Interruption Window | เวลาสูงสุดที่องค์กรรอได้ตั้งแต่ระบบ fail จนต้อง restore เสร็จ — ถ้าเกินนี้ ความเสียหายเริ่มสะสมจน “รับไม่ไหว” | ใช้ตั้ง RTO ของแต่ละระบบ |
| MTO | Maximum Tolerable Outage — เวลาสูงสุดที่อยู่ในโหมด alternate ได้ | regulatory จำกัด / SDO ใน alternate mode ต่ำกว่าปกติจนข้อมูล catch-up เริ่มเยอะเกิน |
| SDO | Service Delivery Objective — ระดับ service ที่ยอมรับได้ระหว่าง recovery (ไม่ใช่ 100% แต่พอใช้) | ตอน run ที่ recovery site อาจรับ load ได้ 60% ของปกติ ก็ยังอยู่ภายใน SDO ที่ตกลง |
Orphan data + Catch-up data + Disaster tolerance
CRM 4.16.1 ทิ้ง 3 ศัพท์เล็กๆ ที่ exam ชอบหลอก ขออธิบายสั้นๆ ตรงนี้ครับ
ตอนเกิด disaster แล้ว restore กลับมา จะมีข้อมูล 3 กลุ่ม:
- Catch-up data — transaction ที่เกิดในช่วงตั้งแต่ backup ล่าสุดจนถึงตอน disaster ที่ต้อง re-enter หลัง recovery (ถ้ายังเก็บไว้ในกระดาษ / cache ที่หน้างานได้)
- Orphan data — ข้อมูลที่หายไปจริงๆ ไม่มีทาง recover ได้ ต่อให้ catch-up เสร็จก็ยังขาด คือ “RPO ที่ยังเหลือเป็นแผล” นั่นเอง
- Disaster tolerance — ช่วงเวลาที่ business ยังพอ “ทน” สถานะที่ระบบ IT critical ไม่พร้อมใช้ ยิ่ง RTO ต่ำ → disaster tolerance ต่ำ → ต้องลงทุน recovery หนักกว่า
ลองนึก ระบบ POS (Point of Sale / เครื่องคิดเงินหน้าร้าน) ของร้านสะดวกซื้อ RPO 1 ชั่วโมง backup ทุก 1 ชั่วโมง ถ้าระบบพังตอน 14:45 backup ล่าสุดคือ 14:00 → transaction ของ 14:00–14:45 ที่ขายไปแล้ว ถ้าใบเสร็จยังเก็บได้ก็เป็น catch-up data ถ้าใบเสร็จหายไปด้วย = orphan data
ส่วนที่ 3 — Recovery Sites: เลือกตาม BIA
BIA (Business Impact Analysis / การวิเคราะห์ผลกระทบต่อธุรกิจ) เป็นตัวขับเลือก recovery site แต่ละแบบ — CRM แนะนำหลายแบบ ขอเล่าเรียงตามระดับความพร้อม (จากมาก→น้อย)
Mirror Site
คือ: copy ของ production แบบ real-time — ทั้ง hardware, software, data sync ตลอดเวลา ทำงานเหมือน production ทุกประการ
RPO / RTO: ใกล้ 0 / ใกล้ 0
ราคา: สูงสุด เหมือนมี production 2 ชุดเลย
ใช้กับ: ระบบ ultra-critical (ตลาดหุ้น, payment processing ของธนาคารใหญ่, monitoring system ของ ICU)
Hot Site
คือ: site ที่พร้อมใช้งาน — มี hardware, software, network ทุกอย่าง data sync แต่อาจมี delay บ้าง
RPO / RTO: ชั่วโมง / น้อยกว่า 4 ชั่วโมง (โดยทั่วไป)
ราคา: สูง ค่า maintain hardware + software license + ค่า facility ครบ
ใช้กับ: ระบบ Mission Critical ที่ acceptance downtime สั้น
Warm Site
คือ: site ที่มี hardware + network แต่ software / data ต้อง install + restore ก่อนใช้
RPO / RTO: วัน / 1-3 วัน (โดยทั่วไป)
ราคา: กลาง
ใช้กับ: ระบบ Important ที่ทนได้บ้าง
Cold Site
คือ: ห้องเปล่าที่มี power + network เฉยๆ ทุกอย่างต้องขนเข้าไปติดตั้งหลังเกิดเหตุ
RPO / RTO: สัปดาห์ / 1+ สัปดาห์
ราคา: ต่ำสุด
ใช้กับ: ระบบ low priority ที่ทนได้นาน
Mobile Site
คือ: truck/container ที่บรรจุ IT equipment พร้อม deploy ที่ไหนก็ได้ ใช้ตอนที่ primary site เสียหายและไม่มีพื้นที่ทดแทน
Reciprocal Agreement — ห้ามใช้สำหรับ critical system
คือ: ข้อตกลงระหว่าง 2 องค์กร ตกลงให้ใช้ facility ของอีกฝ่ายได้ตอน disaster
ฟังดูดีนะ แต่exam ออกชัดเจนว่า reciprocal agreement = ไม่แนะนำสำหรับ critical system เพราะ:
- Capacity — partner องค์กรมี capacity พอจริงมั้ย?
- Compatibility — hardware/software/version ตรงกันมั้ย?
- Security — ข้อมูลของเราจะ co-mingle กับของ partner
- Licensing — software license ของเราใช้ใน partner site ได้มั้ย?
- Politics — partner อาจเปลี่ยน mind ตอนเกิดเหตุจริง
กรณีจริง: Hot site ที่ไม่ exclusive
ธนาคารภูมิภาคไทยแห่งหนึ่ง มีสัญญา hot site ที่สีลม
หลายปีที่ผ่านมาไม่เคย test เลย
วันที่เกิด fire ใน data center หลัก ธนาคาร declare disaster, contact hot site provider
provider แจ้งว่า มีอีก 3 บริษัท declare disaster พร้อมกัน, hot site เต็ม อ้าว
สัญญาของธนาคารไม่มี exclusivity clause ต้องรอ 18 ชั่วโมง
control gap:
- ไม่เคย test hot site
- สัญญาไม่มี exclusivity ระหว่าง simultaneous disaster
- ไม่ได้ verify subscriber limit ของ provider
สิ่งที่ต้องอยู่ในสัญญา recovery site
ขอ list ที่ผมว่าสำคัญที่สุดสำหรับ exam:
- Exclusive access หรือ subscription-based (priority ของเรา)
- Capacity guarantee — รับประกันว่ามี hardware พอ
- Time guarantee — declare ตอนใด ใช้งานตอนใด
- Duration — ใช้ได้นานสุดเท่าไหร่
- Test rights — ทดสอบกี่ครั้งต่อปี
- Configuration update — ใครรับผิดชอบ update hardware/software ใน hot site
- Confidentiality — security ของ data ที่อยู่ใน site
- Liability — ใครรับผิดถ้า hot site เสียหาย
- Termination — เงื่อนไขเลิกสัญญา
- Insurance — coverage ของ provider
ส่วนคั่น — BCP Components ที่หลายองค์กรลืม
ก่อนข้ามไปเรื่อง testing ขอ flag 3 component ของ BCP ที่ CRM 4.15.8 ระบุชัด แต่หลายองค์กรชอบลืมก่อนครับ
Key Decision-Making Personnel — ใครมีอำนาจตัดสินตอนวิกฤต
ตอน BCP ถูก activate จริง ใครเป็นคนตัดสินใจเรื่องใหญ่?
- ใครประกาศ “นี่คือ disaster” และ activate BCP?
- ใครตัดสินใจ failover ไป recovery site?
- ใครคุยกับ regulator?
- ใครให้ข่าวกับสื่อ?
ถ้าไม่ตอบล่วงหน้า ตอนเกิดเหตุจริงจะปั่นป่วนมาก เพราะทุกคนรอคำสั่ง
BCP ที่ดีระบุ:
- Primary decision maker + alternate (เผื่อคน primary ติดต่อไม่ได้)
- Authority limit — ใครอนุมัติ spending ระดับไหนได้
- Succession order — ลำดับสำรอง 3-4 ชั้น ไม่ใช่แค่ primary + alternate
- Contact information — เบอร์มือถือ, home phone, alternate email — verify เป็นระยะ
Crisis Communication Plan
CRM แยก crisis communication เป็น component ของตัวเอง ไม่ใช่ส่วนเล็กๆ ของ DRP
ตอน disaster เกิดจริง บริษัทต้อง communicate กับ:
- พนักงาน — มาทำงานที่ไหน ทำอะไร ขั้นตอน safety
- ลูกค้า — service จะ resume เมื่อไหร่ ผลกระทบยังไง
- Supplier / partner — supply chain disruption + timeline
- Regulator — บางอุตสาหกรรมต้อง notify ภายในเวลากำหนด (ธปท., ก.ล.ต., PDPA (Personal Data Protection Act / พรบ.คุ้มครองข้อมูลส่วนบุคคล) office)
- Insurance — claim filing timeline
- Media / public — single spokesperson ที่ approved พูดได้
กับดักของ exam: “ทุกคนใน management พูดกับ media ได้” ผิด crisis communication ต้องมี single spokesperson ที่ approved + briefed message ที่ consistent ห้ามมีหลายเสียง confuse + เกิด liability
Insurance Coverage
อีกเรื่องที่ CRM 4.15.8 ระบุชัด คือ insurance เป็น component หนึ่งของ BCP
ประเภท insurance ที่เกี่ยวข้องกับ IT disaster:
- Property insurance — coverage hardware, facility damage
- Business interruption insurance — coverage revenue loss ระหว่าง downtime
- Cyber liability insurance — coverage breach response, regulatory penalty, third-party claims
- Errors & Omissions (E&O) — coverage liability ที่เกิดจาก IT service ผิดพลาด
กฎเหล็ก: insurance ไม่ทดแทน BCP มัน complement กัน BCP กู้คืน operations, insurance shoulder financial loss
มุม IS Auditor
3 จุดที่ตรวจ:
- Coverage adequacy — coverage limit ครอบคลุม worst-case scenario ของ BIA ไหม
- Policy currency — policy ยังไม่หมดอายุ + premium จ่ายครบ
- Claim procedure — ทีม BCP รู้ขั้นตอนเคลม + เอกสารที่ต้องเตรียม + timeline
ลองนึก scenario: บริษัทแห่งหนึ่งซื้อ cyber liability insurance ตอน ransomware เกิด แต่ไม่ได้ notify insurer ภายใน 72 ชั่วโมงตามที่ policy ระบุ → claim ถูกปฏิเสธ เลย
policy ที่ดีที่สุดในโลก = ไม่มีค่า ถ้า claim procedure ไม่ถูก execute ตามเวลา
ส่วนที่ 4 — BCP Testing + Maintenance
กระดาษที่ไม่เคยซ้อม = ไม่มีค่า
ตัวอย่างจริงที่ยากเลย: hospital เอกชนที่กรุงเทพ annual BCP tabletop test
ระหว่าง test พบว่า:
- emergency contact list มี 12 เบอร์ที่เป็นเบอร์เก่า (พนักงานออก/เปลี่ยนเบอร์)
- backup site access code เป็นของ vendor ที่หมดสัญญา 8 เดือนก่อน
- ไม่มีใคร update ตั้งแต่เขียน BCP เสร็จ
ถ้าเกิดเหตุจริง BCP ใช้ไม่ได้เลย
control gap: ไม่มีคน assign รับผิดชอบ BCP maintenance
BCP test vs DR test — คนละชุดกัน อย่าผสม
จุดนี้คือจุดที่ผมเอง confuse นานมากครับ เพราะ CRM แยกเป็น 2 ชุดคนละชุดกัน:
- BCP test types (Section 4.15.9) = ฝั่ง ธุรกิจ ทดสอบว่าทั้งองค์กรพร้อมรับมือมั้ย มี 3 ระดับ
- DR test types (Section 4.16.5) = ฝั่ง IT recovery ทดสอบว่าระบบ failover ทำงานจริงมั้ย มี 5 ระดับ
หลายแหล่งจำสองอันนี้ผสมกันจนเป็น “5 ระดับ” รวด ซึ่งผิด ตอนสอบ exam ต้องตอบให้ตรงชุด
ชุดที่ 1 — BCP test types (ฝั่งธุรกิจ, 3 ระดับ)
| ระดับ | ชื่อ | ทำอะไร |
|---|---|---|
| 1 | Desk-based evaluation (tabletop / paper test) | ทีมหลักๆ ของ plan นั่งคุยกัน เดิน scenario บนกระดาษ ดู role ตัวเองว่ารู้ขั้นตอนมั้ย ทำได้ทั้ง plan หรือเฉพาะส่วน |
| 2 | Preparedness test (walk-through drill) | ทำตาม procedure จริงในส่วนหนึ่งของ plan — เช่น activate emergency contact tree, evacuation drill, test backup generator startup — ใช้ resource จริง แต่ไม่ shut down production |
| 3 | Full operational test | step เดียวก่อนถึง disaster จริง — plan ต้องผ่าน paper + preparedness มาก่อน ถึงค่อย shut down ของจริงทดสอบ |
ชุดที่ 2 — DR test types (ฝั่ง IT recovery, 5 ระดับ)
| ระดับ | ชื่อ | ทำอะไร |
|---|---|---|
| 1 | Checklist review | แจก checklist ให้ recovery team review ว่ายัง current — pre-step ของ test จริง |
| 2 | Structured walk-through | ทีมเดิน plan ทีละ step บนกระดาษ ประเมิน effectiveness, ระบุจุดที่ต้อง enhance |
| 3 | Simulation test | ทีม role-play scenario disaster เต็มรูปแบบ แต่ ยังไม่ activate processing ที่ recovery site |
| 4 | Parallel test | recovery site ขึ้นมาทำงาน operational จริง โดยที่ primary site ยัง run ปกติ — เทียบ output 2 ฝั่ง |
| 5 | Full interruption test | ปิด primary site จริง shift ไป recovery site — รุนแรงสุด แพงสุด เสี่ยงสุด |
Trap ของ exam — “tabletop = simulation = full test”
ผิดเด็ดขาด tabletop = บนกระดาษอย่างเดียว, simulation = role-play แต่ไม่ activate, full interruption = ปิด primary จริง — 3 อันคนละ realism กัน
ถ้าองค์กรทดสอบเฉพาะ checklist / tabletop → flag finding เพราะ procedure ที่อยู่บนกระดาษอาจ break ตอน execute จริงก็ได้
กฎ progression: องค์กรไม่ควรกระโดดจาก checklist → full interruption ทันที ต้องไต่ระดับ ใช้ผลของ test ระดับล่างมา fix ก่อน escalate
BCP Maintenance: triggers ที่ต้อง update
BCP ต้อง update เมื่อ:
- พนักงาน turnover ในตำแหน่งที่อยู่ใน emergency contact
- ระบบ IT ใหม่ go-live
- ระบบเก่าเลิกใช้
- regulatory requirement เปลี่ยน
- vendor ที่ระบุใน BCP เปลี่ยน
- business process เปลี่ยน
- หลัง test เจอ gap
- หลังเหตุจริงเกิด
ที่ดีที่สุด — มี named owner ที่รับผิดชอบ BCP maintenance + quarterly review
ผู้สอบบัญชี IS เช็คอะไรใน BCP/DRP
CRM 4.15.11 ให้ checklist ละเอียดมาก section นี้ออกข้อสอบเยอะเพราะ exam ถาม “IS auditor จะตรวจอะไร” บ่อย
ขอจัดเป็น 5 sub-checklist ที่ผมว่าใกล้กับ exam ที่สุด ไม่ได้ลอก CRM แต่จัดใหม่ให้จำง่ายขึ้น
1) Review the Document — เช็คตัวเอกสาร BCP
| # | สิ่งที่ตรวจ |
|---|---|
| 1 | ขอ copy ของ business continuity policy + strategy ล่าสุด |
| 2 | ขอ copy ของ BCP manual ที่ใช้อยู่จริง |
| 3 | ขอผล RA / BIA ล่าสุด พร้อม RTO / RPO ที่อนุมัติแล้ว |
| 4 | สุ่ม copy ที่ distribute ไป (ทีมต่างๆ มี version ตรงกันมั้ย) |
| 5 | BCP สะท้อน business condition ปัจจุบันมั้ย (org chart, system, vendor ยัง match) |
| 6 | เอกสารระบุชัดมั้ยว่า “ใคร” เป็นคน invoke BCP (escalation procedure) |
| 7 | มี procedure update manual + ใครรับผิดชอบ + รอบเท่าไหร่ |
2) Review Applications Covered
ตรวจว่า ทุก critical application ถูกครอบใน plan — ไม่ใช่แค่ server-based application หลัก แต่รวม workstation-based + niche application ที่ business พึ่ง
จุดที่ exam ออก: recovery site ต้องมี software version ที่ตรงกับ production — ถ้า version mismatch ก็ recover ไม่ได้ แม้ hardware พร้อม
3) Review BC Teams — คนพร้อมจริงมั้ย
จุดนี้เป็น “live test” ที่ผู้สอบบัญชีทำได้ครับ:
- ขอ manifest ของแต่ละ recovery team — ใครอยู่ทีมไหน, role อะไร
- ขอ copy สัญญา / agreement กับ backup facility (hot site, vendor)
- review list ของ emergency contact (vendor, hot-site contact, key personnel) ว่า up to date มั้ย
- call sample จาก list — โทรไปจริงๆ ดูว่าเบอร์ใช้ได้ + คนยังอยู่ + มี copy ของ BCP manual
ที่เด็ดที่สุดในนี้คือ “call sample” — เป็น easy finding ที่ผ่านง่ายมากถ้าทำ แต่ส่วนใหญ่องค์กรเหมาว่า list ยังถูก ไม่เคย verify จริง
4) Plan Testing — auditor เช็คอะไรในผล test
| # | สิ่งที่ตรวจ |
|---|---|
| 1 | มี procedure documentation ของ test แต่ละครั้งครบมั้ย |
| 2 | backup procedure ของแต่ละ area ที่ DRP cover ถูกทำตามจริงมั้ย |
| 3 | backup + recovery procedure ถูก execute ตามที่เขียนมั้ย (สังเกตจริง) |
| 4 | emergency procedure complete, accurate, current, ใช้ได้จริงมั้ย |
| 5 | transaction ที่ทำผ่าน recovery process ถูก flag แยกจาก normal transaction มั้ย |
| 6 | ทุก recovery team มี written procedure ของตัวเองมั้ย |
| 7 | มี procedure update emergency procedure เมื่อมี change มั้ย |
| 8 | security procedure ใหม่ที่ใช้ใน recovery site ถูก document มั้ย |
| 9 | plan ครอบเรื่อง movement ไป recovery site ละเอียดพอมั้ย |
| 10 | plan ครอบเรื่อง operating จาก recovery site ละเอียดพอมั้ย |
| 11 | plan ครอบเรื่อง return procedure กลับ primary site หลัง disaster จบ |
5) Questions to Consider — exam-relevant audit questions
CRM ให้ list ของคำถามไว้ 20+ ข้อ ขอเลือก 8-10 ข้อที่ใกล้ exam ที่สุดมาไว้ตรงนี้:
| # | คำถาม |
|---|---|
| 1 | ใครรับผิดชอบ coordinate BCP / DRP — มี named owner มั้ย |
| 2 | DRP ถูก update ครั้งล่าสุดเมื่อไหร่ + test ครั้งล่าสุดเมื่อไหร่ |
| 3 | ระบบไหน ไม่ถูก cover ใน plan? ทำไม? (ตอบไม่ได้ = finding) |
| 4 | มี criteria ชัดมั้ยว่าตอนไหน escalate เป็น “disaster” + ใครเป็นคนตัดสิน |
| 5 | plan ครอบเรื่อง insurance มั้ย — claim filing timeline + procedure |
| 6 | สัญญา hot site มี SLA / OLA ระบุชัดมั้ย — capacity, time guarantee, exclusivity |
| 7 | backup facility อยู่ที่ไหน — เสี่ยง same-disaster กับ primary มั้ย |
| 8 | มี procedure สำหรับ manual processing ตอนระบบไม่พร้อมมั้ย |
| 9 | offsite storage ถูกใช้สำหรับ backup ของ critical data มั้ย |
| 10 | มี documentation เพียงพอ ให้ recovery team ที่ไม่คุ้น production ทำ recovery ได้มั้ย |
กฎเหล็กของ auditor: ถ้าตอบ “ไม่รู้” หรือ “ต้องไปถาม” สำหรับคำถามใดคำถามหนึ่ง นั่นคือ finding ในตัวมันเองเลยครับ
Incident Classification: ไม่ทุกเหตุ = crisis
ก่อนปิดบทขอ flag เรื่อง incident classification เป็นส่วนของ BCP ที่ exam ออก
ไม่ทุก incident ต้อง trigger BCP ต้อง classify ก่อน:
| ระดับ | ลักษณะ | response |
|---|---|---|
| Negligible | กระทบเล็กน้อย, ไม่ต้องเปลี่ยน operation | helpdesk ปกติ |
| Minor | กระทบบางส่วน, แก้ได้ภายใน standard procedure | incident management |
| Major | กระทบหลายส่วน, ต้องการ coordinated response | major incident protocol + senior IT |
| Crisis | กระทบทั้ง business / regulator / public | activate BCP |
กรณีจริงที่ misclassify
convenience store chain — มี ransomware affect 3 ร้านใน 1 เขต
incident response team escalate เป็น crisis → activate ทั้ง BCP
กลายเป็นว่าทุก resource ของ crisis response team ทุ่มไปที่ ransomware ใน 3 ร้าน
ระหว่างนั้น payment network outage ที่กระทบทั้ง 200 ร้านเกิดขึ้น แต่ทีมหลักไม่ว่าง ต้องให้ทีม junior จัดการ
result: misclassify ของ event แรก → ทรัพยากรไม่พอสำหรับ event ที่ใหญ่กว่า อ้าว
บทเรียน: classification criteria ต้องชัด + objective ไม่ใช่ subjective judgment ของคนตอบโทรศัพท์คนแรก
Trap pattern รวมของ ตอน 40
RPO vs RTO
| หลุมพราง | คำตอบที่ถูก |
|---|---|
| ”RPO = RTO” | RPO = data freshness, RTO = downtime — คนละมิติ |
| ”ใช้ RPO กับ recovery site” | RPO ขับ backup, RTO ขับ recovery site |
BCP vs DRP
| หลุมพราง | คำตอบที่ถูก |
|---|---|
| ”BCP = IT’s job” | BCP = senior management, DRP = IT |
| ”BCP = DRP” | DRP เป็น component ของ BCP |
Recovery Sites
| หลุมพราง | คำตอบที่ถูก |
|---|---|
| ”Hot site = ดีที่สุดเสมอ” | ต้องตาม BIA — บางระบบ cold site เพียงพอและคุ้ม |
| ”Cold site = ห่วย” | cold site เหมาะกับ low priority — choice ที่ valid |
| ”Reciprocal agreement = ดี” | ไม่แนะนำสำหรับ critical system |
| ”Mirror = Hot” | mirror = real-time full sync (RPO ~ 0), hot = pre-equipped แต่อาจ delay |
Testing
| หลุมพราง | คำตอบที่ถูก |
|---|---|
| ”tabletop = full test” | tabletop = paper, full = real failover |
| ”test ครั้งเดียวพอ” | ต้อง annual + หลัง material change |
| ”BCP 200 หน้า = พร้อม” | length ≠ readiness — testing + maintenance พิสูจน์ readiness |
Cross-domain connection
| หัวข้อ | เชื่อมไป |
|---|---|
| BCP testing methodology | ตอน 09 (Testing & Sampling) |
| BCP policy + governance | ตอน 17A (D2 ERM) |
| Vendor recovery site review | ตอน 19 (Vendor Mgmt) |
| Incident management → BCP trigger | ตอน 34 |
| BIA — base ของทั้งหมด | ตอน 38 |
| Resilience + Backup | ตอน 39 |
| Reporting incident result | ตอน 12 (Reporting) |
เรื่องที่ลึกกว่านี้อ่านได้ที่
ตอนนี้สรุปแก่นของ BCP / DRP ในมุมที่ exam D4 ออกถาม แต่บางเรื่องผมแยกไปเล่าลึกในซีรีส์ cybersecurity (บริบทกว้างกว่า audit) เผื่ออยากตามต่อ:
- IRP (Incident Response Plan / แผนตอบสนองเหตุการณ์) / NIST (National Institute of Standards and Technology — สถาบันมาตรฐานของสหรัฐ) 800-61 incident response deep dive → cybersec EP.46 (Incident Response) + cisa-d5-51 (Monitoring & IR)
- BCM (Business Continuity Management / การบริหารความต่อเนื่องของธุรกิจ) standards landscape (ISO 22301 — มาตรฐานสากล BCM, BCI — Business Continuity Institute, DRII — Disaster Recovery Institute International, FFIEC — Federal Financial Institutions Examination Council, FEMA — Federal Emergency Management Agency) — frameworks ของวงการ BCM ทั้ง landscape → cybersec EP.08 (Frameworks)
- NIST 800-34 plan family (COOP — Continuity of Operations Plan, ISCP — Information System Contingency Plan, CIP — Critical Infrastructure Protection, OEP — Occupant Emergency Plan — plan ย่อยภายใต้ BCP umbrella) → cybersec EP.46 (Incident Response)
- Insurance 7 CRM types (property, business interruption, cyber liability, E&O, valuable papers, extra expense, fidelity) → cisa-d5-43 (Policies & Physical)
ปิดบท: ความพร้อมไม่ใช่กระดาษ
ผมรู้ว่าบทนี้หนักครับ แต่จริงๆ แล้ว core ของทั้ง section นี้สรุปได้ใน 3 ประโยค
1. BIA นำ ทุกตัวเลข RTO/RPO มาจาก business ไม่ใช่ IT
ถ้า business ไม่ได้นั่งทำ BIA ด้วย ตัวเลขที่ออกมาก็แค่ guess ของ IT
2. Testing + Maintenance ทำให้ plan ใช้ได้จริง
BCP ที่ไม่เคย test = paperwork BCP ที่ test แต่ไม่ update = false confidence BCP ที่ test + update = true control
3. Cost-benefit นำการเลือก architecture
ไม่ทุกระบบต้อง hot site ไม่ทุกระบบทน cold site ได้ เลือกตาม BIA + downtime cost ไม่ใช่ตาม “budget เหลือเท่าไหร่”
ในมุมผู้บริหาร ขอจบบทด้วยคำถาม 4 ข้อที่บอกว่า BCP/DRP ของบริษัทคุณ work หรือไม่:
- “BIA ทำครั้งล่าสุดเมื่อไหร่? ใครเป็น sponsor?”
- “BCP test ครั้งล่าสุดเมื่อไหร่? ระดับ tabletop หรือ full operational?”
- “DRP ของระบบ critical ที่สุด มี documented backout plan + tested restoration มั้ย?”
- “Recovery site ของเรามี exclusivity clause ในสัญญามั้ย? เคย test access จริงรึเปล่า?”
ถ้าตอบไม่ได้ นั่นแหละพื้นที่ที่ต้องลงไปทำ
ตอนหน้าจะปิด Domain 4 ทั้งหมด recap 11 ตอน + 5 บทเรียน + เกริ่น Domain 5 ที่จะมาเรื่อง security ต่อยอดจาก operations + resilience ของ D4
อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.15 Business Continuity Plan + Section 4.16 Development of Disaster Recovery Plans