4163 คำ
21 นาที
CyberSecurity Foundation EP.50 — Physical + Environmental Security: ระบบกายภาพของเมือง
สารบัญ
Physical perimeter — กำแพงเมืองมีกี่ชั้น ชั้นที่ 1 — Fence (รั้วรอบที่ดิน) ชั้นที่ 2 — Gate + Vehicle barrier ชั้นที่ 3 — Lobby (ล็อบบี้รับแขก) ชั้นที่ 4 — Mantrap (airlock ของยานอวกาศ) ชั้นที่ 5 — Cage (กรงเหล็กของแต่ละลูกค้า) Access control — บัตร / biometric / และเทคนิคโจรที่ชื่อ Tailgating Badge — บัตรที่บอกว่าใครเป็นใคร Biometric — สิ่งที่ปลอมได้ยากกว่า Tailgating + Piggybacking — เทคนิคโจรที่ใช้ความสุภาพของคน Surveillance — ตาที่ไม่กระพริบของเมือง CCTV + IP camera — กล้องที่เห็นทุกมุม Motion detection + Analytics Guard tour — ยามที่ต้องเดินตรวจ เคส Verkada 2021 — กล้อง 150,000 ตัวที่กลายเป็นจุดบุก Environmental controls — อากาศ ไฟ ฟ้า น้ำ ในเมืองดิจิทัล HVAC — Heating / Ventilation / Air Conditioning Target 2013 — เมื่อ HVAC vendor กลายเป็น attack vector Fire suppression — ดับเพลิงโดยไม่ทำลายเซิร์ฟเวอร์ Power & Cooling — UPS / Generator / Redundant feed AWS Iceland HVAC overheat 2022 — เมื่อ environmental fail แล้ว Stuxnet 2010 — เคสที่ physical isolation พังเพราะ USB Auditor’s checklist — รายการที่ CRM บอกว่าต้องเดินตรวจจริง 1. Alarm control panel — 8 ข้อที่ auditor ต้องผ่าน 2. Two-hour fire-resistance walls — สเปคของห้องที่ทนไฟได้ 2 ชั่วโมง 3. Emergency Power-Off (EPO) — กฎ 2 สวิตช์ 4. Perpetrator profile — ใครคือคนที่อาจคิดร้าย 5. 17-item facility protection checklist 6. Building / directory anonymity + translucent glass 7. Prohibited activities ใน IPF (Information Processing Facility) 8. 8 entry path audit — ทางลัดที่ auditor ต้องเดินตรวจ Data Center Tiers — มาตรฐานที่บอกว่า data center ดับกี่นาทีต่อปี Tier I — Basic Capacity Tier II — Redundant Capacity Components Tier III — Concurrently Maintainable Tier IV — Fault Tolerant Uptime ที่ผู้บริหารต้องเข้าใจ — math ง่ายๆ เคส Equinix outages — แม้ Tier ดี ก็ยังมี edge case ปิด EP.50 — เมืองที่ digital ดี physical พัง = พังทั้งคู่

Series: CyberSecurity Foundation — รากฐาน Security สำหรับยุค AI (ภาษาคน)

Part 0 — WHY: เมืองนี้ทำไมต้องมียาม

Part 1 — HOW: ระบบนิเวศของเมือง

Part 2 — Identity: บัตรประชาชน + กุญแจห้อง

Part 3 — Data: ของในเซฟ

Part 4 — Infrastructure: ถนน กำแพง ท่อ

Part 5 — Operations: ตำรวจ ดับเพลิง สืบสวน

Part 6 — Governance: เทศบาล + กฎหมายเมือง

→ สารบัญรวมของซีรีส์ (Hub)

EP.49 ที่ผ่านมา เราคุยเรื่อง Privacy laws — GDPR / PDPA / cross-border transfer. นั่นคือ สิทธิ์ดิจิทัล ของชาวเมือง — กฎหมายที่บอกว่าใครเก็บข้อมูลใครได้แค่ไหน / ลบข้อมูลเมื่อไหร่ / ส่งข้อมูลออกนอกประเทศต้องผ่านอะไร

แต่มีคำถามหนึ่งที่ผมยังไม่ตอบคุณตลอด 49 EPs ที่ผ่านมา — และเป็นคำถามที่เด็กอนุบาลก็ตอบได้:

“ถ้ามีคนเดินเข้าไปยกเซิร์ฟเวอร์ออกจากห้อง — encryption ดีแค่ไหนก็ไม่มีความหมาย ถูกไหม?”

ถูกครับ. ถ้า physical พัง digital ก็พังตามทันที. ทุก firewall / IDS / Zero Trust / PKI / MFA ที่เราคุยมา ทั้งหมดสมมติว่า เซิร์ฟเวอร์อยู่ที่เดิม + มีไฟใช้ + อุณหภูมิไม่ทะลุ 50 องศา + ไม่มีไฟไหม้

EP.50 พาคุณลงไปดูชั้นที่ลึกที่สุด ใหญ่ที่สุด และเป็นชั้นที่ผู้บริหารไทย มองข้ามบ่อยที่สุดPhysical + Environmental Security. ของจริงๆ ในโลกจริง

ลองนึกภาพ เมืองดิจิทัล ของเราต่อ. ที่ผ่านมา 49 EPs เราคุยเรื่อง ระเบียบของเมือง — กฎ กระบวนการ สิทธิ์ ตัวตน. แต่ทุกเมืองต้องมี ระบบกายภาพ ก่อนเป็นเรื่องแรก —

  • ประตู + กำแพง + ป้อมยาม ที่กั้นไม่ให้คนเดินเข้ามาเฉยๆ
  • ระบบอากาศ (HVAC) ที่ไม่ให้คอมร้อนพัง
  • ระบบไฟฟ้า ที่ไม่ดับ + มีไฟสำรอง
  • ระบบดับเพลิง ที่ดับไฟโดยไม่ทำลายเซิร์ฟเวอร์

เมืองที่ไม่มี 4 อย่างนี้ — ไม่ใช่เมือง. มันคือ ป่า

และที่จะแปลกใจคุณคือ — เคสที่แพงที่สุดในวงการ security ส่วนใหญ่ — เริ่มที่ physical พัง ก่อน digital พัง:

  • Stuxnet 2010 — โจมตี nuclear centrifuge ที่อิหร่าน. ระบบแยก network 100% (air-gap). พังเพราะ USB ตัวเดียวที่พนักงานเสียบ
  • Target 2013 — เสียข้อมูลบัตรเครดิต 40 ล้านใบ. จุดเริ่มคือ ผู้รับเหมา HVAC ที่ดูแลระบบแอร์ของห้าง
  • AWS Iceland 2022 — datacenter ดับเพราะ HVAC overheat ทำให้ service หลายตัวล่มทั่วโลก

ทั้ง 3 เคสนี้ ไม่ใช่เพราะ hacker เก่ง. เป็น physical control ที่ไม่แน่นพอ

เริ่มจาก perimeter ก่อน — กำแพงและประตูชั้นนอกสุด. เพราะ access control / surveillance / environmental control ที่ตามมา ล้วน build ทับลงบนชั้นนี้

Physical perimeter — กำแพงเมืองมีกี่ชั้น#

ก่อนจะเข้าเรื่องเทคนิคใดๆ — เรามาเห็นภาพ โครงสร้าง ของการป้องกันทางกายภาพก่อน

ใน EP.04 (Defense in Depth) เราคุยเรื่องการป้องกันเป็นชั้นๆ. หลักการเดียวกันใช้กับ physical — แต่เปลี่ยนจาก firewall มาเป็น กำแพง ประตู ห้อง ตู้

ลองนึก data center จริงของบริษัทใหญ่ — มันมี 5 ชั้น ของ perimeter ที่ของจริงจะต้องผ่านทุกชั้นก่อนถึงเซิร์ฟเวอร์

ชั้นที่ 1 — Fence (รั้วรอบที่ดิน)#

Fence (รั้วเขตที่ดิน) = รั้วโลหะรอบเขตที่ดินของ data center. ปกติสูง 2-3 เมตร + ลวดหนามด้านบน. มี กล้อง + motion sensor บนรั้ว ที่ detect ใครพยายามปีน

ถามว่ารั้วช่วยอะไรครับ — ช่วย delay. โจรปีนได้ — แต่ใช้เวลา. เวลา = detect + respond. รั้วที่ดีไม่ใช่รั้วที่กั้น 100% (ไม่มีหรอก) — แต่เป็นรั้วที่ทำให้โจรใช้เวลา 5-10 นาที + ส่ง alert ให้ยามมาจัดการ

ชั้นที่ 2 — Gate + Vehicle barrier#

Gate (ประตูทางเข้า) + Bollard (เสากันรถ) = ทางเข้ารถ. มี guardhouse (ป้อมยาม) ที่ตรวจคนขับ + ตรวจรถ + lift ประตูเข้า

ที่ data center ระดับสูง — มี anti-ram bollard — เสาเหล็กที่กันรถขนาด 7 ตันชนเข้ามาที่ความเร็ว 80 km/h. มาตรฐาน K12 / M50 ของ ASTM

ชั้นที่ 3 — Lobby (ล็อบบี้รับแขก)#

เข้าตึกแล้ว — เจอ lobby ที่มี reception desk + ระบบ check-in. แขกต้อง

  1. แสดงบัตรประชาชน
  2. ลงทะเบียนกับ host ในบริษัท
  3. ได้ visitor badge ที่ติดบนตัวตลอดเวลา
  4. ผ่าน metal detector (บางที่)

ที่ data center ระดับ Tier IV บางที่มี X-ray scan ของที่เอาเข้า. เพราะ USB / harddisk ที่เอาเข้าได้ = ความเสี่ยงระดับ Stuxnet

ชั้นที่ 4 — Mantrap (airlock ของยานอวกาศ)#

ตรงนี้คือ control ที่ผู้บริหารต้องจำชื่อให้ได้ครับ — Mantrap

Mantrap (ห้องดักคน / airlock) = ห้องเล็กๆ มี 2 ประตู ที่ เปิดได้ทีละบาน. คุณเดินเข้าประตูแรก ประตูปิดล็อก เครื่องตรวจ identity (บัตร + biometric). ถ้าผ่าน ประตูที่สองเปิด. ถ้าไม่ผ่าน ติดอยู่ในห้องนั้น จนยามมาจัดการ

ลองเทียบกับ airlock ของยานอวกาศ ครับ. นักบินอวกาศจะออกไปนอกยาน เข้าห้อง airlock ปิดประตูด้านใน แล้วค่อยเปิดประตูด้านนอก. ไม่มีตอนไหนที่ทั้ง 2 ประตูเปิดพร้อมกัน เพื่อกันอากาศไม่ให้หลุดออก

mantrap ใช้หลักเดียวกัน. กัน คนที่ไม่มีสิทธิ์ ไม่ให้หลุดเข้าไป + กัน tailgating ที่เดี๋ยวเล่าต่อในหัวข้อ access control

ที่ data center บางที่ mantrap เป็น scale ชั่งน้ำหนัก ด้วย เพื่อ detect ว่าคนเดียวเข้าจริงๆ ไม่ได้พาคนอื่นเข้ามาด้วย (ถ้าน้ำหนักรวมเกิน 90 kg ของคนหนึ่งคน = alert)

ชั้นที่ 5 — Cage (กรงเหล็กของแต่ละลูกค้า)#

ในห้อง data center — เซิร์ฟเวอร์ของบริษัทต่างๆ อยู่ใน rack (ตู้ขนาด 42U). บริษัทใหญ่ที่เช่า colocation จะมี cage — กรงเหล็กรอบกลุ่ม rack ของตัวเอง + กุญแจที่บริษัทเก็บเอง

cage = แม้พนักงานของ data center provider เข้าห้องได้ — ก็เข้า rack ของลูกค้าโดยตรงไม่ได้. ต้องมีตัวแทนของลูกค้ามาเปิด

นี่เป็น defense in depth physical — 5 ชั้น. แต่ละชั้นทำหน้าที่ของตัวเอง. ถ้าชั้นไหนพัง — ชั้นถัดไปยังกันได้

มุมผู้บริหาร: ก่อนเซ็นสัญญา colocation — ขอ physical security tour แล้วถามคำถามเดียว — “ถ้าผมขอเข้าไปที่ rack ของผมตอน 3 นาฬิกาเช้า — process ใช้เวลาเท่าไหร่?” ถ้า > 30 นาที = response time แย่. ค่าเช่า Tier III ในไทย 8,000-15,000 บาท/rack/เดือน — Tier IV 15,000-30,000. ถ้า colocation ไม่มี mantrap = Tier ต่ำเกินสำหรับข้อมูล sensitive อยู่แล้ว ไม่ต้องคุยต่อ

Access control — บัตร / biometric / และเทคนิคโจรที่ชื่อ Tailgating#

ผ่านโครงสร้างของ perimeter แล้ว — มาที่ control ระดับ ตัวบุคคล ว่าใครเข้าได้ที่ไหนครับ

Badge — บัตรที่บอกว่าใครเป็นใคร#

Badge (บัตรเข้า) = บัตรที่มี RFID หรือ NFC chip ฝังอยู่. แตะที่เครื่องอ่าน — ระบบเช็คฐานข้อมูลว่า badge นี้มีสิทธิ์เข้าประตูนี้ไหม + ทำ log

  • RFID = Radio-Frequency Identification (ระบุตัวด้วยคลื่นวิทยุ) — chip ที่ส่งคลื่นวิทยุระยะ 10-30 cm
  • NFC = Near-Field Communication (สื่อสารระยะใกล้) — เหมือน RFID แต่ระยะสั้นกว่า (4-10 cm) + 2 way communication

ระบบ badge ที่ดีจะ:

  1. บันทึก timestamp ทุกครั้งที่แตะ
  2. link กับ HR system — พนักงานลาออก = badge revoke ทันที (joiner / mover / leaver จาก EP.10 IAM)
  3. time-based rule — badge ของผู้รับเหมาเข้าได้แค่ จันทร์-ศุกร์ 8:00-18:00 เท่านั้น
  4. anti-passback — ถ้าแตะเข้า แล้วยังไม่แตะออก — แตะเข้าอีกที่ประตูเดียวกันไม่ได้ (กัน badge แชร์)

Biometric — สิ่งที่ปลอมได้ยากกว่า#

ที่ห้องสำคัญมากๆ (data center / server room / vault) — เพิ่ม biometric ครับ

ใน EP.13 เราคุยเรื่อง biometric แล้ว — ลายนิ้วมือ / ม่านตา / หน้า / ลายเสียง. ที่ data center จริง — ที่นิยมคือ

  • Fingerprint — ราคาถูก แต่ปลอมได้ด้วย silicone mold
  • Iris scan — แม่นมาก ปลอมยาก แต่แพง
  • Hand geometry — สแกนรูปทรง 3D ของมือ — เก่าแก่แต่ทนทาน
  • Palm vein — สแกนเส้นเลือดในฝ่ามือ — ปลอมแทบไม่ได้ (เพราะต้องมี blood flow)

หลักการใช้คือ MFA แบบ physical — บัตร (have) + biometric (are) ที่ประตู. กัน badge ถูกขโมยใช้

Tailgating + Piggybacking — เทคนิคโจรที่ใช้ความสุภาพของคน#

มี 2 คำที่นักวิเคราะห์ security ใช้ — และเป็น attack vector ที่ใช้บ่อยที่สุด ในวงการ physical pen test

Tailgating (เดินตามหลัง) = โจรเดินตามหลังพนักงานที่แตะ badge เปิดประตู โดย พนักงานไม่รู้ ว่ามีคนตาม

ลองนึกฉากครับ. พนักงานเดินเข้าประตู ได้ยินเสียงคนเดินมา หันมาเห็นชายแต่งสูทถือกาแฟ 2 แก้ว มือไม่ว่าง. พนักงานสุภาพก็ เปิดประตูค้างไว้ให้. ชายแต่งสูทยิ้ม “Thanks”. เดินเข้า

ชายนั้นคือโจร. ที่ทำได้เพราะวัฒนธรรมไทย/สากลที่ เปิดประตูให้คนอื่นเป็นมารยาท

Piggybacking (ขี่หลัง) = เหมือน tailgating แต่ พนักงานรู้ + ยอมให้เข้า. เช่น โจรอ้างว่าลืม badge หรือเป็น vendor / IT support

ทั้งสองอย่างนี้กันด้วย mantrap (ทีละคน) + CCTV + awareness training ของพนักงานให้กล้าถาม “ขอดู badge ก่อนนะคะ” ไม่ใช่เปิดประตูค้างไว้เพราะเกรงใจ

ในวงการ pen test มีเรื่องเล่าคลาสสิคของ Kevin Mitnick hacker ชื่อดังที่บอกว่า “social engineering + tailgating สามารถ bypass firewall มูลค่า 10 ล้านได้ในเวลา 30 วินาที”. หลักเดียวกันที่บริษัทไทยติดบ่อยคือ IT มี budget ใส่ firewall เป็นล้าน แต่ลืม กัน physical access ของห้อง network closet

มุมผู้บริหาร: ทำ physical pen test ปีละครั้ง — จ้างทีม external มาลอง tailgating + piggybacking + lock picking ในตึกของบริษัท. งบประมาณบริษัทขนาดกลาง — 150,000-400,000 บาท/ครั้ง. ทีมจะพยายามเข้าตึก / server room / executive floor ด้วยเทคนิคจริง. รายงานที่ได้ — เจอ ช่องโหว่ที่ digital pen test ไม่เจอ — เช่น พนักงาน reception ที่ไม่ตรวจบัตร / ประตู server room ที่ไม่ปิด / กล้อง CCTV ที่มุมเอียงไม่เห็นทางเข้าจริง. อย่างที่ pattern ของวงการคือ — บริษัทใหญ่ของไทยที่ทำ pen test แบบนี้ส่วนใหญ่ ผ่าน digital control แต่ fail physical เพราะ awareness ของพนักงาน front-line ต่ำเกินไป. คนที่จะ approve ค่านี้ — CISO + Head of Facility. ไม่ใช่ IT คนเดียว

Surveillance — ตาที่ไม่กระพริบของเมือง#

ระบบ access control บอกว่าใครเข้าได้ — แต่ไม่ได้บอกว่า เกิดอะไรขึ้นจริงในห้อง ครับ. ตรงนี้เป็นหน้าที่ของ surveillance

CCTV + IP camera — กล้องที่เห็นทุกมุม#

CCTV = Closed-Circuit Television (โทรทัศน์วงจรปิด) — กล้องที่ส่ง video ไปเฉพาะ monitor ในระบบของบริษัท ไม่ broadcast ออก. ปี 2026 ที่ใช้กันคือ IP camera — กล้องที่ส่ง video ผ่าน network ไปเก็บที่ NVR (Network Video Recorder) หรือ cloud

มาตรฐานของ data center —

  • Resolution ขั้นต่ำ 1080p ที่ทุก choke point (mantrap / lobby / loading dock)
  • Retention 90-180 วัน ตาม policy
  • Coverage — ทุกประตู + ทุก aisle ของ data hall + มุมที่ไม่มี blind spot
  • PTZ (Pan-Tilt-Zoom) camera — กล้องที่ขยับ + zoom ได้ ในจุดที่ต้องตามวัตถุ

Motion detection + Analytics#

กล้องที่ดีไม่ใช่แค่บันทึก — ต้อง detect ความผิดปกติ

  • Motion detection — alert เมื่อมี motion ในจุดที่ไม่ควรมีคน (เช่น data hall ตอน 3 นาฬิกาเช้า)
  • Loitering detection — ตรวจว่ามีคนยืนอยู่นาน > 5 นาทีในจุดที่ไม่ควรยืน
  • Object left behind — กระเป๋า / ของวางทิ้งไว้

ปี 2024-2025 — AI-based video analytics เริ่มใช้กันแพร่หลาย — detect behavior ผิดปกติ (เช่น มีคนพยายามถอด casing ของ server)

Guard tour — ยามที่ต้องเดินตรวจ#

แม้กล้องดีแค่ไหน — guard ที่เดินตรวจ ยังจำเป็น

Guard tour (รอบตรวจของยาม) = ระบบที่บังคับให้ยามเดินตรวจตามจุดที่กำหนด — แตะ checkpoint ทุกจุด เพื่อพิสูจน์ว่ามาตรวจจริง. ปัจจุบันใช้ NFC tag ที่ยามแตะด้วยมือถือของบริษัท — บันทึก timestamp + GPS

ที่ data center Tier III/IV — guard tour ทุก 2-4 ชั่วโมง 24/7

เคส Verkada 2021 — กล้อง 150,000 ตัวที่กลายเป็นจุดบุก#

แต่ surveillance เองก็มี dark side ครับ. มาที่เคสที่เปลี่ยน mindset วงการ — Verkada breach 2021

Verkada = บริษัท IP camera ของอเมริกา. ขายระบบกล้อง + cloud platform ที่ลูกค้าดู feed ผ่าน browser. ลูกค้าเป็น โรงพยาบาล / โรงเรียน / โรงงาน Tesla / เรือนจำ / สถานีตำรวจ

มีนาคม 2021 กลุ่ม hacktivist กลุ่มหนึ่งเจอ credentials ของ super-admin ที่ Verkada ลืมไว้ใน DevOps script บนอินเทอร์เน็ต. login เข้าได้สิทธิ์ดู feed กล้อง 150,000 ตัว ของลูกค้า Verkada ทั่วโลก แบบ real-time

hacker ได้:

  • ดู feed ใน factory ของ Tesla — เห็น production line
  • ดู feed ใน prison + interrogation room ของตำรวจอเมริกัน
  • ดู feed ใน hospital + ICU
  • ดาวน์โหลด video archive จำนวนมาก

บทเรียน — กล้อง CCTV ที่ต่อ cloud = attack surface ใหม่. ถ้า cloud platform โดน hack กล้องทุกตัวของทุกลูกค้า อาจถูกดูได้

หลังเคสนี้ มาตรฐานวงการเปลี่ยนสำหรับ data center ที่ sensitive สูง

  1. Camera feed ห้ามออก internet — เก็บใน on-prem NVR เท่านั้น
  2. Vendor access ต้องผ่าน VPN + MFA + audit log
  3. Credential ของ vendor ห้ามใช้ shared super-admin — ต้องเป็น per-user

มุมผู้บริหาร: ก่อนซื้อระบบ CCTV cloud — ถาม vendor คำถามเดียว — “employee ของคุณกี่คนเข้าดู feed ลูกค้าได้ + มี audit log ไหม?” ถ้าตอบไม่ได้ทันที = privacy risk ที่ผู้บริหารไม่อยากเซ็น. ถ้าบริษัทคุณมีของ sensitive (R&D / vault / data hall) — on-prem NVR ดีกว่า cloud เรื่อง attack surface. cloud เหมาะกับพื้นที่ทั่วไป — แค่ต้อง vetting vendor ให้ดี

Environmental controls — อากาศ ไฟ ฟ้า น้ำ ในเมืองดิจิทัล#

ผ่าน 3 หัวข้อด้านบนแล้ว — ทั้งหมดคือกัน คน (ไม่ดี) ไม่ให้เข้าถึงเซิร์ฟเวอร์. แต่เซิร์ฟเวอร์มีศัตรูอีกประเภทที่อันตรายไม่แพ้กัน — สิ่งแวดล้อม

ลองนึกครับ. เซิร์ฟเวอร์ในห้องที่อุณหภูมิ 50 องศา. ใน 30 นาที CPU ลด clock เพื่อกัน overheat (thermal throttling) ทำให้ service ช้าลง. ใน 2 ชั่วโมงเริ่มมีเครื่องดับเอง. ใน 6 ชั่วโมง harddisk เสียถาวร

นี่คือทำไม environmental control เป็นหัวข้อใหญ่ของ data center มากกว่า physical security ด้วยซ้ำครับ

HVAC — Heating / Ventilation / Air Conditioning#

HVAC = Heating, Ventilation, and Air Conditioning (ระบบความร้อน ระบายอากาศ และปรับอากาศ) = ระบบควบคุม

  • Temperature (อุณหภูมิ) — มาตรฐาน ASHRAE ของ data center 18-27 องศาเซลเซียส (เป้าหมาย 22-24)
  • Humidity (ความชื้น) — 40-60% RH (Relative Humidity). ต่ำเกิน = static electricity เสียง่าย. สูงเกิน = corrosion + condensation
  • Airflow (การไหลของอากาศ) — direct flow จาก cold aisle ไป hot aisle

ที่ data center สมัยใหม่ — มี CRAC (Computer Room Air Conditioning) units รอบ data hall + chiller + cooling tower ภายนอก

Target 2013 — เมื่อ HVAC vendor กลายเป็น attack vector#

ที่นี่จะตอบคำถามที่หลายคนอาจเริ่มสงสัยครับ — “HVAC เกี่ยวอะไรกับ cybersecurity?

มาที่เคสคลาสสิคที่วงการทุกคนอ้างถึง — Target 2013

ปลายปี 2013 Target (chain ห้างใหญ่ของอเมริกา) ถูก hack เสียข้อมูลบัตรเครดิต 40 ล้านใบ + ข้อมูลส่วนตัว 70 ล้านราย

จุดเริ่มของ attack ไม่ใช่ระบบ POS ของ Target. ไม่ใช่ firewall ของ Target. เป็น Fazio Mechanical Services บริษัทรับเหมาที่ดูแล ระบบ HVAC ของห้าง Target

attacker ส่ง phishing email ไป Fazio ติด malware ขโมย credential ของ Fazio ที่ login เข้า Target vendor portal (ที่ Fazio ใช้ส่งบิล + รายงานสถานะระบบแอร์)

ปัญหาคือ vendor portal ของ Target ไม่ได้ segment จาก network ของ POS. attacker pivot จาก vendor portal → corporate network → POS network → installed malware ที่ POS terminal → ขโมยข้อมูลบัตรขณะลูกค้ารูดบัตร

ความเสียหาย — ค่าใช้จ่ายรวม (settle หลายคดี + investigation + lawsuit ของธนาคารและลูกค้า) มูลค่ารวมที่ Target รายงานในงบการเงินภายหลังประมาณ $200-290 ล้านดอลลาร์. CEO Gregg Steinhafel ลาออก (พ.ค. 2014) และ CIO Beth Jacob ก็ลาออก (มี.ค. 2014) หลังเหตุการณ์

บทเรียน — HVAC vendor ที่ดูแลห้องเซิร์ฟเวอร์ ไม่ควรมี network access ที่เดียวกับ business network. ใน EP.28 (Segmentation) เราคุยเรื่อง microsegmentation. Target คือเคสคลาสสิคที่ทำให้วงการตื่นตัว

อ้าว — แค่ HVAC ก็โดน hack ทั้งบริษัทได้

Fire suppression — ดับเพลิงโดยไม่ทำลายเซิร์ฟเวอร์#

อีกระบบที่สำคัญไม่แพ้กันครับ — ระบบดับเพลิง

ปัญหาของ data center คือ ดับเพลิงปกติใช้ น้ำ. แต่น้ำ + เซิร์ฟเวอร์เปิดอยู่ = ไฟฟ้าลัดวงจร + ทำลายเซิร์ฟเวอร์ทั้งห้อง

วงการเลยพัฒนา fire suppression system หลายแบบสำหรับ data center ครับ

1. FM-200 (HFC-227ea) — gas suppression. ฉีดแก๊สที่ดูดความร้อนจาก fire ทำให้ไฟดับโดย:

  • ไม่ทำลายอุปกรณ์อิเล็กทรอนิกส์
  • ไม่ทำให้คนในห้องตาย (concentration ที่ใช้ปลอดภัยสำหรับคน ภายในเวลาอพยพ)
  • ดับไฟภายใน 10 วินาที

นี่คือมาตรฐาน data center สมัยใหม่. แพง — แต่จำเป็น

2. Halon (1301) — gas suppression รุ่นเก่า. ใช้ในยุค 70s-90s. ดับไฟดี แต่ ทำลายโอโซน เลยถูก ban โดย Montreal Protocol. ปัจจุบัน data center ใหม่ทุกที่ใช้ FM-200 หรือ alternative (Novec 1230 / Inergen)

3. Pre-action sprinkler — ระบบ sprinkler ที่ ท่อแห้ง จนกว่าจะมี 2 trigger พร้อมกัน:

  • smoke detector ตรวจเจอควัน → ปั๊มน้ำเข้าท่อ
  • heat detector ตรวจเจอความร้อน → sprinkler head เปิด → น้ำพ่นออก

ที่ใช้ pre-action เพราะกัน false alarm + accidental discharge. ถ้าใช้ระบบปกติ (wet pipe) แล้ว sprinkler head แตกเพราะคนสะดุดท่อ น้ำสาดเซิร์ฟเวอร์ทั้งห้อง

4. Wet pipe vs Dry pipe

  • Wet pipe = ท่อมีน้ำตลอดเวลา — เร็วแต่เสี่ยง leak
  • Dry pipe = ท่อมีลมอัดไว้ — เปิดเมื่อ trigger → น้ำเข้า. ช้ากว่า 30-60 วินาที แต่ปลอดภัยเรื่อง leak

data center ใหญ่จะใช้ FM-200 ในห้อง + pre-action sprinkler เป็น backup. ระบบไหนสำคัญที่สุด FM-200 จะดับก่อน. ถ้าไฟใหญ่จน FM-200 เอาไม่อยู่ sprinkler ทำงานเป็น last resort (ในตอนนั้น ห้องคงพังหมดแล้ว)

Power & Cooling — UPS / Generator / Redundant feed#

อีก 3 หัวข้อใหญ่ของ data center ครับ — ที่ไม่มีไม่ได้

UPS = Uninterruptible Power Supply (เครื่องสำรองไฟ) = battery bank ขนาดใหญ่ที่จ่ายไฟทันทีถ้าไฟ utility ดับ. ปกติจ่ายได้ 5-30 นาที เวลาเพียงพอให้ generator ติดเครื่อง

Generator (เครื่องปั่นไฟ) = generator น้ำมัน/แก๊สขนาดใหญ่ที่ติดเครื่องอัตโนมัติเมื่อไฟดับ + UPS รับช่วง. data center Tier IV มี generator + fuel ที่จ่ายไฟได้ 72 ชั่วโมง โดยไม่ต้องเติม

Redundant feed (สาย feed ไฟฟ้าหลายสาย) = data center Tier ที่สูงรับไฟจาก 2 substation ของการไฟฟ้าที่แยกอิสระจากกัน + 2 path เข้าตึก. กันได้ขนาดสาย feed ตัวหนึ่งโดนรถชน

Hot aisle / Cold aisle (ทางเดินร้อน / เย็น) = layout การวาง rack ใน data hall

  • Cold aisle — ทางเดินที่ CRAC เป่าอากาศเย็นออกจากใต้พื้น. เซิร์ฟเวอร์ดูดอากาศเย็นเข้าด้านหน้า
  • Hot aisle — ทางเดินที่เซิร์ฟเวอร์ปล่อยอากาศร้อนออกด้านหลัง — ดูดกลับเข้า CRAC

หลักการ — ไม่ให้อากาศร้อน + เย็นผสมกัน. ทำให้ cooling efficient — ประหยัดไฟ + อุณหภูมิคงที่

AWS Iceland HVAC overheat 2022 — เมื่อ environmental fail แล้ว#

มาที่เคสล่าสุดที่เกิดในปี 2022 ครับ — AWS Iceland (Reykjavík region) HVAC failure

ปลายปี 2022 AWS region ที่ Iceland (region code eu-west-3 ในบางช่วงเวลา + ส่วนของ availability zone ของ AWS Europe ที่อยู่ที่นั่น) เจอ HVAC malfunction ใน data hall อุณหภูมิเริ่มขึ้น

AWS engineer ตัดสินใจ shutdown server บางส่วน เพื่อลดความร้อน ทำให้ service ที่ host ใน zone นั้นล่ม หลายชั่วโมง

บทเรียนของวงการ — แม้บริษัทขนาด AWS ที่มี SRE ดีที่สุดในโลก + budget ไม่จำกัด ก็พังได้. HVAC fail = service fail. ไม่มี firewall ไหนกัน thermal ได้

Stuxnet 2010 — เคสที่ physical isolation พังเพราะ USB#

ก่อนปิดหัวข้อ environmental — มาที่เคสคลาสสิคที่สุดของวงการครับ — Stuxnet 2010

อิหร่านมี uranium enrichment facility ที่ Natanz มี centrifuge ที่หมุนยูเรเนียมเพื่อแยก isotope. ระบบควบคุม centrifuge เป็น SCADA (industrial control system) ที่รัน Siemens PLC

facility นี้ถือว่า secure ที่สุดในโลก เพราะ:

  1. Air-gapped — ไม่ต่อ internet เลย
  2. มี physical guard 24/7
  3. ระบบควบคุมแยก network 100% จาก IT

แต่ปี 2010 เซิร์ฟเวอร์ใน facility โดน malware ที่ทำให้ centrifuge หมุนเร็วเกินจนพัง เสีย 1,000 ตัว ทำให้โครงการ enrichment ของอิหร่านช้าไป 2 ปี

malware นั้น = Stuxnet ที่นักวิเคราะห์เชื่อว่าสร้างโดย US + Israel (Operation Olympic Games)

แล้ว malware เข้าไปได้ยังไงในระบบที่ ไม่ต่อ internet ครับ?

คำตอบคือ USB drive. CIA จัดให้ผู้รับเหมาที่ทำงานในโรงงาน มี USB ที่ติด Stuxnet ไปด้วย. พนักงานเสียบ USB เข้าเซิร์ฟเวอร์ Stuxnet replicate ผ่าน USB ไปทุกเครื่องในระบบ หา PLC ที่ตรงรุ่น แก้คำสั่งให้ centrifuge หมุนเร็วผิดปกติ

บทเรียนใหญ่ของวงการ — air-gap ไม่ใช่ control 100%. ถ้ามี physical access (ผ่าน USB / supply chain / employee insider) air-gap ก็ข้ามได้

ปัจจุบัน data center sensitive (military / nuclear / R&D) บังคับ:

  • No USB port — physically remove ที่ทุกเครื่อง หรือ disable ใน BIOS
  • USB block policy ที่ Windows/Linux level
  • ใช้ data diode (one-way network) แทน air-gap ในบางกรณี

มุมผู้บริหาร: environmental control ของ data center — บริษัทระดับกลางต้องมี UPS อย่างน้อย 15 นาที + generator 8 ชั่วโมง + FM-200 + redundant power feed. แต่ control ที่สำคัญที่สุดและราคา 0 บาท — “ใครเข้าถึง vendor portal + segmentation ของ vendor network เป็นยังไง?” เคส Target 2013 — โจรเข้ามาผ่าน HVAC vendor — ป้องกันได้ฟรีแค่เปลี่ยน network design

Auditor’s checklist — รายการที่ CRM บอกว่าต้องเดินตรวจจริง#

ผ่าน 4 หัวข้อใหญ่มาแล้ว ทั้ง perimeter / access control / surveillance / environmental ทั้งหมดเป็น หลักการ ครับ แต่ผู้บริหารที่อ่านจริงๆ จะถามคำถามถัดมาว่า “ผม audit จริง ตรวจอะไรบ้าง

หัวข้อนี้ผม list 8 checklist ที่ออกข้อสอบ CISA บ่อย + เป็นรายการที่ auditor จริงจะถือเข้าไปเดินตรวจในตึก ใครเตรียมตัวสอบ CISA section นี้คือสิ่งที่ต้องจำได้

1. Alarm control panel — 8 ข้อที่ auditor ต้องผ่าน#

Alarm control panel (ตู้ควบคุมระบบเตือนภัย) = หัวใจของระบบ alarm ทั้งตึก. auditor จะเข้าไปเปิดตู้แล้วเช็คทีละข้อ —

  1. Continuous monitoring 24/7 — มีคนหรือ system คอย monitor ตลอดเวลา ไม่ใช่แค่ในเวลาทำการ
  2. Audible alarm + visual indicator — เสียงดัง + ไฟกระพริบ (กันคนหูไม่ได้ยิน + คนหูหนวก)
  3. Connection to fire department / security firm — auto-dial ออกไปหา 199 หรือบริษัท security ทันทีที่ trigger
  4. Battery backup ขั้นต่ำ 24 ชั่วโมง — ไฟดับ alarm ต้องยัง work
  5. Tamper detection — ถ้าโจรพยายามตัดสายหรือเปิดตู้ → alarm ดังเอง
  6. Test schedule + log — test อย่างน้อย quarterly + มีบันทึก
  7. Personnel training — ทุกคนรู้ว่าพอ alarm ดังต้องทำอะไร + ใครเป็นคน respond
  8. Documentation — มี procedure + contact list ที่ update

8 ข้อนี้ ขาดข้อเดียว auditor ก็ลงไปในรายงานว่า finding ที่ออกข้อสอบบ่อยคือ ข้อ 4 (battery backup) และข้อ 5 (tamper detection) เพราะ 2 ข้อนี้คือสิ่งที่บริษัทไทยมักลืม

2. Two-hour fire-resistance walls — สเปคของห้องที่ทนไฟได้ 2 ชั่วโมง#

ห้อง computer room / server room ที่ออกแบบตามมาตรฐาน CISA ต้องมีผนังที่ ทนไฟได้ขั้นต่ำ 2 ชั่วโมง (2-hour fire rating) — เวลาเพียงพอให้คนอพยพ + ดับเพลิงจัดการได้

สเปคที่ exam ทดสอบ —

  • ผนัง 2-hour fire-rated — สูงจาก true floor ถึง true ceiling ไม่ใช่หยุดที่ drop ceiling (ฝ้าเพดาน). ถ้าหยุดที่ drop ceiling — ไฟผ่านเหนือฝ้าได้
  • วัสดุผนัง — concrete หรือ gypsum board พร้อม fire-resistant insulation
  • ประตู — ต้องเป็น fire-rated door + self-closing mechanism (ปิดเองอัตโนมัติ)
  • HVAC duct ที่ผ่านผนัง — ต้องติด fire damper ที่ปิดอัตโนมัติเมื่อ smoke detector trigger (กันไฟลามผ่านท่อแอร์)

จุดที่ออกข้อสอบบ่อย — floor-to-true-ceiling ไม่ใช่ drop ceiling. คำถามตัวเลือกมักหลอกด้วย “ผนังถึงฝ้า” — ตอบไม่ได้ ต้องถึง true ceiling เท่านั้น

3. Emergency Power-Off (EPO) — กฎ 2 สวิตช์#

EPO = Emergency Power-Off (สวิตช์ตัดไฟฉุกเฉิน) = สวิตช์ใหญ่สีแดงที่กดแล้วตัดไฟ data hall ทั้งห้อง ใช้ในสถานการณ์ฉุกเฉิน เช่น ไฟไหม้ / น้ำท่วม / เกิด arc flash

กฎที่ออกข้อสอบ — EPO ต้องมี 2 ตำแหน่ง:

  • Inside computer room — สำหรับ operator ที่อยู่ในห้อง
  • Outside computer room — สำหรับ emergency responder (ดับเพลิง / รักษาความปลอดภัย) ที่อาจเข้าห้องไม่ได้เพราะไฟ/ควัน

control เพิ่มเติม —

  • ป้องกัน accidental activation — cover ครอบ + label ชัดเจน (กันคนเผลอกด)
  • Test annually — test ปีละครั้ง
  • Document procedure — เขียนชัดเจนว่าใครกดได้ + เมื่อไหร่ + ทำอะไรต่อ

เคสคลาสสิคที่ออกข้อสอบ คือมี EPO ตำแหน่งเดียว inside = fail เพราะถ้าคนใน data hall บาดเจ็บอยู่กับพื้น emergency responder กดจากนอกห้องไม่ได้ → ไฟยังเข้า → คนเสียชีวิตเพราะไฟฟ้าช็อต

4. Perpetrator profile — ใครคือคนที่อาจคิดร้าย#

CRM list 8 profile ของคนที่ auditor / security manager ต้อง flag เป็น higher risk ในการเข้าถึง sensitive area นี่ไม่ใช่การ discriminate แต่เป็นการประเมินความเสี่ยงที่ตามมาตรฐาน

  1. Disgruntled employees — ผิดหวัง / ถูก passed promotion / โดน performance review แย่
  2. On-strike employees — อยู่ระหว่างประท้วง / labor dispute
  3. Addicted — สารเสพติด / พนัน — risk ของการขายข้อมูลเพื่อเงิน
  4. Financial trouble — หนี้ที่ stress ทางการเงิน
  5. Notified of termination — อยู่ระหว่าง notice period (2-4 สัปดาห์ก่อนออก) — เป็นช่วงที่ risk สูงที่สุด
  6. Former employees — ออกไปแล้วแต่ account ยังไม่ deprovision (กลับมาที่ EP.10 IAM joiner/mover/leaver)
  7. Competitors — industrial espionage ที่ส่งคนมาฝังตัว หรือ recruit insider
  8. Accidental insider — คนที่ไม่ได้ตั้งใจก่อร้าย แต่ careless / oblivious to risk (เช่น เปิด phishing link)

ที่ออกข้อสอบบ่อย — profile 5 (notified of termination). แนะนำของ CISA คือ พอประกาศ termination → revoke access ทันที ไม่รอ end of notice period. ให้ทำงาน “transition handover” จาก meeting room ที่ไม่มี system access

5. 17-item facility protection checklist#

auditor จะเดินตึกพร้อม checklist ตรวจว่า 17 พื้นที่นี้ได้รับการป้องกัน ครบไหม — ถ้าขาดข้อใด = finding —

  1. Programming areas (ห้องเขียนโค้ด)
  2. Tape libraries (ห้องเก็บ backup tape)
  3. Comms closets (ตู้ network ตามชั้น)
  4. Telecommunications equipment room
  5. Server room
  6. UPS room
  7. Generator room
  8. HVAC equipment area
  9. Print rooms
  10. Mail rooms
  11. Document storage
  12. Backup tape offsite (ที่เก็บ tape นอกตึก)
  13. Network distribution frames (MDF / IDF)
  14. Patch panels
  15. Wireless access points (จุดที่ติด WiFi AP)
  16. Mobile device storage (ที่เก็บโทรศัพท์/แท็บเล็ตของบริษัท)
  17. Wiring closets

ที่บริษัทไทยลืมบ่อยที่สุด — 5 (server room) ปกป้องดี แต่ 3 (comms closet) ที่อยู่ตามชั้น ปล่อยประตูเปิด. โจรไม่ต้องเข้า server room — แค่เสียบ rogue switch ในตู้ comms ชั้น 3 ก็ดักทุก traffic ของชั้นนั้นได้

6. Building / directory anonymity + translucent glass#

หลักการ security by obscurity ที่ใช้ในการออกแบบตึก —

  • Building lobby directory ห้ามระบุชื่อชั้นด้วยคำว่า “Data Center” หรือ “IT Department” — โจรเดินเข้า lobby อ่าน directory แล้วรู้เลยว่าชั้นไหนคุ้มเข้า. ใช้ชื่อกลางๆ เช่น “Operations” / ชื่อหน่วยงานที่ไม่บอกหน้าที่
  • Translucent glass (กระจกฝ้า) ไม่ใช่ clear glass — ป้องกัน shoulder-surfing (คนแอบดู screen จากนอกห้อง) + ป้องกัน reconnaissance ว่าในห้องมีอะไร
  • Ground-floor windows ของ critical room — ติด window bars (เหล็กดัด) หรือใช้ bullet-resistant glass สำหรับห้องที่ sensitive มาก

ที่ตึกในกรุงเทพหลายตึกพลาด — มี glass facade สวยงาม + เขียนป้าย “Data Center Floor 12” ตัวใหญ่ที่ lobby = ของขวัญฟรีให้ attacker

7. Prohibited activities ใน IPF (Information Processing Facility)#

IPF = Information Processing Facility (พื้นที่ประมวลผลข้อมูล) — รวม data hall + server room + comms room. CRM list activity ที่ ห้ามทำ ใน IPF —

  • ห้ามอาหาร + เครื่องดื่ม — กัน spillage บน equipment (กาแฟหก = harddisk เสีย)
  • ห้ามสูบบุหรี่ / vape — กัน fire + ทำให้ smoke detector trigger false alarm (alarm false 1 ครั้ง = ห้องอพยพ + sprinkler อาจทำงาน)
  • ห้าม personal device ที่ไม่ได้รับอนุญาต — กัน data exfiltration ผ่าน USB / โทรศัพท์ที่ tether เป็น hotspot
  • ห้าม magnetic source — เช่น degausser, ลำโพงใหญ่, motor — ถ้าวางใกล้ backup tape อาจทำให้ data หาย (degausser คือเครื่องที่จงใจล้าง magnetic media)

ที่บริษัทไทยพลาดบ่อย — policy เขียนแล้ว แต่ enforcement ไม่จริง. ไป audit เจอกาแฟวางบน UPS, USB ส่วนตัวเสียบที่เครื่อง admin. auditor มอง = control fail แม้ policy ดูดี

8. 8 entry path audit — ทางลัดที่ auditor ต้องเดินตรวจ#

หลังตรวจประตู / badge / lobby เสร็จ — auditor ต้องเดินตรวจ entry path ที่ไม่ obvious ที่โจรอาจใช้เข้าห้องโดยไม่ผ่านประตูหลัก —

  1. Raised floor (พื้นยก) — data center มักมีพื้นยก 60-90 cm สำหรับเดินสาย + airflow. ตรวจว่า เข้าใต้พื้นจากห้องข้างๆ ได้ไหม
  2. Suspended ceiling (ฝ้าเพดาน) — drop ceiling ที่มีช่องว่างเหนือฝ้า. ตรวจว่า ปีนขึ้นไปแล้วคลานข้ามผนังเข้าห้องข้างได้ไหม (กลับมาที่ “ผนังต้องถึง true ceiling”)
  3. Ventilation / HVAC duct — ใหญ่พอให้คนคลานได้ไหม. มาตรฐาน — duct > 96 ตารางนิ้ว ต้องมี grille หรือ bar กัน
  4. False walls — partition wall ที่ไม่ extend to true ceiling — เหมือนกับ ceiling case
  5. Movable cubicles — partition ที่ขยับได้ ใช้แบ่งพื้นที่ทำงาน. ถ้าวางใกล้ data hall — โจรเลื่อนแล้วเข้าได้
  6. Service tunnels — อุโมงค์สำหรับ utility maintenance (ท่อน้ำ, สายไฟ). ตรวจว่ามี access control ไหม
  7. Emergency exit doors — ตรวจว่า one-way จริงไหม (เปิดออกได้ แต่เข้าไม่ได้) + มี sensor + alarm
  8. Loading dock — ที่ vendor delivery — มี separate security control ไหม. เคส Target 2013 ตอนคุยข้างต้น เริ่มจาก vendor portal — ในเชิง physical loading dock ก็เป็น attack surface เดียวกัน

8 ข้อนี้ — เรียกในวงการว่า “non-obvious entry path”. ที่ออกข้อสอบบ่อยคือ ข้อ 1, 2, 4 (raised floor / ceiling / false walls) — ทั้ง 3 จุดเชื่อมโยงกันด้วยหลัก “floor-to-true-ceiling barrier”

มุมผู้บริหาร: ก่อน audit ครั้งหน้า print 8 checklist ด้านบนแล้วเดินตรวจกับ facility manager เลยครับ ใช้เวลา 2-3 ชั่วโมง แต่จะเจอ gap ที่ digital audit ไม่เห็น ที่บริษัทไทย common gaps ที่เจอบ่อยคือ (1) comms closet ที่ปล่อยประตูเปิด (2) drop ceiling ที่ผนัง server room หยุดที่ฝ้า (3) loading dock ที่ไม่มี separate badge zone (4) lobby directory ที่เขียน “Data Center” ตัวใหญ่ ทั้ง 4 ข้อนี้แก้ได้ในงบประมาณ < 50,000 บาท แต่ช่วย downgrade risk rating ของ audit report ลงหลายระดับ

Data Center Tiers — มาตรฐานที่บอกว่า data center ดับกี่นาทีต่อปี#

ปิดท้าย EP ด้วยเรื่องที่ผู้บริหารต้องเข้าใจก่อนเซ็นสัญญา colocation / cloud / data center ครับ — Uptime Institute Tier

Uptime Institute = องค์กรเอกชนของอเมริกาที่ออกมาตรฐาน Tier I / II / III / IV ของ data center. ใช้ทั่วโลกตั้งแต่ปี 1995

หลักของ Tier คือ บอก uptime guarantee + downtime ต่อปี + คุณสมบัติทาง infrastructure

Tier I — Basic Capacity#

Uptime 99.671% — downtime สูงสุด 28.8 ชั่วโมง/ปี

  • Single path ของ power + cooling — ไม่มี redundancy
  • ห้าม maintenance ตอนระบบ run = ต้อง shutdown
  • เหมาะกับ — บริษัทเล็ก / dev environment / non-critical workload

Tier II — Redundant Capacity Components#

Uptime 99.741% — downtime สูงสุด 22 ชั่วโมง/ปี

  • Single path แต่มี redundant components (UPS + generator + chiller สำรอง)
  • ยัง shutdown สำหรับ maintenance อยู่
  • เหมาะกับ — บริษัทกลาง / internal applications

Tier III — Concurrently Maintainable#

Uptime 99.982% — downtime สูงสุด 1.6 ชั่วโมง/ปี

  • Multiple paths ของ power + cooling (แต่ active แค่ path เดียว path อื่นเป็น standby)
  • สามารถ maintenance ระบบหนึ่งโดยไม่ shutdown service (concurrently maintainable)
  • เหมาะกับบริษัทไทยขนาดใหญ่ / e-commerce / SaaS / fintech ส่วนใหญ่. นี่เป็นมาตรฐาน sweet spot

Tier IV — Fault Tolerant#

Uptime 99.995% — downtime สูงสุด 26.3 นาที/ปี

  • Multiple active paths ของ power + cooling — ทั้งสองทำงานพร้อมกัน
  • Fault tolerant — ถ้า component ตัวหนึ่ง fail (ไม่ใช่แค่ maintenance) service ไม่กระทบ
  • มี compartmentalization — แบ่งห้องเป็น fire zone แยก
  • 96-hour fuel storage ของ generator
  • เหมาะกับ financial trading / hyperscale cloud / mission-critical

ที่ต้องเข้าใจ ความต่างหลักของ Tier III vs IV คือ:

  • Tier III = Concurrently Maintainable — กัน planned downtime (maintenance ทำได้โดยไม่กระทบ service)
  • Tier IV = Fault Tolerant — กัน unplanned failure (component พังเอง service ไม่กระทบ)

ราคาความต่างประมาณ Tier IV แพงกว่า Tier III 50-100% + ใช้พื้นที่มากกว่า

Uptime ที่ผู้บริหารต้องเข้าใจ — math ง่ายๆ#

TierUptime %Downtime/ปี
I99.671%28.8 ชั่วโมง
II99.741%22.0 ชั่วโมง
III99.982%1.6 ชั่วโมง
IV99.995%26.3 นาที

ลองคิดดูครับ ถ้าธุรกิจของคุณเสียเงิน 1 ล้านบาท/ชั่วโมง เมื่อ down:

  • Tier I = 28.8 ล้านบาท/ปี
  • Tier III = 1.6 ล้านบาท/ปี
  • Tier IV = 0.43 ล้านบาท/ปี

ความต่างระหว่าง Tier I → IV = 28.4 ล้านบาท/ปี ของ avoided loss. ค่าเช่า Tier IV แพงกว่า Tier I ราว 3-4 เท่า. ถ้า business impact ของ downtime สูง Tier IV คุ้มทันที

เคส Equinix outages — แม้ Tier ดี ก็ยังมี edge case#

ปิดด้วยเคส Equinix ครับ บริษัทยักษ์ใหญ่ของวงการ colocation. มีสาขาทั่วโลก รวมที่ไทยด้วย (Equinix BK1)

แม้ Tier IV และ certification ครบ Equinix ก็เคย down เป็นช่วงๆ ในรอบ 10 ปีที่ผ่านมา:

  • ปี 2014 — EQ SY3 Sydney ดับเพราะ power transfer failure
  • ปี 2017 — DC1 (Reston) ดับเพราะ generator ติดไม่ทันตอนไฟดับ
  • ปี 2022 — LD8 London ดับเพราะ cooling system + UPS failure cascade

บทเรียนคือ ไม่มี Tier ไหนการันตี 100%. Tier IV ลด probability ของ unplanned failure แต่ไม่กำจัด. นี่คือทำไม business continuity ต้องคิดข้าม data center — ใช้ multi-region / multi-AZ / hybrid strategy (ที่คุยใน EP.32 Cloud)

ผู้บริหารต้องเลือกว่า โหลด workload ตัวไหนใน Tier ไหน. ไม่ใช่ทั้งบริษัทใน Tier IV. ไม่ใช่ทั้งบริษัทใน Tier I

มุมผู้บริหาร: วิธีเลือก Tier ของบริษัทไทย ส่วนใหญ่บริษัทขนาดกลาง Tier III + multi-region เป็น sweet spot. บริษัท fintech / trading = Tier IV + multi-region (must). e-commerce ทั่วไป = Tier III + cloud backup เพียงพอ. คำถามเดียวที่ขอตอนเซ็นสัญญาคือ “last unplanned downtime เมื่อไหร่ + เพราะอะไร?” คำตอบบอก operational maturity จริงๆ มากกว่าใบ certificate

ปิด EP.50 — เมืองที่ digital ดี physical พัง = พังทั้งคู่#

มาถึงปลายทางของ EP.50 ครับ ผมขอ recap ตรงนี้

Physical + Environmental Security = ชั้นที่ลึกที่สุดของ Defense in Depth. ไม่มี firewall ไหน / encryption ไหน / Zero Trust ไหน กันได้ ถ้าโจรเดินเข้าห้อง / ไฟดับ / HVAC พัง

6 หัวข้อใน EP นี้:

  1. Physical perimeter — 5 ชั้น: Fence → Gate → Lobby → Mantrap → Cage. Mantrap = airlock ของยานอวกาศ
  2. Access control — Badge (RFID/NFC) + Biometric. กัน tailgating + piggybacking ที่ใช้ความสุภาพของคนเป็นเครื่องมือ
  3. Surveillance — CCTV / IP camera + Motion detection + Guard tour. Verkada 2021 สอนว่า cloud-connected camera = attack surface ใหม่
  4. Environmental controls — HVAC + Fire suppression (FM-200) + Power (UPS/Generator) + Cooling (Hot/Cold aisle). Target 2013 = HVAC vendor → ขโมยบัตร 40 ล้านใบ. AWS Iceland 2022 = HVAC fail → service down. Stuxnet 2010 = USB ข้าม air-gap
  5. Auditor’s checklist — 8 รายการที่ออกข้อสอบ CISA: alarm panel / 2-hour walls / EPO 2 ตำแหน่ง / perpetrator profile / 17-item facility / building anonymity / IPF prohibited / 8 entry path
  6. Data Center Tiers — I (99.671%) → IV (99.995%). Concurrently Maintainable (Tier III) vs Fault Tolerant (Tier IV)

2 takeaway สำหรับผู้บริหาร

1. Vendor ที่ดูแล physical = ส่วนหนึ่งของ attack surface ของคุณ. Target ไม่ได้โดน hack เพราะ POS อ่อน. โดนเพราะ HVAC vendor ที่มี vendor portal access. ผู้รับเหมาแอร์ / cleaning / security guard / maintenance ทุกคนที่เข้าตึกคุณได้ คือ extension ของ attack surface. ทำ vendor risk assessment ปีละครั้ง + network segmentation ของ vendor portal เป็น must

2. Tier ของ data center ไม่ใช่ marketing แต่เป็น math ของ ALE. ก่อนเลือก colocation / cloud คำนวณ downtime cost ต่อชั่วโมง ของธุรกิจคุณ. คูณกับ downtime ของแต่ละ Tier. ตัดสินใจจากตัวเลข ไม่ใช่จาก “fancy datacenter ที่ vendor พามาเดิน”. อย่างที่เคส AWS Iceland 2022 สอนว่า แม้ hyperscale provider Tier IV ก็ down ได้. ทาง mitigation จริงคือ multi-region ไม่ใช่ Tier ที่สูงขึ้นเรื่อยๆ

EP.50 เราคุยเรื่อง ของในห้อง + ของในตึก + ของในเมือง ระดับ physical ครบแล้ว. มี กำแพง + ประตู + กล้อง + แอร์ + ไฟฟ้า + ดับเพลิง + เลือก Tier ของ data center ตาม business need

แต่มีคำถามใหญ่ที่ผมยังไม่ตอบคุณตลอด 50 EPs ที่ผ่านมา. เป็นคำถามที่ ISACA / ISO / SEC ของอเมริกาเริ่มบังคับให้บริษัทตอบในปี 2023-2024:

“เมื่อเกิด security incident — ใครรับผิดชอบ? ใครเซ็น? ใครกำกับ? CISO รายงานใคร?”

EP.51 — Security Organization + Reporting Lines — จะตอบคำถามนี้

ลองนึกภาพต่อ — ในเมืองของเรา. ที่ผ่านมา 50 EPs เราคุยเรื่อง ระบบ + เทคโนโลยี + กฎหมาย + ระบบกายภาพ. แต่เมืองจริงๆ ต้องมี เทศบาล — มีนายกเทศมนตรี + ปลัด + กำนัน + ผู้ใหญ่บ้าน — โครงสร้างการรายงานที่ชัดเจน

คำถามใหญ่ของ EP.51 —

  • CISO ควรรายงานใคร? — และทำไมวงการบอกชัดเจนว่า “CISO ห้ามรายงาน CIO”
  • Three Lines of Defense Model — Risk owner / Risk function / Audit — แบ่งหน้าที่ยังไง
  • CRO / CAE / CCO / DPO — 4 ตำแหน่งที่ต้อง independent จากกัน
  • Risk Committee vs Audit Committee — Board level governance
  • Equifax 2017 — เคสคลาสสิคที่ CISO reporting line ผิด ทำให้ breach 147 ล้านราย
  • Uber 2016 — CSO ที่ถูกฟ้องอาญาจากการปกปิด breach

EP.51 จะเป็น EP ที่ผู้บริหาร / CEO / Board ใช้ตัดสินใจ org structure ของ security function ของบริษัท. ใครรายงานใคร / ใครเซ็น / ใครกำกับ — ผิดตรงนี้ที่เดียว = breach ที่ตามมาทั้งหมดจัดการไม่ได้

EP.51 — Security Organization + Reporting Lines: CISO ห้ามรายงาน CIO