1428 คำ
7 นาที
AI 101 EP.10 — Generative AI กับ GAN — สร้างของใหม่ได้ยังไง + deepfake + อาการหลอน
สารบัญ

AI 101 — ปัญญาประดิษฐ์ฉบับภาษาคน · Part 1 (เบื้องหลัง: AI ทำงานยังไง) ซีรีส์นี้ผมเขียนให้เจ้าของกิจการกับคนทำงานทั่วไปที่ไม่ใช่สาย IT อ่านสนุกๆ แต่ได้ของกลับไปใช้จริง ไม่มีศัพท์ยากๆ ขู่ให้กลัว ตอนนี้เป็นเรื่อง “Generative AI กับ GAN — AI สร้างของใหม่ขึ้นมาได้ยังไง” — และทำไม deepfake ถึงน่ากลัว แล้วเจ้าอาการ “AI มโนหน้าตาเฉย” มันคืออะไร (สารบัญเต็มของซีรีส์จะตามมาทีหลังนะครับ)

ลองนึกภาพฉากนี้ดูครับ#

สมมติว่าวันหนึ่งคุณนั่งเล่นมือถืออยู่เฉยๆ แล้วเลื่อนเจอคลิปคนดังคนหนึ่งกำลังพูดเชียร์ให้ไปลงทุนในแอปฯ ตัวหนึ่ง น้ำเสียงก็ใช่ หน้าก็ใช่ ปากขยับตรงเป๊ะกับเสียงทุกพยางค์ ดูยังไงก็เหมือนคนคนนั้นนั่งพูดจริงๆ คุณเลยคิดในใจว่า “เออ ถ้าระดับนี้ออกมาพูดเอง มันก็น่าเชื่อนะ”

แต่ความจริงคือ… คนคนนั้นไม่เคยพูดประโยคพวกนั้นเลยสักคำในชีวิต คลิปทั้งคลิป — ทั้งหน้า ทั้งเสียง ทั้งปากที่ขยับ — ถูก สร้างขึ้นมาใหม่ทั้งหมด โดย AI ที่ไม่เคยมีคลิปต้นฉบับนั้นอยู่จริง

ฟังดูเหมือนหนังไซไฟใช่ไหมครับ แต่ทุกวันนี้มันคือเรื่องที่เกิดขึ้นได้จริงแล้ว และมันเกิดจากเทคโนโลยีกลุ่มหนึ่งที่เรียกว่า Generative AI (เจเนอเรทีฟ เอไอ — แปลแบบบ้านๆ คือ “AI สายสร้างของใหม่”) ครับ

ตอนก่อนๆ ในซีรีส์นี้เราคุยกันเรื่อง AI ที่เอาไว้ “ตัดสิน” หรือ “จับผิด” สิ่งที่มีอยู่แล้ว — เช่นดูว่ารูปนี้เป็นแมวหรือหมา ข้อความนี้เป็นสแปมหรือเปล่า แต่ตอนนี้เราจะคุยกันเรื่อง AI อีกสายพันธุ์หนึ่ง ที่ไม่ได้แค่ “ดูแล้วตอบ” แต่มัน “เสกของขึ้นมาใหม่” ได้เลย ทั้งรูป ทั้งเสียง ทั้งข้อความ ทั้งวิดีโอ

ใครที่ตามซีรีส์นี้มาก่อนหน้านี้ อาจจะจำได้ว่าผมเคยเกริ่นถึงคำว่า “อาการหลอน” ของ AI ไว้แบบผ่านๆ ตอนนี้แหละครับที่เราจะมาแกะดูกันจริงจังว่ามันคืออะไร พร้อมกับเปิดฝาดูว่า AI สายสร้างของมันทำงานยังไง ถ้าใครเพิ่งมาเจอตอนนี้เป็นตอนแรกก็ไม่เป็นไรนะครับ ผมเล่าใหม่ตั้งแต่ต้นให้ตามได้สบายๆ

คำถามที่ผมว่าหลายคนสงสัยมากคือ — มันทำได้ยังไงครับ? AI มันไม่มีมือ ไม่มีจินตนาการแบบคน แล้วมันวาดรูปคนที่ไม่เคยมีตัวตนจริงออกมาได้ยังไง? วันนี้ผมจะเล่าให้ฟังแบบภาษาคนเลยครับ

ก่อนอื่น — “สร้างของใหม่” กับ “ดูแล้วตอบ” มันคนละเรื่องกันนะ#

ก่อนจะเข้าเรื่อง ผมอยากปูพื้นนิดนึงให้เห็นภาพชัดก่อนครับ เพราะ AI สองแบบนี้คนชอบเหมารวมกัน

AI ที่เราเจอกันมานานแล้ว ส่วนใหญ่เป็นสาย “ดูแล้วตอบ” ครับ คือคุณป้อนของให้มันดู แล้วมันตอบกลับมาเป็นคำตัดสิน เช่น —

  • ป้อนรูปเข้าไป → มันตอบว่า “นี่คือแมว”
  • ป้อนอีเมลเข้าไป → มันตอบว่า “นี่คือสแปม”
  • ป้อนรีวิวลูกค้าเข้าไป → มันตอบว่า “อันนี้คอมเมนต์เชิงลบ”

สังเกตไหมครับว่าทุกอันที่มันตอบ มันเลือกจาก “ตัวเลือกที่มีอยู่แล้ว” — แมวหรือหมา, สแปมหรือไม่สแปม, บวกหรือลบ มันไม่ได้สร้างอะไรใหม่ มันแค่ชี้ว่าของที่คุณเอามาให้ดูมัน “เป็นอะไร”

แต่ Generative AI มันไปไกลกว่านั้นอีกขั้นครับ มันไม่ได้แค่ชี้ว่าของนี้เป็นอะไร แต่มัน ผลิตของชิ้นใหม่ที่ไม่เคยมีอยู่ออกมาเลย

  • บอกมันว่า “วาดรูปแมวใส่หมวกกันน็อกขี่มอเตอร์ไซค์” → มันวาดรูปนั้นออกมาให้ ทั้งที่ในโลกนี้ไม่เคยมีรูปนั้นมาก่อน
  • บอกมันว่า “ช่วยเขียนคำโฆษณาขายกาแฟให้หน่อย” → มันร่ายข้อความออกมาเป็นย่อหน้า
  • ป้อนเสียงพูดของใครสักคนเข้าไปไม่กี่นาที → มันเลียนเสียงคนนั้นพูดประโยคใหม่ๆ ที่คนนั้นไม่เคยพูดได้

คำว่า Generative มาจากคำว่า generate (เจเนอเรท) ที่แปลว่า “สร้าง/ผลิต” ครับ เพราะฉะนั้นหัวใจของมันคือคำว่า “สร้าง” นี่แหละ มันคือ AI สายช่างเสก ไม่ใช่ AI สายผู้พิพากษา

ผมขอสรุปความต่างเป็นตารางสั้นๆ ให้เห็นภาพชัดเลยนะครับ

AI สาย “ดูแล้วตอบ”Generative AI (สาย “เสกของใหม่”)
มันทำอะไรดูของที่มีอยู่ แล้วบอกว่าเป็นอะไรสร้างของชิ้นใหม่ที่ไม่เคยมีขึ้นมา
ผลลัพธ์คำตัดสิน (แมว / สแปม / ลบ)ชิ้นงานใหม่ (รูป / ข้อความ / เสียง / คลิป)
เปรียบเหมือนกรรมการที่คอยชี้ถูกชี้ผิดศิลปินที่ลงมือวาดเอง
ตัวอย่างที่คุ้นระบบกรองสแปม, สแกนใบหน้าปลดล็อกมือถือChatGPT เขียนข้อความ, แอปฯ แต่งรูปด้วย AI

พอแยกออกแล้วใช่ไหมครับ ทีนี้คำถามใหญ่ที่สุดคือ — ไอ้สายช่างเสกเนี่ย มันเสกของขึ้นมาจากอากาศได้ยังไง? เรามาดูกัน

สามอย่างที่ Generative AI เสกได้ — text, ภาพ, เสียง#

ก่อนจะลงลึกถึงเครื่องในของมัน ผมอยากพาไปดูภาพรวมก่อนว่า “ของที่ AI สายสร้างมันเสกได้” มันมีอะไรบ้าง เพราะหลายคนพอได้ยินคำว่า Generative AI ก็นึกถึงแค่ ChatGPT ที่พิมพ์ข้อความ ทั้งที่จริงมันสร้างได้หลายแบบมากครับ หลักๆ ที่เจอบ่อยมีสามกลุ่ม —

กลุ่มที่หนึ่ง — สร้างข้อความ (text)

อันนี้คุ้นที่สุดครับ พวก ChatGPT หรือผู้ช่วย AI ที่เราพิมพ์คุยด้วย คุณบอกว่า “ช่วยเขียนคำขอโทษลูกค้าให้สุภาพหน่อย” มันก็ร่างข้อความออกมาให้เป็นย่อหน้า หรือ “สรุปรายงานนี้ให้เหลือ 5 บรรทัด” มันก็ย่อให้ — มันเสก “คำ” ต่อ “คำ” ออกมาเป็นเรื่องเป็นราว

วิธีคิดของมันบ้านๆ มากครับ ลองนึกถึงเวลาคุณพิมพ์ข้อความในมือถือแล้วมันเด้งคำถัดไปมาให้เลือก เช่นพิมพ์ “วันนี้อากาศ” แล้วมันเดาให้ว่าน่าจะตามด้วย “ร้อน” หรือ “ดี” — AI สายสร้างข้อความก็ทำแบบนั้นแหละครับ แต่เก่งกว่าเยอะ มันเดา “คำถัดไปที่น่าจะใช่ที่สุด” ไปเรื่อยๆ ทีละคำ ต่อกันไปจนกลายเป็นประโยค เป็นย่อหน้า เป็นเรื่องยาว เพราะมันอ่านข้อความมาเยอะมากจนรู้ว่า “คำแบบนี้ มักจะตามด้วยคำแบบไหน”

กลุ่มที่สอง — สร้างภาพ (image)

พวกแอปฯ ที่คุณพิมพ์บรรยายว่าอยากได้รูปอะไร แล้วมันวาดออกมาให้ เช่น “หมาใส่สูทนั่งทำงานในออฟฟิศสไตล์การ์ตูน” มันก็เสกรูปนั้นออกมาทั้งที่ไม่เคยมีรูปนั้นในโลก หรือพวกฟีเจอร์ในแอปฯ แต่งรูปที่ลบคนออกจากพื้นหลังแล้วเติมฉากข้างหลังให้เนียนเหมือนไม่เคยมีใครยืนอยู่ตรงนั้น — นั่นก็คือ AI กำลัง “เสกพิกเซลที่หายไป” ขึ้นมาใหม่

กลุ่มที่สาม — สร้างเสียง (voice/audio)

อันนี้คนพูดถึงน้อยกว่าแต่สำคัญมากครับ คือ AI ที่เลียนเสียงคนได้ คุณป้อนเสียงพูดของใครสักคนเข้าไปไม่นาน มันก็จับ “ลักษณะเฉพาะของเสียงนั้น” ได้ — โทนสูงต่ำ จังหวะการพูด สำเนียง แล้วมันก็พูดประโยคใหม่ๆ ด้วยเสียงนั้นได้ ทั้งที่เจ้าของเสียงไม่เคยพูดประโยคพวกนั้นเลย รวมถึง AI ที่แต่งเพลง แต่งดนตรี อ่านหนังสือเสียงด้วยน้ำเสียงเป็นธรรมชาติ ก็อยู่ในกลุ่มนี้

กลุ่มมันเสกอะไรตัวอย่างที่เราเจอในชีวิต
ข้อความ (text)เดาคำถัดไปทีละคำจนเป็นเรื่องผู้ช่วย AI ที่พิมพ์คุย, ช่วยร่างอีเมล/คำโฆษณา
ภาพ (image)ประกอบพิกเซลขึ้นเป็นรูปใหม่แอปฯ วาดรูปจากคำบรรยาย, ลบ/เติมพื้นหลังรูป
เสียง (voice)จับลักษณะเสียงแล้วพูดประโยคใหม่AI เลียนเสียงคน, อ่านหนังสือเสียง, แต่งเพลง

จะเห็นว่าทั้งสามกลุ่มมันมี “หัวใจร่วม” อันเดียวกันครับ — คือ ดูตัวอย่างมาเยอะมากจนจับสูตรได้ แล้วเอาสูตรมาประกอบของชิ้นใหม่ ต่างกันแค่ว่าของที่ประกอบมันเป็นคำ เป็นภาพ หรือเป็นเสียง เท่านั้นเอง

💡 มุมเจ้าของกิจการ: จุดที่น่าสนใจคือทั้งสามกลุ่มนี้กำลัง “ผสมกัน” มากขึ้นเรื่อยๆ ครับ — เช่นบอกโจทย์เป็นข้อความ แล้วมันสร้างทั้งรูปและคลิปเสียงให้พร้อมกัน หรือป้อนรูปสินค้าเข้าไป มันช่วยร่างทั้งแคปชั่นและคลิปวิดีโอโฆษณาให้ ฉะนั้นเวลาเลือกเครื่องมือ AI มาใช้ในร้าน ลองดูว่าเราอยากให้มันช่วยงานกลุ่มไหน (เขียน? ทำภาพ? ทำเสียง?) แล้วเลือกตัวที่เก่งด้านนั้นจริงๆ ดีกว่าซื้อตัวที่อ้างว่า “ทำได้ทุกอย่าง” แต่ไม่เก่งสักอย่าง

เดี๋ยวเราไปดูหัวใจร่วมอันนี้ให้ลึกขึ้นกันครับ

หัวใจง่ายๆ ของ Generative AI — “ดูตัวอย่างเยอะมากๆ จนจับ ‘สูตร’ ได้”#

ผมอยากให้นึกภาพแบบนี้ครับ

สมมติว่ามีเด็กคนหนึ่งที่ไม่เคยวาดรูปแมวมาก่อนเลยในชีวิต แต่คุณเอารูปแมวมาให้เขาดูวันละพันรูป ดูอยู่อย่างนี้เป็นล้านๆ รูป — แมวสีส้ม แมวสีดำ แมวอ้วน แมวผอม แมวนอน แมวยืน แมวหันข้าง แมวหันหน้า

ดูไปดูมา เด็กคนนี้จะค่อยๆ จับ “แก่นของความเป็นแมว” ได้เองครับ โดยไม่มีใครสอนเป็นกฎตายตัวว่าแมวต้องมีอะไรบ้าง เขาจะซึมซับเองว่า อ๋อ แมวมันมักจะมีหูแหลมสองข้าง มีหนวด มีตากลมโต ขนปุย หางยาว สัดส่วนหน้าประมาณนี้

ทีนี้พอคุณบอกเด็กคนนี้ว่า “วาดแมวให้หน่อย” เขาก็จะวาดแมว “ตัวใหม่” ที่ไม่เหมือนรูปไหนที่เขาเคยเห็นเป๊ะๆ เลยสักรูป — แต่มันก็ดูเป็นแมวได้สมจริง เพราะเขาเอา “แก่น” ที่จับได้มาประกอบขึ้นใหม่ ไม่ใช่ก๊อปรูปเดิมมาแปะ

Generative AI มันทำงานคล้ายเด็กคนนี้เลยครับ — มันถูกป้อนตัวอย่างเข้าไปจำนวนมหาศาล (รูปเป็นล้านๆ, ข้อความเป็นกองมหึมา) จนมันจับ “รูปแบบ” หรือ “สูตรลับ” ของสิ่งเหล่านั้นได้ แล้วพอเราสั่งให้มันสร้างของใหม่ มันก็ใช้สูตรที่จับได้นั้นมาประกอบของชิ้นใหม่ขึ้นมา

หรือถ้าจะเทียบกับเรื่องใกล้ตัวกว่านั้น ลองนึกถึง แม่ครัวที่ชิมอาหารมาทั้งชีวิต ก็ได้ครับ — แกไม่ได้ท่องสูตรเป๊ะๆ จากตำราเล่มไหน แต่แกชิมต้มยำมาเป็นพันหม้อจนรู้ “รสที่ใช่ของต้มยำ” อยู่ในหัว พอให้แกทำต้มยำหม้อใหม่ แกก็ปรุงออกมาอร่อยได้ทั้งที่ไม่ได้ตวงเป๊ะ เพราะแก “จับรสได้” แล้ว — AI สายสร้างก็ “จับรส” ของรูป ของเสียง ของข้อความ ได้จากการดูตัวอย่างเยอะๆ แบบเดียวกันเลยครับ

จุดที่ผมอยากเน้นมากๆ คือ — มันไม่ได้ก๊อปของเก่ามาแปะ นะครับ (อันนั้นใครๆ ก็ทำได้ ไม่ต้องใช้ AI) แต่มันเข้าใจ “ลักษณะร่วม” ของของพวกนั้นจนสร้างของใหม่ที่ไม่เคยมีจริงออกมาได้ เหมือนนักดนตรีที่ฟังเพลงมาเยอะจนแต่งเพลงใหม่ของตัวเองได้ ไม่ใช่แค่เปิดเพลงเก่าซ้ำ

ทีนี้เฉพาะกรณี “สร้างรูป” ผมมีอุปมาอีกอันที่อยากเล่า เพราะวิธีที่ AI สมัยใหม่หลายตัวใช้วาดรูป มันเจ๋งมากครับ ลองนึกภาพแบบนี้ — สมมติว่าคุณเริ่มต้นด้วยจอทีวีเก่าที่มีแต่ “หิมะ” หรือ “เกล็ดมั่วๆ ซ่าๆ” เต็มจอ ไม่มีรูปอะไรเลย แล้วจู่ๆ มีคนค่อยๆ เช็ดความมั่วซ่านั้นออกทีละนิดทีละนิด รอบแล้วรอบเล่า โดยมีโจทย์ในหัวว่า “ฉันกำลังจะให้มันกลายเป็นรูปแมว” — พอเช็ดความมั่วออกไปเรื่อยๆ จากภาพซ่าๆ มันก็ค่อยๆ ปรากฏเป็นรูปแมวที่ชัดขึ้นๆ จนสุดท้ายได้รูปแมวเต็มตัวที่คมชัด

AI วาดรูปหลายตัวทำงานคล้ายแบบนี้เลยครับ — มันเริ่มจากความมั่วซ่าแบบสุ่มๆ แล้ว “ค่อยๆ เกลาความมั่วออก” ทีละขั้นจนกลายเป็นรูปที่เราสั่ง เหมือนช่างปั้นที่เริ่มจากก้อนดินไม่มีรูปร่าง แล้วค่อยๆ แกะ ค่อยๆ ปาด จนกลายเป็นรูปปั้นที่สวยงาม ผมว่าอุปมา “เกลาความมั่วออกจนเห็นรูป” นี้ช่วยให้เข้าใจได้ดีว่าทำไม AI ถึงสร้างรูปที่ไม่เคยมีในโลกได้ — เพราะมันไม่ได้ไปหยิบรูปไหนมา แต่มันปั้นขึ้นใหม่จากความว่างเปล่าโดยมี “สูตรความเป็นแมว” คอยนำทางว่าจะเกลาไปทางไหน

💡 มุมเจ้าของกิจการ: คุณภาพของ “ของที่ AI เสกได้” มันขึ้นอยู่กับ “ตัวอย่างที่มันเคยดูมา” โดยตรงครับ ถ้ามันถูกป้อนแต่ของคุณภาพต่ำ มันก็เสกของคุณภาพต่ำ ถ้าตัวอย่างที่มันดูมามีอคติเอียงไปทางใดทางหนึ่ง ของที่มันเสกก็จะเอียงตาม นี่คือเหตุผลที่เวลาเอา AI สายสร้างมาใช้ในงานจริง เราต้องไม่เชื่อว่า “AI สร้างมา = ดีเสมอ” — ของมันออกมาดีหรือเพี้ยน อยู่ที่มันถูกเลี้ยงดูมาด้วยอะไร

ทีนี้คำถามต่อไป — แล้วมันเอา “สูตร” ที่จับได้มาเกลาให้ของออกมาเนียนสมจริงได้ยังไง? ตรงนี้แหละครับที่มีเทคนิคเด็ดตัวหนึ่งซ่อนอยู่ และมันคือต้นกำเนิดของ deepfake เลย

GAN — สองตัวแข่งกัน จนเสกของได้เนียนกริบ#

มาถึงพระเอกของตอนนี้ครับ ชื่อว่า GAN (อ่านว่า “แกน” ย่อมาจาก Generative Adversarial Network — เครือข่ายปฏิปักษ์เชิงสร้าง… ชื่อเต็มมันฟังน่าปวดหัวมาก เดี๋ยวผมเล่าให้เป็นภาษาคน)

แก่นของ GAN มันง่ายและสนุกมากครับ มันคือการเอา AI สองตัวมาแข่งกัน ตัวหนึ่งทำหน้าที่ “ปลอม” อีกตัวทำหน้าที่ “จับผิด” แล้วให้สองตัวนี้ฟัดกันไปเรื่อยๆ จนของปลอมมันเนียนขึ้นเรื่อยๆ

ลองนึกภาพแบบนี้ครับ —

ตัวที่หนึ่ง คือ “นักปลอมแบงก์” (ภาษาวงการเรียก generator แปลว่า “ตัวสร้าง”) หน้าที่ของมันคือพยายามทำของปลอมขึ้นมาให้เหมือนของจริงที่สุด เช่นพยายามวาดรูปหน้าคนปลอมๆ ให้ดูเหมือนรูปถ่ายคนจริง

ตัวที่สอง คือ “ตำรวจจับของปลอม” (ภาษาวงการเรียก discriminator แปลว่า “ตัวแยกแยะ”) หน้าที่ของมันคือคอยดูของที่ส่งมาให้ แล้วชี้ว่า “อันนี้ของจริง” หรือ “อันนี้ของปลอม”

ทีนี้เกมมันเป็นแบบนี้ครับ —

  1. นักปลอมแบงก์ปั้นรูปปลอมขึ้นมา แล้วส่งให้ตำรวจดู ปนๆ ไปกับรูปจริง
  2. ตำรวจดูแล้วชี้ว่าอันไหนปลอม “เฮ้ย อันนี้ปลอมชัดๆ หูมันเบี้ยว”
  3. นักปลอมแบงก์ได้ฟังก็รู้ว่าพลาดตรงไหน รอบหน้าก็ปั้นมาเนียนขึ้น แก้จุดที่โดนจับได้
  4. ตำรวจก็ฉลาดขึ้นตามเหมือนกัน เพราะเจอของปลอมเนียนๆ บ่อยขึ้น เลยต้องจับผิดละเอียดขึ้น
  5. วนแบบนี้ไปเรื่อยๆ เป็นล้านๆ รอบ

ผลลัพธ์คืออะไรรู้ไหมครับ — นักปลอมแบงก์เก่งขึ้นเรื่อยๆ จนปั้นของปลอมที่เนียนระดับที่แม้แต่ตำรวจยังแยกไม่ออก ว่าอันไหนจริงอันไหนปลอม พอถึงจุดนั้นแหละ ของปลอมที่นักปลอมแบงก์ทำ มันก็เนียนพอที่จะหลอกตาคนเราได้เลย

ผมว่าอุปมาที่เห็นภาพที่สุดคือ เกมแมวไล่จับหนู ครับ — หนู (ตัวปลอม) พยายามหนีให้รอด แมว (ตัวจับผิด) พยายามจับให้ได้ ยิ่งแมวเก่ง หนูก็ยิ่งต้องหลบเก่งขึ้น ยิ่งหนูหลบเก่ง แมวก็ต้องไล่เก่งขึ้น สองตัวดันกันขึ้นไปเรื่อยๆ จนสุดท้ายหนูตัวนี้กลายเป็นหนูที่หลบเก่งสุดๆ — และในเคสของ GAN “หนูที่หลบเก่งสุดๆ” ก็คือเครื่องสร้างของปลอมที่เนียนสุดๆ นั่นเอง

หรือถ้าจะให้บ้านกว่านั้นอีก ลองนึกถึง ลูกศิษย์จิตรกรกับครู ก็ได้ครับ ลูกศิษย์พยายามวาดภาพเลียนแบบให้เหมือนของจริง เอาไปให้ครูดู ครูก็ติว่า “ตรงนี้แสงไม่เหมือน ตรงนั้นเงาผิด” ลูกศิษย์กลับไปแก้ เอามาให้ดูใหม่ ครูติอีก แก้อีก วนไปเรื่อยๆ จนวันหนึ่งครูมองภาพแล้วแยกไม่ออกว่าอันไหนลูกศิษย์วาด อันไหนของจริง — วันนั้นแหละครับลูกศิษย์เก่งเต็มตัว

นี่คือความฉลาดของไอเดีย GAN ครับ — มันไม่ต้องมีคนคอยบอกว่า “วาดให้สวยขึ้นยังไง” แต่มันใช้คู่แข่งของตัวเองมาขัดเกลากันเอง จนเก่งขึ้นมาเอง เหมือนนักมวยสองคนที่ซ้อมต่อยกันทุกวัน ไม่ต้องมีโค้ชมายืนสั่งทุกหมัด แต่ต่างคนต่างก็เก่งขึ้นเพราะต้องเอาชนะอีกฝ่ายให้ได้ — พอผ่านไปนานๆ ทั้งคู่กลายเป็นนักมวยฝีมือดีไปด้วยกัน เพราะมีคู่ซ้อมที่สูสีคอยกระตุ้นกันตลอด ผมว่านี่คือไอเดียที่สวยมากในวงการ AI เลยครับ — เอา “การแข่งขัน” มาเป็นครูสอน แทนที่จะมีครูตัวเป็นๆ

ตัวละครใน GANชื่อในวงการหน้าที่เปรียบเหมือน
ตัวสร้างของปลอมgenerator (ตัวสร้าง)พยายามปั้นของปลอมให้เนียนที่สุดนักปลอมแบงก์ / ลูกศิษย์จิตรกร
ตัวจับผิดdiscriminator (ตัวแยกแยะ)คอยชี้ว่าอันไหนจริง อันไหนปลอมตำรวจ / ครูที่คอยติ
ผลของการแข่งกันของปลอมเนียนขึ้นเรื่อยๆ จนแยกไม่ออกทั้งคู่เก่งขึ้นเพราะดันกันไปมา

ผมอยากให้รู้ไว้ด้วยว่าไอเดีย “เอาสองตัวมาแข่งกันจนเก่ง” แบบนี้ไม่ได้มีไว้สร้างของหลอกๆ อย่างเดียวนะครับ — มันถูกเอาไปใช้ในทางดีๆ เยอะแยะ เช่น —

  • ฟิลเตอร์แต่งหน้าในแอปฯ ถ่ายรูป ที่เปลี่ยนหน้าเราให้แก่ลง เด็กลง หรือเปลี่ยนทรงผม — เบื้องหลังก็ใช้เทคนิคสายเสกของใหม่แบบนี้
  • การกู้รูปเก่าๆ ที่เบลอหรือขาด ให้กลับมาคมชัด เติมส่วนที่หายไปให้สมจริง เช่นรูปถ่ายขาวดำเก่าๆ ของคุณปู่คุณย่าที่เลือนไปแล้ว
  • การออกแบบ เช่นช่วยลองสร้างแบบสินค้า แบบโลโก้ แบบบรรจุภัณฑ์หลายๆ เวอร์ชั่นให้เลือกอย่างรวดเร็ว

เพราะฉะนั้น GAN กับเทคนิคสายเสกของใหม่ไม่ใช่ “ผู้ร้าย” นะครับ มันเป็นแค่เครื่องมือที่ทรงพลังมาก — อยู่ที่คนเอาไปใช้ว่าจะใช้ในทางสร้างสรรค์หรือทางหลอกลวง เหมือนมีดที่ใช้ทำกับข้าวก็ได้ ใช้ทำร้ายคนก็ได้ ขึ้นอยู่กับมือที่ถือ

พอเข้าใจตรงนี้แล้ว เรื่องต่อไปจะเข้าใจง่ายขึ้นเยอะเลยครับ — เพราะเจ้า GAN ที่เสกหน้าคนปลอมได้เนียนเนี่ย พอมันตกไปอยู่ในมือคนที่คิดไม่ดี มันก็กลายเป็นต้นกำเนิดของสิ่งที่เรียกว่า deepfake ที่เราได้ยินกันบ่อยๆ นั่นเอง

Deepfake — เมื่อ “ของปลอมที่เนียนเกินไป” กลายเป็นภัย#

Deepfake (ดีปเฟก) มาจากคำสองคำมาต่อกันครับ — deep ที่มาจาก deep learning (การเรียนรู้เชิงลึก ซึ่งเป็นเทคนิคเบื้องหลัง AI สมัยใหม่) บวกกับ fake ที่แปลว่า “ปลอม” รวมแล้วก็คือ “ของปลอมที่ทำด้วย AI จนเนียนสุดๆ” นั่นเอง

ส่วนใหญ่เวลาคนพูดถึง deepfake เขาหมายถึง คลิปวิดีโอหรือเสียงปลอม ที่เอาหน้าหรือเสียงของคนคนหนึ่งไปสวมใส่ ทำให้ดูเหมือนคนคนนั้นพูดหรือทำอะไรบางอย่างที่จริงๆ เขาไม่เคยทำเลย ซึ่งหัวใจเบื้องหลังก็คือเทคนิคแบบ GAN ที่เราเพิ่งคุยกันไป — ปั้นของปลอมจนเนียนระดับหลอกตาคนได้

ทำไมมันถึงน่ากลัวกว่าของปลอมสมัยก่อน? ผมขอเทียบให้เห็นภาพครับ —

สมัยก่อนถ้าจะปลอมรูปใครสักคน ต้องใช้ช่างตัดต่อมือฉมัง นั่งทำเป็นวันๆ และถึงจะเก่งแค่ไหน คนช่างสังเกตก็มักจับพิรุธได้ — ขอบมันแปลกๆ แสงมันไม่เข้ากัน แต่ deepfake สมัยนี้มัน ทำได้เร็ว ทำได้เยอะ และเนียนกว่ามาก เพราะ AI มันเกลารายละเอียดยิบย่อยที่คนทำมือมักพลาด — อย่างการขยับปากให้ตรงกับเสียง การกระพริบตา เงาบนใบหน้า

และที่น่ากลัวที่สุดสำหรับเจ้าของกิจการอย่างเราคือ — มันถูกเอาไปใช้หลอกลวงได้ ครับ ผมขอยกตัวอย่างสถานการณ์ สมมติ ที่อาจเกิดขึ้นได้ (ย้ำว่าผมแต่งขึ้นเองเพื่อให้เห็นภาพ ไม่ใช่เคสจริงของใคร) —

  • เสียงปลอมหลอกโอนเงิน: สมมติว่ามีพนักงานการเงินคนหนึ่งได้รับสายโทรศัพท์ เสียงปลายสายเหมือนเจ้านายเป๊ะ สั่งให้รีบโอนเงินก้อนใหญ่ไปบัญชีหนึ่งด่วนๆ พนักงานก็เชื่อเพราะเสียงมันเหมือนจริงทุกอย่าง — ทั้งที่จริงเสียงนั้นถูก AI ปั้นขึ้นมา
  • คลิปปลอมทำลายชื่อเสียง: สมมติว่ามีคลิปของผู้บริหารบริษัทหนึ่งหลุดออกมาในโซเชียล พูดจาเสียหาย ทั้งที่เขาไม่เคยพูด แต่กว่าจะพิสูจน์ว่าเป็นของปลอม ความเสียหายก็เกิดไปแล้ว
  • หน้าปลอมสมัครงาน/ยืนยันตัวตน: สมมติว่ามีคนเอา deepfake หน้าคนอื่นมาผ่านระบบยืนยันตัวตนแบบสแกนหน้า เพื่อเปิดบัญชีหรือสมัครบริการในชื่อคนอื่น
  • วิดีโอคอลปลอม: สมมติว่ามีคนวิดีโอคอลมาหาทีมงาน หน้าตาเหมือนคู่ค้าที่รู้จักกันดี คุยจนสนิทใจแล้วค่อยขอข้อมูลสำคัญหรือขอให้ช่วยทำธุรกรรมบางอย่าง

เห็นไหมครับว่ามันไม่ใช่แค่เรื่องสนุกๆ เอาหน้าเพื่อนไปแปะในมีมแล้ว — มันแตะเรื่องเงิน เรื่องชื่อเสียง เรื่องความปลอดภัยได้จริงๆ

ทีนี้มีอีกเรื่องที่ผมว่าทำให้ deepfake น่าห่วงกว่าเมื่อก่อนเยอะ คือเรื่อง “ทำง่ายขึ้นและถูกลงมาก” ครับ สมัยก่อนการปลอมคลิปให้เนียนต้องใช้ทีมตัดต่อมืออาชีพ ใช้เครื่องแรงๆ ใช้เวลานาน ก็เลยมีแต่คนที่มีทุนหนักจริงๆ ทำได้ แต่ทุกวันนี้เครื่องมือสายนี้มันหาง่ายขึ้น ใช้ง่ายขึ้น บางอย่างแค่อัปโหลดรูปหรือคลิปเสียงสั้นๆ ก็ทำได้แล้ว — แปลว่าคนที่คิดไม่ดีก็เข้าถึงเครื่องมือพวกนี้ได้ง่ายขึ้นตามไปด้วย นี่คือเหตุผลที่เรื่องนี้กลายเป็นเรื่องใกล้ตัวเจ้าของกิจการธรรมดาอย่างเรา ไม่ใช่เรื่องของคนดังหรือบริษัทใหญ่อย่างเดียวอีกต่อไป

อีกมุมหนึ่งที่ผมอยากให้คิดเผื่อไว้คือ — deepfake มันไม่ได้น่ากลัวแค่ตอนที่ “มีของปลอม” นะครับ แต่มันน่ากลัวตรงที่ พอโลกรู้ว่าของปลอมได้เนียนขนาดนี้ ของจริงก็พลอยถูกตั้งข้อสงสัยไปด้วย ลองนึกภาพว่าวันหนึ่งมีหลักฐานคลิปจริงๆ ของเรื่องอะไรสักอย่าง แต่คนที่ผิดก็แค่อ้างว่า “นั่นมัน deepfake ไง ของปลอม” — พอความจริงกับความปลอมมันปนกันมั่วไปหมด ความเชื่อใจในสังคมมันก็สั่นคลอนไปด้วย อันนี้เป็นผลข้างเคียงที่หลายคนมองข้าม

เห็นไหมครับว่ามันไม่ใช่แค่เรื่องเทคโนโลยีสนุกๆ — มันแตะเรื่องเงิน เรื่องชื่อเสียง เรื่องความเชื่อใจกันในสังคมเลยทีเดียว

💡 มุมเจ้าของกิจการ: ผมไม่ได้จะให้คุณกลัวจนไม่กล้าใช้เทคโนโลยีนะครับ แต่อยากให้ตั้ง “กติกาเล็กๆ” ในออฟฟิศไว้ เช่น — เรื่องโอนเงินก้อนใหญ่ ห้ามอนุมัติจากสายโทรศัพท์หรือคลิปเสียงอย่างเดียวเด็ดขาด ต้องมีการยืนยันซ้ำผ่านช่องทางอื่นที่นัดกันไว้ก่อน (เช่นโทรกลับเบอร์ที่รู้จัก หรือยืนยันต่อหน้า) เพราะยุคนี้ “เห็นหน้า-ได้ยินเสียง” ไม่เท่ากับ “ของจริง” อีกต่อไปแล้ว กติกาง่ายๆ ข้อเดียวนี้กันความเสียหายได้เยอะมาก

แล้วเราจะดูออกไหมว่าอันไหน deepfake? ตอบตรงๆ ครับว่ายากขึ้นทุกวัน แต่พิรุธที่ยังพอสังเกตได้บ้างก็พอมี ผมรวบรวมจุดที่ลองสังเกตได้ไว้ให้เป็นเช็คลิสต์สั้นๆ —

  • ตาและการกระพริบ — บางทีคนใน deepfake กระพริบตาน้อยผิดปกติ หรือกระพริบแบบแข็งๆ ไม่เป็นธรรมชาติ ดวงตาดูเหมือนหุ่นนิดๆ
  • แสงกับเงาไม่เข้ากัน — เงาบนใบหน้าไม่ตรงกับทิศแสงในฉาก หรือสีผิวหน้ากับสีลำคอ/ลำตัวดูคนละโทน เหมือนเอาหน้าไปแปะ
  • ขอบที่เบลอผิดที่ — ขอบใบหน้า เส้นผม หรือรอยต่อระหว่างคอกับหน้า ดูเบลอๆ สั่นๆ โดยเฉพาะตอนคนในคลิปขยับหัวเร็วๆ
  • ปากกับเสียงไม่ตรง — ปากขยับไม่ค่อยตรงกับคำพูดเป๊ะๆ หรือเวลาออกเสียงบางคำ รูปปากดูแปลกๆ
  • น้ำเสียงแบนๆ ไร้อารมณ์ — เสียงปลอมบางอันฟังดูราบเรียบเกินไป ไม่มีจังหวะหายใจ ไม่มีการเน้นคำตามอารมณ์เหมือนคนพูดจริง
  • บริบทมันแปลก — อันนี้สำคัญสุด ลองถามตัวเองว่า “คนคนนี้จะมาพูดเรื่องนี้ผ่านช่องทางนี้จริงเหรอ?” ถ้ามันชวนให้รีบโอนเงิน รีบกดลิงก์ รีบตัดสินใจ — นั่นคือสัญญาณอันตรายที่ดังกว่าพิรุธทางภาพทุกอย่าง

ย้ำนะครับว่าพิรุธทางภาพและเสียงพวกนี้เริ่มจับยากขึ้นเรื่อยๆ เพราะของมันเนียนขึ้นทุกวัน วันหน้าอาจจะไม่มีพิรุธให้จับเลยก็ได้ ฉะนั้นด่านสุดท้ายที่เชื่อถือได้ที่สุดไม่ใช่ “ตาเราจับผิดเก่งแค่ไหน” แต่คือ “กระบวนการยืนยันซ้ำ” ต่างหาก — อย่าเชื่อแค่เพราะเห็นหรือได้ยิน โดยเฉพาะเรื่องเงินและเรื่องสำคัญ ให้ยืนยันผ่านช่องทางอื่นที่เรารู้จักเสมอ

อาการ “หลอน” — เมื่อ AI มโนหน้าตาเฉย#

ทีนี้มาถึงอีกเรื่องที่ผมอยากให้รู้จักให้ดี เพราะมันเป็นจุดอ่อนสำคัญของ Generative AI ที่คนขายเครื่องมือมักไม่ค่อยพูดถึง — นั่นคืออาการที่วงการเรียกว่า hallucination (อ่านว่า “ฮัลลูซิเนชั่น” แปลว่า “อาการหลอน” หรือ “อาการเห็นภาพหลอน”)

อธิบายแบบบ้านๆ ที่สุดคือ — AI มัน “มโน” หรือ “แต่งเรื่องขึ้นมาเองหน้าตาเฉย” ทั้งที่ไม่รู้จริง แต่พูดด้วยน้ำเสียงมั่นใจมากจนเราเผลอเชื่อ

ทำไมมันถึงเป็นแบบนั้นล่ะ? ย้อนกลับไปที่หัวใจของ Generative AI ที่เราคุยกันตอนต้นครับ — มันทำงานด้วยการ “เดาว่าอะไรน่าจะใช่” จากรูปแบบที่มันเคยเห็นมา ไม่ได้ทำงานด้วยการเปิดดูข้อเท็จจริงแล้วตอบ เพราะฉะนั้นเวลาที่มันเจอคำถามที่มันไม่รู้คำตอบจริงๆ มันก็จะไม่ยอมบอกว่า “ผมไม่รู้” หรอกครับ — มันจะ เดาคำตอบที่ “ฟังดูน่าจะใช่ที่สุด” ออกมาแทน แล้วพูดด้วยความมั่นใจเต็มร้อย

ผมขอย้ำจุดนี้เพราะมันสำคัญมาก — ตอนต้นเรื่องเราคุยกันว่า AI สายสร้างข้อความมันทำงานด้วยการ “เดาคำถัดไปที่น่าจะใช่ที่สุด” ไปทีละคำใช่ไหมครับ ทีนี้ลองคิดดูดีๆ — คำว่า “น่าจะใช่ที่สุด” มันไม่ได้แปลว่า “จริงที่สุด” นะครับ มันแปลว่า “ฟังดูเข้าท่าที่สุด” ต่างหาก สองอันนี้มันคนละเรื่องกัน! ของบางอย่างฟังดูเข้าท่ามากแต่เป็นเรื่องโกหกก็มี เพราะฉะนั้นโดยธรรมชาติของมัน AI สายนี้มันถูกออกแบบมาให้ “พูดให้ลื่น” ไม่ได้ถูกออกแบบมาให้ “พูดแต่ความจริง” — อาการหลอนเลยไม่ใช่บั๊กหรือความผิดพลาดที่แปลกประหลาด แต่มันเป็นผลพลอยได้ตามธรรมชาติของวิธีที่มันทำงานเลยด้วยซ้ำ

ผมว่าอุปมาที่ตรงที่สุดคือ นักเรียนที่ไม่ได้อ่านหนังสือมาสอบ แต่หน้าด้านพอ ครับ — เจอข้อสอบที่ไม่รู้คำตอบ แทนที่จะเว้นว่าง เขาก็มั่วคำตอบที่ฟังดูเข้าท่าๆ เขียนลงไปอย่างมั่นใจ อ่านแล้วดูน่าเชื่อถือ ใช้ศัพท์สวยหรู แต่เนื้อหาข้างในมั่วล้วนๆ — Generative AI เวลาหลอนก็ทำแบบนี้เป๊ะเลย คือมันไม่ได้โกหกเพราะอยากโกหก แต่มันแค่ “เดาให้เต็มที่” เพราะมันถูกออกแบบมาให้ตอบ ไม่ได้ถูกออกแบบมาให้เงียบ

ตัวอย่างอาการหลอนที่เจอกันบ่อย (ขอยกแบบ สมมติ ให้เห็นภาพนะครับ) —

  • ถามมันว่า “ช่วยหาข้อมูลกฎหมายข้อนี้ให้หน่อย” → มันร่ายมาเป็นฉากๆ พร้อมเลขมาตรา ดูน่าเชื่อมาก แต่พอไปเช็คจริง… ไม่มีมาตรานั้นอยู่จริง มันมโนขึ้นมาเอง
  • ให้มันสรุปหนังสือเล่มหนึ่ง → มันสรุปออกมาลื่นไหล แต่มีบางตอนที่ในหนังสือจริงไม่มีเลย มันเติมเองให้เรื่องมันครบ
  • ถามชื่อคนหรือวันที่เฉพาะเจาะจง → มันตอบมาเป๊ะเหมือนรู้จริง แต่ที่จริงมันเดา และเดาผิด
  • ถามตัวเลขสถิติ → มันพ่นตัวเลขออกมาดูน่าเชื่อมาก มีทศนิยมเสร็จสรรพ แต่ที่จริงมันมั่วขึ้นมาเอง (อันนี้อันตรายกับงานธุรกิจมาก เพราะตัวเลขมั่วๆ เอาไปตัดสินใจต่อได้พังเลย)
  • ให้มันแนะนำสินค้าหรือร้าน → มันแต่งชื่อร้านที่ไม่มีอยู่จริงขึ้นมา พร้อมรายละเอียดครบเครื่องเหมือนเคยไปมาเอง

จุดที่อันตรายที่สุดของอาการหลอนคือ — มันไม่ได้ดูเหมือนผิดครับ มันดูเหมือนถูกมาก เพราะมันพูดด้วยน้ำเสียงมั่นใจ ใช้ภาษาดูดี เรียบเรียงสวยงาม ทำให้เราการ์ดตก เผลอเชื่อโดยไม่ทันเอะใจ ต่างจากคนที่ไม่รู้แล้วมักจะลังเล พูดตะกุกตะกัก — AI มันหลอนแบบหน้าตาเฉยและลื่นไหลมาก

ผมว่าตรงนี้มีกับดักทางความรู้สึกซ่อนอยู่ด้วยนะครับ — คือพอเราถามอะไร AI แล้วมันตอบได้คล่อง ตอบได้เร็ว ตอบได้ดูฉลาด เราก็เผลอ “ให้เครดิตความน่าเชื่อถือ” กับมันมากเกินจริง เหมือนเวลาเจอคนพูดเก่งมากๆ เราก็มักจะเผลอเชื่อเขาง่ายขึ้น ทั้งที่ความพูดเก่งกับความพูดจริงมันคนละเรื่องกัน AI ก็เหมือนกันเป๊ะ — มัน “พูดเก่ง” โดยธรรมชาติ เพราะมันถูกฝึกมาให้เรียบเรียงภาษาสวย เพราะฉะนั้นยิ่งมันตอบดูดีเท่าไหร่ เรายิ่งต้องเตือนตัวเองว่า “ดูดี ไม่เท่ากับ ถูกต้อง” นะ

แล้วทำไมบางทีมันก็ตอบถูกเป๊ะ บางทีก็มโนล่ะ? ง่ายๆ ครับ — เรื่องที่มันเคยเห็นตัวอย่างมาเยอะๆ (เรื่องที่คนพูดถึงกันมาก มีข้อมูลเยอะ) มันก็เดาได้แม่น เพราะ “สูตร” ที่มันจับได้มันชัด แต่พอเป็นเรื่องเฉพาะเจาะจง เรื่องที่มีข้อมูลน้อย หรือเรื่องที่ต้องการตัวเลข-ชื่อ-วันที่ที่เป๊ะๆ — ตรงนี้แหละที่มันชอบพลาด เพราะมันไม่มี “สูตร” ที่ชัดพอ มันก็เลยเดามั่วๆ ที่ฟังดูเข้าท่าออกมาแทน นี่คือเหตุผลที่งานสำคัญที่ต้องการความเป๊ะ เราถึงห้ามปล่อยให้ AI ทำเดี่ยวๆ โดยไม่มีคนเช็ค

💡 มุมเจ้าของกิจการ: จำหลักง่ายๆ ไว้ข้อเดียวพอครับ — “ของที่ AI เสกมา ให้ถือว่าเป็นร่างแรกเสมอ ยังไม่ใช่ของจริงจนกว่าจะเช็ค” โดยเฉพาะอะไรที่เป็นตัวเลข ชื่อเฉพาะ วันที่ ข้อกฎหมาย ข้อมูลที่เอาไปใช้ตัดสินใจสำคัญ — ห้ามเอาที่ AI พ่นมาไปใช้ตรงๆ โดยไม่ตรวจสอบเด็ดขาด ใช้ AI ช่วยร่าง ช่วยคิด ช่วยเริ่ม นั้นดีมาก แต่ “คนต้องเป็นคนเซ็นรับรองความถูกต้อง” เสมอ อย่ายกหน้าที่นั้นให้ AI

เคลียร์ความเข้าใจผิดที่เจอบ่อย#

ก่อนจะสรุป ผมขอเคลียร์ความเข้าใจผิดสองสามอย่างที่ผมเจอคนสงสัยบ่อยๆ เกี่ยวกับ AI สายสร้าง เผื่อใครค้างคาใจอยู่ครับ

“AI มันก๊อปงานคนอื่นมาแปะใช่ไหม?” — ไม่เชิงครับ อย่างที่เล่าไป มันไม่ได้หยิบของชิ้นไหนชิ้นหนึ่งมาแปะ แต่มันประกอบของใหม่จาก “สูตร” ที่จับมาจากตัวอย่างมหาศาล อย่างไรก็ตาม มีประเด็นที่ถกเถียงกันอยู่จริงว่า การที่มันเอางานของคนอื่น (รูป เพลง ข้อความ) ไปเป็น “ตัวอย่างให้ดู” โดยไม่ได้ขออนุญาต มันแฟร์กับเจ้าของงานต้นทางไหม — อันนี้เป็นเรื่องที่โลกยังเถียงกันไม่จบ และเป็นเรื่องที่เจ้าของกิจการควรรู้ไว้ ถ้าจะเอา AI สายสร้างไปใช้ในงานเชิงพาณิชย์ ก็ควรเลือกเครื่องมือที่ชัดเจนเรื่องที่มาของข้อมูลที่เลี้ยงมันมาหน่อยจะปลอดภัยกว่า

“ถ้ามันเก่งขนาดนี้ มันจะมาแทนคนทั้งหมดไหม?” — ส่วนตัวผมว่ายังครับ มันเก่งเรื่อง “ร่าง” และ “ทำของเยอะๆ เร็วๆ” แต่มันยัง “มโน” ได้อย่างที่เล่าไป และมันไม่มีความรับผิดชอบต่อผลลัพธ์เหมือนคน คนยังต้องเป็นคนตัดสินใจ คนยังต้องเป็นคนรับผิดชอบ AI เป็นแค่ผู้ช่วยที่หัวไวมากเท่านั้น

“ของที่ AI เสกมา ถือเป็นของจริงเลยไหม?” — ไม่ครับ ขอย้ำหนักๆ อีกครั้ง — ของที่ AI เสกมาให้ถือเป็น “ร่างแรก” เสมอ ไม่ว่าจะเป็นข้อความ รูป หรือข้อมูล ต้องผ่านสายตาคนก่อนเอาไปใช้จริงทุกครั้ง

“แล้วเราจะรู้ได้ไงว่ารูปหรือคลิปไหนสร้างจาก AI?” — ตอบยากขึ้นทุกวันครับ เครื่องมือตรวจจับก็มีพัฒนาขึ้นเรื่อยๆ และในอนาคตอาจมีการ “ติดป้ายกำกับ” บอกว่าของชิ้นไหนทำจาก AI มากขึ้น แต่ตอนนี้ยังไม่มีอะไรเป็นมาตรฐานที่เชื่อได้ร้อยเปอร์เซ็นต์ เพราะฉะนั้นอย่ารอเทคโนโลยีมาช่วยอย่างเดียว — กลับมาที่หลักเดิมคือ “อย่าเชื่อแค่เห็นแค่ได้ยิน ให้ยืนยันซ้ำในเรื่องสำคัญ” ปลอดภัยที่สุดครับ

ทำไมเรื่องนี้สำคัญกับเจ้าของกิจการอย่างเรา#

อ่านมาถึงตรงนี้ บางคนอาจคิดว่า “เรื่อง GAN เรื่อง deepfake เรื่องอาการหลอน มันเป็นเรื่องเทคนิคของพวกโปรแกรมเมอร์ป่าวนะ จะเกี่ยวอะไรกับเจ้าของร้านอย่างเรา?” ผมเข้าใจความรู้สึกนั้นดีครับ ตอนแรกผมก็คิดแบบนั้น แต่พอเข้าใจมันจริงๆ ผมกลับรู้สึกว่ามันเป็นเรื่องที่เจ้าของกิจการ “ต้องรู้” มากกว่าโปรแกรมเมอร์เสียอีก เพราะเราคือคนที่ตัดสินใจเรื่องเงินและความเสี่ยง นี่คือสามเหตุผลที่ผมว่ามันแตะชีวิตเราตรงๆ

หนึ่ง — Generative AI เป็นเครื่องมือทำงานที่คุ้มมาก ถ้าใช้เป็น

ของสายสร้างนี่แหละครับที่ช่วยงานเราได้เยอะ ผมขอยกตัวอย่างงานในร้านค้าทั่วไป (แบบ สมมติ ให้เห็นภาพ) ที่ Generative AI ช่วยได้จริง —

  • ร่างแคปชั่นขายของหลายๆ แบบให้เลือก แทนที่จะนั่งคิดเองคนเดียวจนตัน
  • ร่างอีเมลตอบลูกค้า ตอบรีวิว หรือร่างคำขอโทษเวลามีปัญหา ให้สุภาพและครบถ้วน
  • สรุปเอกสารยาวๆ สัญญายาวๆ ให้เหลือใจความสั้นๆ พออ่านเอาเรื่อง
  • คิดไอเดียภาพโฆษณา ไอเดียโปรโมชั่น เป็นตัวจุดประกายให้สมอง
  • แปลข้อความเบื้องต้นเวลาต้องคุยกับลูกค้าหรือคู่ค้าต่างชาติ

มันประหยัดเวลาได้มหาศาลครับ แต่กุญแจสำคัญอยู่ที่คำว่า “ช่วยร่าง” — เอามาเป็นจุดเริ่ม ไม่ใช่จุดจบ แล้วคนค่อยมาเกลาต่อและตรวจสอบ ผมชอบเปรียบ AI สายสร้างว่าเหมือน เด็กฝึกงานหัวไวที่ทำงานเร็วมากแต่ยังเขียวอยู่ — มอบงานร่างให้มันทำได้สบาย ประหยัดแรงเราไปครึ่งหนึ่ง แต่ก่อนส่งงานออกไปข้างนอก เจ้านาย (ก็คือเรา) ต้องเป็นคนอ่านทวนและรับรองเองเสมอ จะได้ไม่มีอะไรหลุดออกไปแบบมโนๆ

สอง — ต้องรู้ทันภัย deepfake เพื่อไม่ตกเป็นเหยื่อ

พอเรารู้ว่าเสียงและหน้าปลอมได้เนียนขนาดนี้ เราก็จะไม่เชื่ออะไรง่ายๆ อีกต่อไป โดยเฉพาะเรื่องที่เกี่ยวกับเงินหรือการยืนยันตัวตน การมีกติกา “ยืนยันซ้ำเสมอ” ในออฟฟิศ คือเกราะที่ถูกที่สุดและได้ผลที่สุด ผมว่ามันเหมือนสมัยก่อนที่เราสอนพนักงานว่า “เจอแบงก์ปลอมต้องส่องดูลายน้ำ” นั่นแหละครับ — ยุคนี้ก็แค่อัปเกรดมาเป็น “เจอเสียงหรือหน้าที่สั่งเรื่องเงิน ต้องยืนยันซ้ำก่อนเสมอ” เท่านั้นเอง เป็นทักษะใหม่ที่ทุกคนในร้านควรมีติดตัว

สาม — เข้าใจขีดจำกัด จะได้ไม่ฝากความเชื่อใจผิดที่

พอรู้ว่า AI มันหลอนได้ มันมโนได้ เราก็จะวางบทบาทมันถูก — ให้มันเป็น “ผู้ช่วยหัวไวที่ต้องมีคนคุม” ไม่ใช่ “ผู้รู้ที่เชื่อได้ร้อยเปอร์เซ็นต์” เงินทุกบาทและความเสี่ยงทุกอย่างก็จะอยู่ในมือเรา ไม่ใช่ลอยไปอยู่ในมือเครื่องที่บางทีก็มั่ว

และอีกมุมที่ผมว่าสำคัญไม่แพ้กันคือ — ควรบอกทีมงานในร้านให้รู้เรื่องนี้ด้วย ไม่ใช่รู้แค่เจ้าของคนเดียว เพราะคนที่มักจะตกเป็นเหยื่อ deepfake หลอกโอนเงินหรือหลอกให้กดลิงก์ ก็คือพนักงานหน้างานที่ไม่รู้ว่าเทคโนโลยีพวกนี้มีอยู่ ถ้าทุกคนในทีมรู้ว่า “เสียงเหมือน-หน้าเหมือน ไม่ได้แปลว่าใช่เสมอ” และรู้ว่าต้องยืนยันซ้ำก่อนทำเรื่องสำคัญ — เกราะป้องกันของทั้งร้านก็จะแข็งแรงขึ้นทันที โดยไม่ต้องลงทุนอะไรเลย แค่ความรู้กับกติกาง่ายๆ เท่านั้นเอง

สรุปสั้นๆ ส่งท้าย#

ถ้าให้ผมย่อทั้งตอนนี้เหลือไม่กี่บรรทัดเอาไว้จำง่ายๆ คือแบบนี้ครับ —

  • Generative AI = AI สายสร้างของใหม่ ไม่ใช่แค่ “ดูแล้วตอบว่าเป็นอะไร” แต่ “เสกรูป/เสียง/ข้อความชิ้นใหม่” ขึ้นมาได้ — เพราะมันดูตัวอย่างมาเยอะมากจนจับ “สูตร” ได้ แล้วเอามาประกอบของใหม่ (เหมือนเด็กที่ดูรูปแมวล้านรูปจนวาดแมวตัวใหม่เองได้)
  • GAN = เอา AI สองตัวมาแข่งกัน ตัวหนึ่งปั้นของปลอม (นักปลอมแบงก์) อีกตัวจับผิด (ตำรวจ) ฟัดกันไปมาจนของปลอมเนียนสุดๆ — และนี่คือต้นกำเนิดของ deepfake
  • Deepfake = ของปลอมที่เนียนเกินไป หน้าปลอม เสียงปลอม คลิปปลอม ที่เอาไปหลอกโอนเงิน ทำลายชื่อเสียง หรือผ่านระบบยืนยันตัวตนได้ — ยุคนี้ “เห็นหน้า-ได้ยินเสียง” ไม่เท่ากับ “ของจริง” อีกต่อไป
  • Hallucination = AI มโนหน้าตาเฉย เดาคำตอบที่ฟังดูน่าจะใช่ แล้วพูดมั่นใจเต็มร้อยทั้งที่ไม่รู้จริง (เหมือนนักเรียนหน้าด้านที่มั่วข้อสอบ) — อันตรายเพราะมัน “ดูเหมือนถูก”
  • กฎทองของเจ้าของกิจการ: ของที่ AI เสกมา = ร่างแรกเสมอ ต้องมีคนเช็คก่อนใช้จริง และเรื่องเงิน/ตัวตน ให้ยืนยันซ้ำเสมอ อย่าเชื่อแค่หน้ากับเสียง

ถ้าจะให้ผมสรุปทั้งหมดเหลือประโยคเดียวจริงๆ คงเป็นแบบนี้ครับ — “Generative AI คือผู้ช่วยที่เสกของใหม่ได้เก่งมาก แต่มันเสกของปลอมได้เนียนพอๆ กัน และมันก็มโนได้หน้าตาเฉย ฉะนั้นใช้มันให้เป็น คุมมันให้อยู่ แล้วอย่ายกหน้าที่ ‘รับรองความจริง’ ให้มันเด็ดขาด — หน้าที่นั้นยังเป็นของเราเสมอ”

ผมไม่ใช่ผู้เชี่ยวชาญด้าน AI อะไรหรอกนะครับ เป็นแค่เจ้าของกิจการคนหนึ่งที่อยากเข้าใจของพวกนี้ให้พอเอาตัวรอดได้ แล้วก็เลยอยากเล่าให้เพื่อนเจ้าของกิจการด้วยกันฟังแบบภาษาคนๆ ตรงไหนผมเข้าใจคลาดเคลื่อนไป ทักท้วงกันเข้ามาได้เลยครับ ยินดีมากๆ

ก่อนจาก ผมอยากฝากแง่คิดเล็กๆ ไว้ครับ — เทคโนโลยีสายสร้างนี้มันไม่ใช่ของน่ากลัวที่ต้องหนี และก็ไม่ใช่ของวิเศษที่เชื่อได้ทุกอย่าง มันก็แค่เครื่องมือทรงพลังชิ้นหนึ่งที่ “เก่งมากแต่ยังเชื่อใจไม่ได้ร้อยเปอร์เซ็นต์” เหมือนเด็กฝึกงานหัวไวที่ผมเปรียบไว้ตลอดทั้งตอน ใครที่เข้าใจมัน วางบทบาทมันถูก และมีกติกาคุมความเสี่ยงไว้ คนนั้นแหละครับที่จะได้ประโยชน์เต็มๆ โดยไม่โดนมันเล่นงานกลับ

ตอนหน้าของซีรีส์ AI 101 ผมว่าจะเล่าเรื่องที่ต่อยอดจากตอนนี้พอดี — ในเมื่อ AI มันมโนได้ขนาดนี้ แล้วเราจะทำยังไงให้มันตอบ “ตรงเรื่อง” และ “เชื่อถือได้” มากขึ้นล่ะ? มีเทคนิคบ้านๆ ที่ช่วยลดอาการหลอนได้อยู่นะครับ ไม่ต้องเขียนโค้ดเป็นด้วย แค่รู้วิธีคุยกับมันให้ถูก ไว้มาเล่ากันตอนหน้า เจอกันครับ