AI 101 EP.05 — Reinforcement Learning — เรียนจากรางวัลและบทลงโทษ

AI 101 — ปัญญาประดิษฐ์ฉบับภาษาคน · Part 1 (เบื้องหลัง: AI ทำงานยังไง) ซีรีส์นี้ผมเขียนให้เจ้าของกิจการกับคนทั่วไปที่ไม่ใช่สาย IT อ่านสนุกๆ แต่ได้ของกลับไปใช้จริง ไม่มีศัพท์ยากๆ ขู่ให้กลัว ตอนนี้เป็นเรื่อง Reinforcement Learning (แปลแบบบ้านๆ คือ “เรียนรู้จากการเสริมแรง” หรือพูดให้เข้าใจง่ายสุดคือ “เรียนแบบลองผิดลองถูก ได้รางวัล/ถูกหัก”) เป็นวิธีเรียนของ AI อีกแบบที่ไม่เหมือนที่เราคุยกันมาก่อนหน้านี้เลย (สารบัญเต็มของซีรีส์จะตามมาทีหลังนะครับ)

ลองนึกภาพคนฝึกหมาดูครับ#

สมมติว่ามีเพื่อนคนนึงเพิ่งได้ลูกหมามาเลี้ยง อยากสอนให้มันนั่งเป็น

วันแรกเพื่อนคนนี้ก็พูดว่า “นั่ง! นั่ง!” ลูกหมาก็มองหน้าตาเฉย ไม่เข้าใจอะไรเลยครับ มันไม่รู้ด้วยซ้ำว่าคำว่า “นั่ง” แปลว่าอะไร เพื่อนเลยลองอีกวิธี คือพอลูกหมาบังเอิญย่อก้นลงนั่งเองเมื่อไหร่ — ปั๊บ! เพื่อนยื่นขนมให้ทันที พร้อมลูบหัวชมว่า “เก่งมาก”

ทำแบบนี้ซ้ำไปเรื่อยๆ ครับ ทุกครั้งที่ลูกหมานั่ง = ได้ขนม ทุกครั้งที่มันทำอย่างอื่น = ไม่ได้อะไร ผ่านไปสักพัก เจ้าลูกหมาก็เริ่ม “จับทาง” ได้เองว่า อ๋อ… ถ้าได้ยินคำว่านั่งแล้วเราย่อก้นลง เดี๋ยวมีของกิน! สุดท้ายมันก็นั่งเป็นโดยที่ไม่มีใครต้องจับขามันกดลงเลยสักครั้ง มันเรียนรู้เองล้วนๆ จากการลองทำแล้วดูว่า “ทำแบบไหนแล้วได้ของดี”

นี่แหละครับคือหัวใจของสิ่งที่ผมจะเล่าวันนี้ — มันคือวิธีที่ AI บางตัว “เรียนรู้” ครับ ไม่ใช่ทุกตัวที่เรียนเหมือนกันนะ AI บางแบบเรียนจากการดูตัวอย่างเยอะๆ ที่มีคนเฉลยให้แล้ว (แบบมีครูสอน) แต่ AI อีกแบบนึง มันเรียนแบบเดียวกับเพื่อนฝึกหมาคนนี้เป๊ะเลย คือ ปล่อยให้มันลองทำเอง ทำดีก็ให้รางวัล ทำพลาดก็ไม่ให้ (หรือหักคะแนน) แล้วมันจะค่อยๆ เก่งขึ้นเอง

ฟังดูง่ายใช่ไหมครับ แต่ของง่ายๆ แบบนี้แหละที่อยู่เบื้องหลังหุ่นยนต์เดินได้ รถที่ขับเอง เกมที่ AI เล่นชนะแชมป์โลก ไปจนถึงฟีดในมือถือที่มันรู้ใจเราจนน่ากลัว ผมจะค่อยๆ เล่าให้ฟังครับ

วิธีเรียนของ AI มีหลายแบบ — วันนี้เราคุยแบบที่ “ไม่มีเฉลย”#

ก่อนจะลงลึก ผมขอปูพื้นนิดนึงให้เห็นภาพรวมก่อน ว่าทำไมวิธีเรียนแบบนี้มันถึงพิเศษ

ลองนึกถึงตอนเราเรียนหนังสือสมัยเด็กดูครับ การเรียนของคนเรามันก็มีหลายสไตล์

แบบแรก คือ มีครูยืนเฉลยให้ทุกข้อ ครูชี้ว่า “รูปนี้คือแมว รูปนี้คือหมา” เราก็ดูตามไปเรื่อยๆ จนจำได้ว่าหน้าตาแบบไหนเรียกแมว แบบไหนเรียกหมา วิธีนี้ในวงการ AI เขาเรียกว่า Supervised Learning (“การเรียนแบบมีครูคุม” คือมีคนเฉลยคำตอบที่ถูกให้ดูเป็นตัวอย่างเยอะๆ)

แบบที่สอง คือ ไม่มีครูเฉลย แต่ให้ลองจัดกลุ่มเอง เหมือนเทตะกร้าของเล่นกองรวมกันแล้วบอกว่า “ไปจัดให้เป็นพวกๆ มา” เด็กก็อาจแยกของกลมไว้กอง ของเหลี่ยมไว้กอง โดยไม่มีใครบอกว่าถูกหรือผิด แค่ดูว่าอะไรคล้ายกัน วิธีนี้เรียกว่า Unsupervised Learning (“การเรียนแบบไม่มีครูคุม” หา pattern เองจากข้อมูลดิบๆ)

แต่ที่เราจะคุยกันวันนี้คือแบบที่สาม ซึ่งต่างออกไปเลย คือ ไม่มีใครเฉลยให้ ไม่มีใครบอกว่าถูกหรือผิด มีแค่ “คะแนน” ที่ได้หลังจากลงมือทำไปแล้ว เหมือนตอนเล่นเกมครับ เกมไม่เคยบอกเราหรอกว่า “เดินซ้ายสิถูก” มันแค่ให้เราเล่นไปเรื่อยๆ ทำดีก็ได้แต้ม ทำพลาดก็เสียเลือดหรือเกมโอเวอร์ แล้วเราก็ค่อยๆ เก่งขึ้นเองจากการลองเล่นซ้ำๆ นี่แหละครับ Reinforcement Learning ตัวจริง

วิธีเรียน	เปรียบเหมือน	ใครบอกว่าถูกผิด
Supervised Learning	ครูชี้เฉลยให้ทุกข้อ “นี่แมว นี่หมา”	มีครูเฉลยตรงๆ
Unsupervised Learning	เทของกองรวมแล้วให้จัดเป็นพวกๆ เอง	ไม่มีใครบอก แค่ดูว่าอะไรคล้ายกัน
Reinforcement Learning	เล่นเกม / ฝึกหมา — ลองทำแล้วดูคะแนน	ไม่มีใครเฉลย มีแค่รางวัล/บทลงโทษหลังลงมือ

เห็นความต่างไหมครับ สองแบบบนมันเหมือนนั่งเรียนในห้อง มีคนป้อนข้อมูลให้ แต่แบบล่างสุดมันเหมือน “โยนลงสนามจริงแล้วให้ไปเรียนเอาจากการเจ็บตัว” ครับ

หัวใจของมันมีแค่ 3 อย่าง — ลองทำ, ดูผล, จำไว้#

ทีนี้ผมจะแกะให้ดูว่าเจ้าวิธีเรียนแบบนี้มันทำงานยังไง จริงๆ มันมีแค่ 3 ชิ้นส่วนหลักครับ ไม่ซับซ้อนเลย ผมจะใช้เพื่อนฝึกหมาคนเดิมเป็นตัวอย่างนะครับ

หนึ่ง คือมี “ผู้เล่น” ที่ลงมือทำ ในเคสฝึกหมาก็คือเจ้าลูกหมานั่นแหละ ในวงการ AI เขาเรียกตัวที่ลงมือทำนี้ว่า agent (“ตัวกระทำ” หรือนึกง่ายๆ ว่า “ผู้เล่น” ในเกม) เจ้าตัวนี้แหละที่จะค่อยๆ เก่งขึ้น

สอง คือมี “สนาม” ให้มันลองทำ ก็คือบ้านกับเพื่อนที่คอยยื่นขนม สนามนี้ในวงการเรียกว่า environment (“สภาพแวดล้อม” หรือ “สนามที่ผู้เล่นไปวิ่งเล่น”) ผู้เล่นจะลองทำอะไรลงไปในสนามนี้ แล้วสนามก็ตอบกลับมาว่าผลเป็นยังไง

สาม คือมี “คะแนน” ที่ได้กลับมา พอลูกหมานั่ง มันได้ขนม (= คะแนนบวก) พอมันไปกัดรองเท้า มันโดนดุ (= คะแนนลบ) เจ้าคะแนนตัวนี้แหละครับคือพระเอกของเรื่องนี้ ในวงการเรียกว่า reward (“รางวัล” หรือ “คะแนน” ที่ได้หลังลงมือทำ) ถ้าเป็นบวกแปลว่า “ดีแล้ว ทำต่อไป” ถ้าเป็นลบแปลว่า “ไม่เอานะ อย่าทำ”

วงจรของมันก็วนแบบนี้ไปเรื่อยๆ ครับ

1
  ผู้เล่น (agent)
2
       |
3
       | ลองทำอะไรสักอย่าง
4
       v
5
  สนาม (environment)
6
       |
7
       | ตอบกลับมาเป็น "คะแนน" (reward)
8
       v
9
  ผู้เล่นจำไว้: "ทำแบบนี้ได้คะแนนดี → ทำอีก"
10
       |              "ทำแบบนี้โดนหัก → เลิกทำ"
11
       |
12
       +---------> วนกลับไปลองใหม่ เก่งขึ้นทีละนิด

วนแบบนี้เป็นพันเป็นหมื่นรอบ ทีละนิดๆ เจ้าผู้เล่นก็จะค่อยๆ “จับทาง” ได้เองว่าทำแบบไหนถึงจะได้คะแนนเยอะที่สุด เหมือนเราเล่นเกมด่านยากๆ ตายแล้วตายอีก สุดท้ายก็ผ่านได้เพราะจำได้ว่าตรงไหนต้องหลบ ตรงไหนต้องกระโดด — โดยไม่มีใครมาบอกเราเลยสักคำ เราเรียนเอาจากการตายซ้ำๆ ล้วนๆ

💡 มุมเจ้าของกิจการ: จำ 3 คำนี้ไว้พอครับ — ผู้เล่น (agent), สนาม (environment), คะแนน (reward) เวลามี vendor มาเล่าเรื่อง AI ที่ “เรียนรู้เองได้จากการลองทำ” แล้วใช้ศัพท์พวกนี้ คุณจะรู้ทันทีว่าเขากำลังพูดถึงวิธีเรียนแบบนี้ และคำถามที่ดีที่สุดคือ “แล้วคุณตั้ง คะแนน ให้มันยังไง?” — เพราะคะแนนคือสิ่งเดียวที่กำหนดว่ามันจะเก่งไปในทิศไหน เดี๋ยวผมจะเล่าว่าทำไมตรงนี้ถึงสำคัญมาก

ทำไม “ตั้งคะแนน” ถึงเป็นเรื่องคอขาดบาดตาย#

ตรงนี้สำคัญมากครับ ผมขอเน้นเลย เพราะมันคือจุดที่คนทำพลาดกันบ่อยที่สุด และเป็นจุดที่เจ้าของกิจการควรเข้าใจไว้

เจ้าผู้เล่น AI นี่มันไม่มีศีลธรรม ไม่มีสามัญสำนึก ไม่รู้ว่าอะไรควรอะไรไม่ควรนะครับ มันรู้แค่อย่างเดียวคือ “ทำยังไงให้ได้คะแนนเยอะที่สุด” เท่านั้นเลย มันจะไล่ล่าคะแนนแบบไม่สนอะไรทั้งสิ้น เพราะฉะนั้นถ้าเราตั้งคะแนนผิด มันก็จะเก่งผิดทางทันที

ลองนึกภาพแบบนี้ครับ สมมติเราอยากฝึก AI หุ่นยนต์ดูดฝุ่นให้เก็บบ้านให้สะอาด เราเลยตั้งคะแนนว่า “เก็บขยะได้ 1 ชิ้น = ได้ 1 คะแนน” ฟังดูดีใช่ไหมครับ แต่เจ้าหุ่นเจ้าเล่ห์มันอาจจะค้นพบทางลัดที่เราไม่ได้คิดถึง — คือมันอาจเรียนรู้ว่า “ถ้าฉันเขี่ยขยะกองเดิมออกมาเกลื่อนพื้น แล้วเก็บใหม่ ฉันก็ได้คะแนนเพิ่มเรื่อยๆ นี่!” สุดท้ายแทนที่บ้านจะสะอาด มันกลับวนเขี่ยขยะออกมาเก็บไปเก็บมาอยู่นั่นแหละ เพราะนั่นคือวิธีตุนคะแนนที่ง่ายที่สุดสำหรับมัน (ย้ำว่านี่เป็นฉาก สมมติ ที่ผมแต่งขึ้นให้เห็นภาพนะครับ ไม่ใช่เคสจริงของหุ่นรุ่นไหน)

เห็นไหมครับว่ามันทำตามคะแนนเป๊ะเลย — แต่ไม่ได้ทำในสิ่งที่เรา “ตั้งใจ” จะให้ทำ ปัญหาไม่ได้อยู่ที่ AI โง่ ปัญหาอยู่ที่เราตั้งคะแนนไม่ครอบคลุม

นี่คือเหตุผลที่คนสายนี้เขาบอกว่า การออกแบบ “คะแนน” หรือที่ศัพท์เรียกว่า reward เนี่ย เป็นงานที่ยากที่สุดของวิธีเรียนแบบนี้เลยครับ เพราะคุณต้องคิดให้รอบจริงๆ ว่าจะให้รางวัลกับอะไร ไม่งั้นเจ้าผู้เล่นมันจะหาทางลัดที่คุณคาดไม่ถึงมาโกงคะแนนจนได้ เหมือนเด็กที่เราบอกว่า “อ่านหนังสือจบเล่มแล้วให้รางวัล” แล้วเด็กก็เปิดผ่านๆ ทุกหน้าให้จบเล่มเฉยๆ โดยไม่ได้อ่านอะไรเลย 555+

มันต้องแลกกันระหว่าง “ลองของใหม่” กับ “เอาของที่รู้ว่าได้ผล”#

มีอีกเรื่องนึงที่ผมว่าน่าสนใจมาก และมันใกล้ตัวเรากว่าที่คิดครับ

เวลาเจ้าผู้เล่น AI กำลังเรียนรู้ มันจะเจอทางสองแพร่งตลอดเวลา

ทางแรก: เล่นท่าเดิมที่รู้อยู่แล้วว่าได้คะแนน ปลอดภัย ได้แต้มชัวร์ แต่ก็ไม่มีทางเจอของที่ดีกว่า

ทางสอง: ลองท่าใหม่ที่ไม่เคยทำ เสี่ยงว่าอาจจะพังได้แต้มน้อย แต่ก็มีโอกาสไปเจอทางที่ดีกว่าเดิมมากๆ

ลองนึกถึงตัวเองตอนไปร้านอาหารที่ชอบดูครับ มีเมนูนึงที่เราสั่งประจำ อร่อยชัวร์ไม่มีพลาด นั่นคือ “เล่นท่าเดิม” แต่บางวันเราก็อยากลองเมนูใหม่ที่ไม่เคยกิน เสี่ยงว่าอาจจะไม่อร่อย แต่ก็อาจเจอเมนูในดวงใจอันใหม่ก็ได้ นั่นคือ “ลองของใหม่”

ในวงการ AI เขาเรียกสองอย่างนี้ว่า exploitation (“ใช้ของที่รู้ว่าได้ผลแล้ว” เล่นท่าเดิมที่ชัวร์) กับ exploration (“ออกสำรวจของใหม่” ลองท่าที่ไม่เคยทำ) เจ้าผู้เล่นที่ดีต้องบาลานซ์สองอย่างนี้ให้พอดี ถ้าเอาแต่เล่นท่าเดิม มันจะติดอยู่กับ “ดีพอประมาณ” ไม่มีวันเก่งขึ้น แต่ถ้าเอาแต่ลองของใหม่มั่วไปเรื่อย ก็จะไม่ได้สะสมแต้มอะไรเลย

ผมว่าตรงนี้มันสอนใจดีนะครับ ชีวิตคนเราก็คล้ายๆ กัน บางทีก็ต้องกล้าลองของใหม่บ้าง ไม่งั้นก็ติดอยู่ที่เดิม 555+

แล้วของจริงมันใช้ที่ไหนบ้าง#

ทีนี้มาถึงส่วนที่สนุกที่สุด — เจ้าวิธีเรียนแบบลองผิดลองถูกนี้ มันไม่ได้อยู่แค่ในตำราเลยครับ มันอยู่รอบตัวเราเต็มไปหมด ผมจะยกตัวอย่างที่เห็นชัดๆ 3 กลุ่มใหญ่

1. เกม — สนามฝึกที่ AI โชว์ของได้ดีที่สุด#

เกมเป็นสนามที่เหมาะกับวิธีเรียนแบบนี้สุดๆ ครับ เพราะมันมีกฎชัดเจน มีคะแนนชัดเจน และที่สำคัญคือ AI เล่นซ้ำได้เป็นล้านๆ รอบโดยไม่เหนื่อย ไม่เบื่อ ไม่ต้องนอน

เรื่องที่ดังที่สุดในวงการคือมี AI ที่เก่งหมากกระดานอย่างหมากล้อม (โกะ) จนเอาชนะแชมป์โลกที่เป็นมนุษย์ได้ ซึ่งสมัยก่อนคนคิดว่าเป็นไปไม่ได้ เพราะหมากล้อมมันซับซ้อนมากเกินกว่าจะคำนวณท่าเดินทุกแบบไหว แต่เจ้า AI ตัวนี้มันไม่ได้ใช้วิธีคำนวณทุกท่า มันใช้วิธี เล่นกับตัวเองซ้ำๆ นับไม่ถ้วน ทุกครั้งที่ชนะก็จำไว้ว่าเดินแบบนั้นดี ทุกครั้งที่แพ้ก็จำว่าเดินแบบนั้นไม่ดี จนสุดท้ายมันค้นพบท่าเดินใหม่ๆ ที่แม้แต่เซียนมนุษย์ที่ฝึกมาทั้งชีวิตยังไม่เคยคิดถึง

นี่แหละครับพลังของการลองผิดลองถูกแบบไม่รู้จักเหนื่อย คนเราถ้าเล่นหมากล้อมวันละหลายชั่วโมงก็เก่งได้ระดับนึง แต่ AI มันเล่นได้เท่ากับคนเล่นเป็นพันๆ ปีรวมกันภายในเวลาไม่กี่วัน เลยไปได้ไกลกว่ามาก

2. หุ่นยนต์ — สอนให้เดิน หยิบ จับ โดยไม่ต้องเขียนกฎทุกท่า#

อันนี้ใกล้ตัวขึ้นมาหน่อย ลองนึกถึงหุ่นยนต์ที่ต้องเดินบนพื้นขรุขระ หรือต้องหยิบของรูปร่างแปลกๆ ดูครับ

ถ้าเป็นสมัยก่อน วิศวกรต้องนั่งเขียนกฎทุกอย่างเองเป๊ะๆ ว่า “ขาซ้ายยกองศานี้ ขาขวาลงตรงนี้ น้ำหนักเอียงเท่านี้” ซึ่งมันยากมากและเขียนไม่หมด เพราะพื้นจริงมันไม่เรียบเหมือนในตำรา เจอก้อนหินนิดเดียวก็ล้มแล้ว

แต่พอใช้วิธีเรียนแบบลองผิดลองถูก เราแค่บอกหุ่นว่า “เดินไปข้างหน้าได้ไกล = ได้คะแนน ล้ม = โดนหัก” แล้วปล่อยให้มันลองเดินเอง ล้มแล้วล้มอีกเป็นพันๆ ครั้ง (ส่วนใหญ่เขาให้ล้มในคอมพิวเตอร์ก่อน จะได้ไม่พังของจริง) สุดท้ายมันก็ค่อยๆ หาวิธีทรงตัวและก้าวขาที่เวิร์กที่สุดได้เอง — โดยที่ไม่มีใครต้องมานั่งสอนทีละองศา

มันเหมือนเด็กหัดเดินเป๊ะเลยครับ ไม่มีพ่อแม่คนไหนนั่งสอนลูกว่า “ยกขาองศานี้นะลูก” เด็กมันล้มเอง ลุกเอง ลองเอง จนเดินได้เองนั่นแหละ

3. ฟีดคอนเทนต์ที่เราเลื่อนดูทุกวัน — อันนี้ใกล้ตัวที่สุด#

อันนี้แหละครับที่ผมว่าทุกคนน่าจะอินที่สุด เพราะมันอยู่ในมือถือเราทุกคนเลย

เคยสงสัยไหมครับว่าทำไมพอเราเลื่อนดูคลิปสั้นในแอปต่างๆ ไปสักพัก มันถึงเริ่ม “รู้ใจ” เราจนน่ากลัว เลื่อนๆ ไปเจอแต่คลิปที่เราชอบ จนวางมือถือไม่ลง? เบื้องหลังส่วนหนึ่งก็คือวิธีเรียนแบบลองผิดลองถูกนี่แหละครับ

ลองคิดตามนะครับ ในมุมของระบบแนะนำคอนเทนต์ มันทำงานประมาณนี้

มันลองยื่นคลิปนึงให้เราดู (= ลองทำ)
ถ้าเราดูจนจบ หรือกดไลก์ หรือดูซ้ำ = มันได้ “คะแนนบวก” (อ๋อ คนนี้ชอบแนวนี้)
ถ้าเราปัดผ่านเร็วๆ ไม่ถึงวินาที = มันได้ “คะแนนลบ” (แนวนี้ไม่เวิร์กกับคนนี้)

แล้วมันก็เอาคะแนนพวกนี้มาปรับว่าจะยื่นคลิปแบบไหนให้เราต่อ วนแบบนี้ไปทุกครั้งที่เราเลื่อน คูณด้วยคนใช้งานเป็นล้านๆ คน มันเลยเก่งขึ้นเรื่อยๆ ในการ “เดาว่าเราอยากดูอะไรต่อ”

นี่คือเหตุผลที่ฟีดของแต่ละคนหน้าตาไม่เหมือนกันเลยครับ เพราะมันเรียนรู้จาก “คะแนน” ที่เราแต่ละคนให้มันผ่านพฤติกรรมการเลื่อนนั่นเอง เราไม่เคยบอกมันตรงๆ ว่าชอบอะไร แต่มันอ่านออกจากการกระทำของเรา

💡 มุมเจ้าของกิจการ: ถ้าธุรกิจคุณมีคอนเทนต์ มีสินค้าหลายแบบ หรือมีหน้าฟีดให้ลูกค้าเลื่อนดู — เข้าใจตรงนี้ไว้จะมีประโยชน์มากครับ ระบบแนะนำสินค้า/คอนเทนต์สมัยใหม่หลายเจ้าทำงานบนหลักการนี้ คือมัน “ลองยื่นของให้ดู แล้ววัดปฏิกิริยา” ฉะนั้นทุกการคลิก ทุกการปัดผ่านของลูกค้า มันคือ “คะแนน” ที่กำลังสอนระบบอยู่ตลอดเวลา ของพวกนี้ยิ่งมีคนใช้เยอะ ยิ่งมีข้อมูลให้เรียน มันยิ่งแม่นขึ้น — เป็นเหตุผลนึงที่เจ้าใหญ่ๆ ได้เปรียบ เพราะเขามี”สนาม”ให้ AI ฝึกใหญ่กว่า

ข้อควรระวัง — ของดีแต่ไม่ใช่ยาวิเศษ#

ผมไม่อยากให้อ่านจบแล้วคิดว่าวิธีนี้คือคำตอบของทุกอย่างนะครับ มันมีจุดอ่อนที่ควรรู้ไว้

หนึ่ง — มันต้องลองเยอะมากๆ ถึงจะเก่ง อย่างที่เล่าไปครับว่าต้องลองเป็นพันเป็นหมื่นเป็นล้านรอบ ในเกมหรือในคอมพิวเตอร์ทำได้ง่ายเพราะรีเซ็ตเล่นใหม่ได้ฟรีๆ แต่ในโลกจริงบางงานมัน “ลองพลาด” ไม่ได้ เช่น คุณจะให้รถยนต์ลองขับชนเป็นพันครั้งเพื่อเรียนรู้ไม่ได้ใช่ไหมครับ มันเลยต้องไปฝึกในโลกจำลองก่อน ซึ่งก็ไม่เหมือนของจริงร้อยเปอร์เซ็นต์

สอง — ถ้าตั้งคะแนนพลาด มันเก่งผิดทาง เรื่องนี้ผมเล่าไปแล้วตอนหุ่นดูดฝุ่นเขี่ยขยะ ขอย้ำอีกที เพราะมันคือกับดักที่เจอบ่อยจริงๆ

สาม — มันอธิบายเหตุผลตัวเองไม่ค่อยได้ เจ้าผู้เล่นมันรู้แค่ว่า “ทำแบบนี้แล้วได้คะแนนดี” แต่ถ้าถามมันว่า “ทำไมถึงเลือกทำแบบนั้น” มันมักตอบไม่ได้เป็นภาษาคน เหมือนเซียนเกมที่เล่นเก่งมากแต่อธิบายไม่ถูกว่าทำไมตรงนั้นถึงต้องเดินแบบนั้น มันรู้สึกได้แต่พูดไม่ออก — ตรงนี้เป็นเรื่องที่ทำให้บางงานที่ต้องการคำอธิบายชัดๆ (เช่น งานที่เกี่ยวกับกฎหมายหรือการแพทย์) ยังต้องระมัดระวังในการใช้

สรุปสั้นๆ ส่งท้าย#

ถ้าให้ผมย่อทั้งเรื่องนี้เหลือไม่กี่บรรทัดเอาไว้จำง่ายๆ คือแบบนี้ครับ —

Reinforcement Learning = เรียนแบบลองผิดลองถูก ทำดีได้รางวัล ทำพลาดถูกหัก แล้วค่อยๆ เก่งขึ้นเอง เหมือนฝึกหมาเล่นกล หรือเล่นเกมจนผ่านด่าน
หัวใจมี 3 อย่าง — ผู้เล่น (agent) ที่ลงมือทำ, สนาม (environment) ที่ให้ลองทำ, และคะแนน (reward) ที่บอกว่าทำดีหรือทำแย่
คะแนนคือทุกอย่าง ตั้งคะแนนผิด มันก็เก่งผิดทางทันที เพราะมันไล่ล่าคะแนนอย่างเดียว ไม่มีสามัญสำนึก
มันต้องบาลานซ์ ระหว่างเล่นท่าเดิมที่ชัวร์ (exploitation) กับลองท่าใหม่ที่เสี่ยง (exploration)
ใช้จริงเยอะมาก — เกมที่ชนะแชมป์โลก, หุ่นยนต์ที่หัดเดินเอง, และฟีดในมือถือที่รู้ใจเราจากการที่เราเลื่อนดู
ไม่ใช่ยาวิเศษ ต้องลองเยอะ ตั้งคะแนนยาก และอธิบายเหตุผลตัวเองไม่ค่อยได้

ผมไม่ใช่ผู้เชี่ยวชาญด้าน AI อะไรหรอกนะครับ เป็นแค่เจ้าของกิจการคนนึงที่อยากเข้าใจเรื่องพวกนี้ แล้วก็เลยนั่งหาความเข้าใจเองทีละนิด แล้วเอามาเล่าให้เพื่อนๆ ฟังแบบภาษาคนๆ ตรงไหนผมเข้าใจคลาดเคลื่อนไป ทักท้วงกันเข้ามาได้เลยนะครับ ยินดีมากๆ

ตอนหน้าของซีรีส์ AI 101 ผมว่าจะเล่าเรื่องที่หลายคนน่าจะสงสัยต่อ — ในเมื่อ AI มันเรียนรู้จากข้อมูลที่เราป้อนให้ แล้วถ้าข้อมูลที่ป้อนมันเอนเอียงหรือมีอคติตั้งแต่แรกล่ะ? AI มันจะเอนเอียงตามไปด้วยไหม แล้วเราจะรู้ได้ยังไง ไว้เจอกันตอนหน้าครับ