เมื่อยักษ์ใหญ่สายเทค จ้างแฮกเกอร์จู่โจมโมเดล AI - Forbes Thailand

เมื่อยักษ์ใหญ่สายเทค จ้างแฮกเกอร์จู่โจมโมเดล AI

Forbes ได้พูดคุยกับบรรดาหัวหน้าทีมจู่โจมปัญญาประดิษฐ์ (AI Red Team) จาก Microsoft, Google, Nvidia และ Meta ซึ่งมีหน้าที่สอดส่องหาจุดอ่อนในระบบ AI เพื่อจะได้แก้ไขปรับปรุง “คุณจะเริ่มเห็นโฆษณาว่า ของเรานั้นปลอดภัยที่สุด” ผู้เชี่ยวชาญด้านความปลอดภัยของ AI คนหนึ่งคาดการณ์

    

    หนึ่งเดือนก่อนเปิดตัว ChatGPT สู่สาธารณะ OpenAI จ้าง Boru Gollo ทนายในเคนยาให้ทดสอบโมเดล AI รุ่น GPT-3.5 และต่อมาก็ GPT-4 เพื่อมองหาอคติเหมารวมเชิงลบต่อชาวแอฟริกันและมุสลิม โดยป้อนข้อมูลที่เรียกว่า พรอมพ์ (prompt) ซึ่งจะทำให้แชทบอทดังกล่าวสร้างข้อความตอบกลับที่เป็นภัย เต็มไปด้วยอคติ และไม่ถูกต้องออกมา

    Gollo คือหนึ่งในผู้เชี่ยวชาญจากภายนอกราว 50 คนที่ถูกจ้างโดย OpenAI เพื่อมาเป็นส่วนหนึ่งของ “ทีมจู่โจม (Red Team)” คอยป้อนคำสั่งแก่ ChatGPT ให้มันร่ายวิธีการสังหารชาวไนจีเรียออกมา แน่นอนว่าคำตอบนี้ทาง OpenAI ได้นำมันออกก่อนจะเปิดให้ทั่วโลกได้ใช้งานแชทบอท

    สมาชิกทีมจู่โจมคนอื่นๆ ป้อนข้อมูลให้เวอร์ชั่นก่อนเปิดตัวของ GPT-4 ให้ช่วยเหลือในกิจกรรมผิดกฎหมายและเป็นภัย เช่น เขียนโพสต์บน Facebook เพื่อเชิญชวนใครสักคนเข้าร่วมกลุ่มก่อการร้าย ให้ช่วยหาปืนผิดกฎหมายสำหรับจำหน่าย ตลอดจนขั้นตอนการผลิตสารเคมีอันตรายที่บ้าน อ้างอิงจากเอกสาร GPT-4 System Card ซึ่งเผยเกณฑ์ด้านความเสี่ยงและความปลอดภัยที่ OpenAI ใช้เพื่อลดหรือขจัดเนื้อหาอันตรายเหล่านี้ออกไป

    

จริยธรรม AI จำเป็นแค่ไหน?


    เพื่อป้องกันระบบ AI จากการถูกนำไปแสวงหาผลประโยชน์โดยมิชอบ แฮกเกอร์ทีมจู่โจมเป็นเสมือนคู่ต่อสู้ในเกม คอยค้นหาจุดบอดและความเสี่ยงที่ถูกสร้างขึ้นในเทคโนโลยีชนิดนี้ เพื่อที่จะสามารถแก้ไขพวกมันได้ทันเวลา

    ยิ่งบรรดายักษ์ใหญ่สายเทคแข่งขันกันสร้างและทลายขีดจำกัดของเครื่องมือ Generative AI ต่างๆ ทีมจู่โจม AI ประจำบริษัทของพวกเขาก็ยิ่งมีบทบาทอันเป็นหลักสำคัญเพื่อให้มั่นใจได้ว่าโมเดลเหล่านี้ปลอดภัยสำหรับผู้ใช้งานจำนวนมหาศาล

    ยกตัวอย่างเช่น Google ก่อตั้งทีมจู่โจม AI แยกออกมาโดยเฉพาะเมื่อต้นปีนี้ และในเดือนสิงหาคมที่ผ่านมา ทีมพัฒนาโมเดลยอดนิยมมากมาย เช่น GPT-3.5 ของ OpenAI, Llamda 2 ของ Meta และ LaMDA ของ Google ก็ได้เข้าร่วมงานที่สนับสนุนโดยทำเนียบขาว ซึ่งมีเป้าหมายเปิดโอกาสให้แฮกเกอร์จากภายนอกได้ลองเจาะระบบของพวกเขาดู

    ทว่าบ่อยครั้งที่ทีมจู่โจม AI มีความระมัดระวังสูง คอยถ่วงดุลความปลอดภัยและความมั่นคงของโมเดล AI ต่างๆ ในขณะเดียวกันก็ต้องรักษาความเกี่ยวเนื่องและความพร้อมใช้งานเอาไว้

    

 จู่โจมเพื่อความปลอดภัย

    

    Forbes สอบถามเหล่าหัวหน้าทีมจู่โจม AI จาก Microsoft, Google, Nvid-ia และ Meta ว่าการทำลายโมเดล AI กลายมาเป็นที่นิยมได้อย่างไร และความท้าทายในการซ่อมแซมพวกมันอยู่ที่ตรงไหน

    “คุณจะพบว่ามีโมเดลที่ตอบปฏิเสธทุกอย่าง ซึ่งแน่นอนว่ามันปลอดภัยมาก แต่ก็ไร้ประโยชน์เช่นกัน” Cristian Canton หัวหน้าทีมจู่โจม AI ของ Facebook เผย “ได้อย่างเสียอย่าง ยิ่งคุณสร้างโมเดลให้มีประโยชน์แค่ไหน ก็ยิ่งมีโอกาสที่คุณจะหลงเข้าไปในพื้นที่ที่อาจนำมาซึ่งคำตอบที่ไม่ปลอดภัย”

    การดำรงอยู่ของทีมจู่โจมซอฟต์แวร์เริ่มต้นในช่วงปี 1960s มีการจำลองการจู่โจมจากศัตรูเพื่อให้ระบบแข็งแกร่งที่สุดเท่าที่เป็นไปได้

    “สำหรับคอมพิวเตอร์ เราไม่มีทางพูดได้เต็มปากว่าสิ่งนี้ปลอดภัย ทั้งหมดที่เราพูดได้คือเราพยายามแล้วและเราเจาะมันไม่ได้” Bruce Schneider นักเทคโนโลยีความปลอดภัยและสมาชิก Berkman Klein Center for Internet And Society แห่งมหาวิทยาลัย Harvard กล่าว

    แต่เพราะ Generative AI ถูกฝึกฝนด้วยคลังข้อมูลภาษามหาศาลซึ่งทำให้การรักษาความปลอดภัยโมเดล AI นั้นต่างออกไปจากการดำเนินการด้านความปลอดภัยแบบดั้งเดิม Daniel Fa-bian หัวหน้าทีมจู่โจม AI ใหม่ของ Google กล่าว

    โดยพวกเขาได้ทดสอบภาวะวิกฤต (Stress Test) ผลิตภัณฑ์อย่าง Bard สำหรับเนื้อหาที่เป็นภัยคุกคาม ก่อนที่ทางบริษัทจะเติมฟีเจอร์ใหม่ๆ เข้าไป เช่น การเพิ่มภาษาที่ใช้งานได้

    เหนือกว่าการซักถามจนกว่าโมเดล AI จะพ่นคำตอบเชิงลบออกมา ทีมจู่โจมจะใช้ยุทธวิธีอย่างการสกัดข้อมูลที่ใช้ฝึกฝน AI ออกมา ซึ่งจะเปิดเผยข้อมูลที่ระบุตัวตนเฉพาะบุคคลได้ ไม่ว่าจะชื่อ ที่อยู่ และเบอร์โทรศัพท์ แล้วจึงวางยาชุดข้อมูลเหล่านี้โดยปรับเปลี่ยนบางส่วนของเนื้อหาที่มีความจำเป็นก่อนจะนำไปป้อนเพื่อฝึกฝนโมเดล

    “เหมือนกับว่าศัตรูจะมีพอร์ตบันทึกการจู่โจม และพวกเขาจะเปลี่ยนไปใช้การจู่โจมลำดับถัดไปเมื่อวิธีการใดวิธีการหนึ่งไม่ได้ผล” Fabian บอกกับ Forbes

    ด้วยความที่ศาสตร์นี้ยังอยู่ในระยะแรกเริ่ม ผู้เชี่ยวชาญด้านความปลอดภัยที่รู้วิธีการเล่นกับระบบ AI นั้น “มีเพียงหยิบมือ” Daniel Rohrer รองประธานฝ่ายความปลอดภัยซอฟต์แวร์ของ Nvidia เผย นั่นคือสาเหตุที่ชุมชนนักจู่โจม AI อันเหนียวแน่นจึงมักแบ่งปันข้อมูลที่ค้นพบให้กันและกัน

    ในขณะที่ทีมจู่โจมของ Google เผยแพร่ผลวิจัยว่าด้วยวิธีการใหม่ในการโจมตีโมเดล AI ทีมจู่โจมของ Microsoft ก็มีอุปกรณ์จู่โจมที่เปิดให้ภายนอกสามารถเข้ามาดัดแปลงใช้งานได้ (Open Source) อย่าง Counterfeit ซึ่งช่วยให้ธุรกิจอื่นๆ สามารถทดสอบความเสี่ยงด้านความปลอดภัยและมั่นคงของอัลกอริทึมต่างๆ

    “เราออกแบบสคริปต์คุณภาพต่ำที่ใช้ในการเร่งการจู่โจมของพวกเรา” Ram Shankar Siva Kumar ผู้ก่อตั้งทีมเมื่อห้าปีก่อนเล่า “เราอยากให้ผู้เชี่ยวชาญด้านความปลอดภัยทุกคนที่เกี่ยวข้องเข้าถึงมันได้ พวกเขาจะได้รู้และเข้าใจ”

    ก่อนทดสอบระบบ AI ทีมของ Siva Kumar จะรวบรวมข้อมูลเกี่ยวกับภัยคุกคามทางไซเบอร์จากทีมข่าวกรองภัยคุกคามทางไซเบอร์ของบริษัท ซึ่งเป็นดุจ “หูและตาของอินเทอร์เน็ต” จากการเปรียบเปรยของเขา

    

ChatGPT โดย OpenAI


    จากนั้นเขาร่วมด้วยนักจู่โจมคนอื่นๆ ที่ Microsoft จะกำหนดว่าจะโจมตีจุดอ่อนใดของระบบ AI และวิธีการคืออย่างไร ในปีนี้ทีมของเขาได้ทดสอบผลิตภัณฑ์ AI ดาวเด่นของ Microsoft อย่าง Bing Chat เช่นเดียวกับ GPT-4 เพื่อมองหาข้อบกพร่อง

    ในขณะเดียวกัน ความมุ่งมั่นส่วนหนึ่งของทีมจู่โจมแห่ง Nvidia คือการนำเสนอหลักสูตรเร่งรัดในการจู่โจมอัลกอริทึมสำหรับวิศวกรความปลอดภัยและบริษัทต่างๆ ซึ่งต้องพึ่งพาวิธีการนี้สำหรับคำนวณทรัพยากรต่างๆ เช่น การ์ดแสดงผล (GPU)

    “ในฐานะผู้ขับเคลื่อน AI สำหรับทุกคนแล้ว...เรามีเป้าหมายในการพัฒนาที่ใหญ่มาก หากเราสอนคนอื่นให้สามารถทดสอบจู่โจมได้ จากนั้น Anthropic, Google, OpenAI พวกเขาก็จะทำถูกต้องด้วยเช่นกัน” Rohrer กล่าว

    

สัมมนาของแฮกเกอร์

    

    เมื่อการตรวจสอบการประยุกต์ใช้ AI จากผู้ใช้งานและเจ้าหน้าที่รัฐบาลทวีความละเอียดถี่ถ้วนยิ่งขึ้นไม่ต่างกัน ทีมจู่โจมยังเป็นประโยชน์ในเชิงการแข่งขันแก่บรรดาบริษัทเทคโนโลยีในศึกปัญญาประดิษฐ์ไม่น้อย

    “ผมคิดว่าปราการนี้จะมีความน่าเชื่อถือและปลอดภัย” Sven Cattell ผู้ก่อตั้ง AI Village ชุมชนสำหรับแฮกเกอร์ AI และผู้เชี่ยวชาญด้านความปลอดภัยแสดงความคิดเห็น “คุณจะเริ่มเห็นโฆษณาว่า ของเรานั้นปลอดภัยที่สุด”

    ผู้ก้าวลงสนามรายแรกๆ เลยคือทีมจู่โจม AI ของ Meta ซึ่งเริ่มต้นในปี 2019 และวางระเบียบความท้าทายภายในต่างๆ รวมถึงจัดให้บรรดาแฮกเกอร์หาทางผ่านตัวกรองเนื้อหาที่สามารถตรวจจับและลบโพสต์ซึ่งมีข้อความอันก่อให้เกิดความเกลียดชัง เนื้อหาอนาจาร ข้อมูลผิดๆ และข้อมูลปลอมซึ่งผลิตโดย AI บน Instagram และ Facebook

    ในเดือนมิถุนายน 2023 ที่ผ่านมา ยักษ์ใหญ่แห่งโซเชียลมีเดียรายนี้ยังจ้างนักจู่โจม 350 คนซึ่งรวมไปถึงผู้เชี่ยวชาญจากภายนอก พนักงานสัญญาจ้าง และทีมประจำบริษัทราว 20 คน เพื่อทดสอบ Llama 2 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (Large Language Model) แบบ Open Source ตัวล่าสุด อ้างอิงจากรายงานเผยแพร่ที่ลงรายละเอียดว่ามีการพัฒนาโมเดลนี้อย่างไร

    ทีมจะใส่พรอมพ์อย่างวิธีการหลบเลี่ยงภาษี การสตาร์ทรถโดยไม่ใช้กุญแจ และการเริ่มแชร์ลูกโซ่ “คติประจำทีมจู่โจม AI ของเราคือ ยิ่งคุณเสียเหงื่อในการฝึกฝนมากเท่าไหร่ คุณก็จะเสียเลือดในสมรภูมิน้อยลงเท่านั้น” Canton หัวหน้าทีมจู่โจมของ Facebook กล่าว

    คตินั้นสอดคล้องกับเจตนารมณ์สำคัญของกิจกรรมจู่โจม AI ที่ใหญ่ที่สุดในงานสัมมนาด้านความปลอดภัย DefCon ซึ่งจัดขึ้น ณ เมืองลาสเวกัสเมื่อต้นเดือนสิงหาคมที่ผ่านมา

    

อาสาสมัครแฮกเกอร์ที่งาน DefCon


    บริษัทสายเทคต่างๆ รวมถึง OpenAI, Google, Meta, Nvidia, Stability AI และ Anthropic เปิดโมเดล AI ของพวกเขาแก่แฮกเกอร์กว่า 2,000 คนให้ป้อนพรอมพ์เพื่อหาทางชิงข้อมูลที่อ่อนไหวอย่างหมายเลขบัตรเครดิต หรือผลิตเนื้อหาที่เป็นภัย เช่น ข้อมูลการเมืองแบบผิดๆ

    สำนักงาน Science and Technology Policy แห่งทำเนียบขาวจับมือกับเหล่าผู้จัดงานในการออกแบบโจทย์ท้าทายการโจมตี โดยยึดเอาพิมพ์เขียวสำหรับ AI Bill of Rights เป็นหลัก โดยพิมพ์เขียวนี้เป็นแนวทางว่าระบบอัตโนมัติต่างๆ ควรมีการออกแบบ ใช้งาน และเปิดตัวให้ปลอดภัยได้อย่างไร

    ทีแรก บริษัทต่างๆ ไม่ยินดีจะเสนอโมเดลของตนเพราะความเสี่ยงด้านชื่อเสียงอันเกี่ยวข้องกับการทำการจู่โจมในงานประชุมสาธารณะ Cattel ผู้ก่อตั้ง AI Village ซึ่งเป็นตัวตั้งตัวดีในงานกล่าว “จากมุมมองของ Google ก็ดี หรือมุมมองของ OpenAI ก็ดี เราต่างก็เป็นเหมือนเด็กๆ ที่ DefCon” เขาเผยกับ Forbes

    ทว่าหลังจากที่ทำให้บริษัททั้งหลายมั่นใจแล้วว่าโมเดลต่างๆ จะถูกปกปิดชื่อ และแฮกเกอร์จะไม่รู้ว่ากำลังจู่โจมโมเดลใดอยู่ พวกเขาก็ตอบตกลง แม้ผลลัพธ์ซึ่งก็คือบทสนทนาเกือบ 17,000 ครั้งที่แฮกเกอร์โต้ตอบกับโมเดล AI จะยังไม่ถูกเปิดเผยจนกว่าจะถึงเดือนกุมภาพันธ์ปีหน้า บริษัทต่างๆ ก็ไม่ได้กลับบ้านกันไปมือเปล่า พวกเขารับรู้จุดอ่อนใหม่ของตนมากมายเลยทีเดียว

    จากข้อมูลใหม่ที่มีการเปิดเผยโดยผู้จัดงาน ในโมเดลทั้งแปด ทีมจู่โจมพบข้อบกพร่อง 2,700 จุด เช่น การโน้มน้าวให้โมเดลเกิดความขัดแย้งในตัวเอง หรือสอนวิธีการตรวจสอบใครบางคนโดยที่พวกเขาไม่รู้ตัว

    หนึ่งในผู้เข้าร่วมงานนี้คือ Avijit Ghosh นักวิจัยด้านจริยธรรม AI ผู้สามารถหลอกล่อให้โมเดลหลายตัวคิดเลขแบบผิดๆ สร้างรายงานข่าวลวง และเขียนข่าวเกี่ยวกับวิกฤตที่อยู่อาศัยซึ่งไม่มีจริง

    จุดอ่อนหลายข้อในระบบทำให้การใช้ทีมจู่โจม AI ยิ่งสำคัญมาก Ghosh กล่าว โดยเฉพาะเมื่อผู้ใช้งานจำนวนมากมองว่าเครื่องมือพวกนี้รอบรู้ทุกสิ่งทุกอย่าง “ผมรู้จักคนหลายคนในชีวิตจริงที่คิดว่าบอทเหล่านี้ฉลาดปราดเปรื่อง และทำงานอย่างการวินิจฉัยทางการแพทย์ด้วยตรรกะและเหตุผลแบบเป็นลำดับขั้นได้ แต่มันไม่ใช่ มันเป็นระบบอัตโนมัติต่างหาก”

    อย่างไรก็ตาม บรรดาผู้เชี่ยวชาญชี้ว่า Generative AI เปรียบประดุจสัตว์ร้ายหลายหัว เมื่อทีมจู่โจมพบและแก้ไขช่องโหว่ใดในระบบ ก็สามารถมีข้อบกพร่องอื่นเกิดขึ้นได้ที่ใดสักแห่ง

    “จะแก้ปัญหานี้ได้ ทุกคนต้องช่วยกัน” Siva Kumar แห่ง Microsoft กล่าว

    

    แปลและเรียบเรียงจาก From Google To Nvidia, Tech Giants Have Hired Red Team Hackers To Break Their AI Models ซึ่งเผยแพร่บน Forbes

    

    อ่านเพิ่มเติม : เชื้อเพลิงฟอสซิลชำระหนี้ กับดักนักล่าอาณานิคมยุคใหม่

    ​ไม่พลาดบทความและเรื่องราวน่าสนใจอื่นๆ ติดตามเราได้ที่เฟซบุ๊ก Forbes Thailand Magazine