News & Update

iOS 11 มีการปรับการออกเสียงของ Siri ใกล้เคียงมนุษย์มากขึ้น

โดย bankkung

28 August 2017 1:57 pm

Apple ได้ตีพิมพ์เอกสารวิจัยบนเว็บของตัวเองเรื่อง Deep Learning หนึ่งในนั้นคือการปรับเสียงของ Siri ให้ใกล้เคียงมนุษย์มาก ถือเป็นเรื่องดีสำหรับผู้ใช้งาน iOS

Apple ได้ตีพิมพ์เอกสารวิจัยบนเว็ปของตัวเองเรื่อง Deep Learning หนึ่งในนั้นคือการปรับเสียงของ Siri ให้ใกล้เคียงมนุษย์มากขึ้น

Siri ที่มีความเป็นมนุษย์มากขึ้น?

เชื่อว่าหลายๆ คนน่าจะเคยใช้งาน สิริ กันมาบ้างสักครั้งแล้ว โดยเสียงของเลขาดิจิตอลนี้ออกไปในทางหุ่นยนต์นิ่งๆ เสียมากกว่าจะเหมือนมนุษย์พูด แต่สถานการณ์จะเปลี่ยนไปใน iOS 11 เนื่องจาก Apple ได้พัฒนาโมเดล Deep Learning เพื่อทำความเข้าใจในการออกเสียงแบบมนุษย์ และให้วิศวกรนำไปปรับใช้กับสิริเพื่อให้การออกเสียงเหมือนมนูษย์มากยิ่งขึ้น

กระบวนการออกเสียงของสิรินั้นก็เหมือนกับการสังเคราะห์เสียงอื่นๆ คือจะต้องจับผู้เชี่ยวชาญไปอ่านออกเสียงหลายๆ คำ หลากหลายรูปแบบ ซึ่งกระบวนการนี้กินระยะเวลาราวๆ 10 – 20 ชั่วโมง

แน่นอนว่าคำที่อัดนั้นไม่ว่าจะมากสักเท่าใดก็ไม่มีทางครอบคลุมคำทุกคำ และการออกเสียงทุกๆ อย่างได้ ดังนั้นระบบจะต้องประเมินโทนเสียงต่างๆ แล้วนำมาผสมเป็นคำใหม่ๆ เวลาที่มีการสะกดคำที่ไม่มีอยู่ในระบบ

หลักการที่ใช้ในการพัฒนาสิริให้ออกเสียงมีความใกล้เคียงกับมนุษย์มากขึ้น

การประเมินและออกเสียงคำศัพท์ใหม่ไม่ใช่เรื่องง่ายเนื่องจากเสียงที่อัดเอาไว้อาจจะเป็นเสียงคนละโทนกัน ซึ่งการเชื่อมคำเหล่านี้สามารถจัดการได้ด้วยกระบวนการทางคณิตศาสตร์และวิทยาศาสตร์ข้อมูล โดยโมเดลที่มักจะใช้สร้างเสียงสังเคราะห์ก็คือ HMM (Hidden Markov Model)

ทาง Apple ได้พัฒนาโมเดลสถิติแบบใหม่ที่นำไปใช้กับระบบสังเคราะห์เสียงของปัญญาประดิษฐ์ โดยใช้ DNNs (Deep Neural Networks) เข้าช่วยทำสถิติ เกิดขึ้นเป็นโมเดล MDN (Mixure Density Network) ซึ่งเป็นการประมวลผลจากข้อมูลของ Deep Learning และ Gaussian Mixure Models (GMM) ทำให้แตกต่างจากสมัยก่อนที่ใช้โมเดลอย่างมากจนผู้ฟังรู้สึกได้

แน่นอนว่าเอกสารที่ตีพิมพ์นั้นผู้อ่านที่จะได้รับประโยชน์ที่สุดคงหนีไม่พ้นบรรดานักวิจัยด้านปัญญาประดิษฐ์ แต่ก็ไม่ได้แปลว่าผู้ใช้งานทั่วไป และนักพัฒนาซอฟท์แวร์จะไม่ได้รับประโยชน์เสียทีเดียว อย่างน้อยเราๆ ก็จะได้สิริที่ออกเสียงใกล้เคียงมนุษย์มากขึ้นในเวอร์ชันหน้าเลยนะ

สุดท้ายนี้ขอทิ้งท้ายด้วยตัวอย่างเสียง สิริ จาก iOS 9 / iOS 10 และ iOS 11 จากเว็บของ Apple ให้ฟังกันดูว่าแตกต่างกันแค่ไหนครับ