Apple ได้ตีพิมพ์เอกสารวิจัยบนเว็ปของตัวเองเรื่อง Deep Learning หนึ่งในนั้นคือการปรับเสียงของ Siri ให้ใกล้เคียงมนุษย์มากขึ้น
Siri ที่มีความเป็นมนุษย์มากขึ้น?
เชื่อว่าหลายๆ คนน่าจะเคยใช้งาน สิริ กันมาบ้างสักครั้งแล้ว โดยเสียงของเลขาดิจิตอลนี้ออกไปในทางหุ่นยนต์นิ่งๆ เสียมากกว่าจะเหมือนมนุษย์พูด แต่สถานการณ์จะเปลี่ยนไปใน iOS 11 เนื่องจาก Apple ได้พัฒนาโมเดล Deep Learning เพื่อทำความเข้าใจในการออกเสียงแบบมนุษย์ และให้วิศวกรนำไปปรับใช้กับสิริเพื่อให้การออกเสียงเหมือนมนูษย์มากยิ่งขึ้น
กระบวนการออกเสียงของสิรินั้นก็เหมือนกับการสังเคราะห์เสียงอื่นๆ คือจะต้องจับผู้เชี่ยวชาญไปอ่านออกเสียงหลายๆ คำ หลากหลายรูปแบบ ซึ่งกระบวนการนี้กินระยะเวลาราวๆ 10 – 20 ชั่วโมง
แน่นอนว่าคำที่อัดนั้นไม่ว่าจะมากสักเท่าใดก็ไม่มีทางครอบคลุมคำทุกคำ และการออกเสียงทุกๆ อย่างได้ ดังนั้นระบบจะต้องประเมินโทนเสียงต่างๆ แล้วนำมาผสมเป็นคำใหม่ๆ เวลาที่มีการสะกดคำที่ไม่มีอยู่ในระบบ
หลักการที่ใช้ในการพัฒนาสิริให้ออกเสียงมีความใกล้เคียงกับมนุษย์มากขึ้น
การประเมินและออกเสียงคำศัพท์ใหม่ไม่ใช่เรื่องง่ายเนื่องจากเสียงที่อัดเอาไว้อาจจะเป็นเสียงคนละโทนกัน ซึ่งการเชื่อมคำเหล่านี้สามารถจัดการได้ด้วยกระบวนการทางคณิตศาสตร์และวิทยาศาสตร์ข้อมูล โดยโมเดลที่มักจะใช้สร้างเสียงสังเคราะห์ก็คือ HMM (Hidden Markov Model)
ทาง Apple ได้พัฒนาโมเดลสถิติแบบใหม่ที่นำไปใช้กับระบบสังเคราะห์เสียงของปัญญาประดิษฐ์ โดยใช้ DNNs (Deep Neural Networks) เข้าช่วยทำสถิติ เกิดขึ้นเป็นโมเดล MDN (Mixure Density Network) ซึ่งเป็นการประมวลผลจากข้อมูลของ Deep Learning และ Gaussian Mixure Models (GMM) ทำให้แตกต่างจากสมัยก่อนที่ใช้โมเดลอย่างมากจนผู้ฟังรู้สึกได้
แน่นอนว่าเอกสารที่ตีพิมพ์นั้นผู้อ่านที่จะได้รับประโยชน์ที่สุดคงหนีไม่พ้นบรรดานักวิจัยด้านปัญญาประดิษฐ์ แต่ก็ไม่ได้แปลว่าผู้ใช้งานทั่วไป และนักพัฒนาซอฟท์แวร์จะไม่ได้รับประโยชน์เสียทีเดียว อย่างน้อยเราๆ ก็จะได้สิริที่ออกเสียงใกล้เคียงมนุษย์มากขึ้นในเวอร์ชันหน้าเลยนะ
สุดท้ายนี้ขอทิ้งท้ายด้วยตัวอย่างเสียง สิริ จาก iOS 9 / iOS 10 และ iOS 11 จากเว็บของ Apple ให้ฟังกันดูว่าแตกต่างกันแค่ไหนครับ
ที่มา – Phone Arena, Apple