13.07.2015 Views

ระบบโทรศัพทเคลื่อนที่รุนที่3 (IMT-2000) - Nectec

ระบบโทรศัพทเคลื่อนที่รุนที่3 (IMT-2000) - Nectec

ระบบโทรศัพทเคลื่อนที่รุนที่3 (IMT-2000) - Nectec

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

7ตารางที่ 1 พารามิเตอรพื้นฐานของFDD และ TDD ใน UTRA และ ใน WCDMA ARIBโครงสราง UTRA ของ ETSI SMG โครงสราง WCDMA ของARIBUTRA FDD UTRA FDD WDMA FDD WDMA TDDระบบการจัดชองสัญญาณ WCDMA (DS-CDMA) TD-CDMA WCDMA (DS-CDMA) TD-CDMAอัตราเร็วชิป (chip rate) 4.096 Mchips/s 4.096 Mchips/s 4.0961.024/8.192/16.384)Mchips/sความกวางของแถบความถี่ 5 MHz 5 MHz 5 MHz 5 MHzความยาวกรอบ 10 ms 10 ms 10 ms 10 msวิธีการมอดูเลทขอมูล QPSK QPSK QPSK QPSKวิธีการมอดูเลท spreading QPSK QPSK QPSK/HPSK QPSKdownlink / uplinkระยะหางของชองเวลา 625 us 625 us 625 us 625 usรูปรางของพัลซ 0.22 0.22 0.22 0.224.0961.024/8.192/16.384)Mchs/sการสงขอเสนอสํ าหรับ <strong>IMT</strong>-<strong>2000</strong> ไปยัง ITU-R จากภาคพื้นอเมริกานั้นมีอยูดวยกัน 4 ขอเสนอคือWCDMA-NA จาก T1P1 WIMS จาก TR 46.1(TIA) UWC จาก TR45.3 (TIA) และ cdma <strong>2000</strong> จาก TR45.5 (TIA) ตอมา WCDMA-NA และ WIMS ไดรวมกันเปน WP-CDMA และจัดสงไปยัง ITU-R WP-CDMA จึงเปนอีกขอเสนอหนึ่งที่ใชเทคโนโลยีของWCDMA เมื่อ T1 สงขอเสนอไปยัง ITU-R จึงนับไดวาอเมริกาก็เปนอีกหนึ่งในสมาชิกของ 3GPPอเมริกาไมเพียงแตเปนหนึ่งสมาชิกของ 3GPPเทานั้น อีกดานหนึ่งการทํ างานของ 3GPP2 และ UWCC ไดทํ างานไปพรอมๆกันดวยเพื่อพัฒนาเทคโนโลยีสํ าหรับ <strong>IMT</strong>-<strong>2000</strong> ดังนั้นสํ าหรับในภาคพื้นอเมริกาแลวมาตรฐานของ <strong>IMT</strong>-<strong>2000</strong> โดยใช CDMA จะไมมีเพียงแคมาตรฐานเดียวในภาคพื้นแถบนี้ นอกจากนี้ผูดํ าเนินการในการจัดตั้งระบบสํ าหรับระบบโทรศัพทเคลื่อนที่รุนที่ 3 ในภาคพื้นอเมริกายังแบงเปน 2 กลุม คือ กลุมที่ไมตองการนํ าเทคโนโลยีที่ใชในระบบเดิมมาใชใน ระบบที่ 3 โดยกลุมนี้จะใชการเชื่อมถึงแบบ WCDMA เราเรียกกลุมนี้วา greenfield operators และอีกกลุมหนึ่ง เปนกลุมที่ตองการพัฒนาเทคโนโลยีจากระบบเดิมที่ใชงานกันอยูใหสามารถนํ าไปใชไนระบบใหมไดและยังสามารถใชกับแถบความถี่เดิม เรียกกลุมนี้วา establishedoperators ดังนั้นความตองการที่นํ าระบบGSM และ UWC-136 มาพัฒนาไปสู <strong>IMT</strong>-<strong>2000</strong> จึงเปนความตองการของ established operators โดยใชเทคโนโลยี EDGE (Enhanced Data rate for Global Evolution) มาเปนมาตรฐานใหกับทั้ง2ระบบEDGE เปนเทคโนโลยีที่นํ าการมอดูเลทแบบ 8 PSK (Phase ShiftKeying) มาใชทํ าใหสามารถใหบริการขอมูลความเร็วสูงไดคือ สามารถใหบริการที่อัตราเร็ว 384 kbps สําหรับการเคลื่อนที่ภายนอกอาคาร ถึงแมวา EDGE ไมสามารถใหการบริการที่ความเร็ว 2 Mbps ตามความตองการของITU-R ได แตผูดํ าเนินการในอเมริกามองวาดวยอัตราเร็ว 384 kbps ก็มีความเพียงพอตอความตองการทางการตลาดในอเมริกาแลวเพราะระบบเดิมนั้น มีอัตราเร็วของขอมูลเพียง 9.6 kbpsเทานั้น และยังสามารถใหบริการทางพาหุสื่อที่ตองการได ซึ่งดํ าเนินการบนแถบความถี่ที่มีอยูเดิมจึงนับไดวาคุมคามากแลว อีกเหตุผลหนึ่งคือโครงสรางของระบบโทรศัพทรุ นที่ 2 ไดมีการลงทุนไปเปนจํ านวนมากและคาดวาจะตองมีการลงทุนเพิ่มขึ้นเรื่อยๆจึงควรจะพัฒนาจากระบบเดิมไปสูระบบใหมEDGE ยังมีขอดีอีกขอหนึ่งคือ สามารถนํ าเขามาใชงานในระบบเครือขายเดิม คือ GSM และ IS-136 ไดอยางสะดวกและสามารถปรับเปลี่ยนไดทีละเล็กละนอย โดยไมกระทบกระเทือน กอใหเกิดความเสียหายกับระบบเดิม [3][10][11][25]6. โครงสรางพื้นฐานของเทคนิคFDD และ TDDเนื่องจากใน <strong>IMT</strong>-<strong>2000</strong> มีการใชเทคโนโลยีCDMA เปนพื้นฐานในการเชื่อมตอ ดังนั้นในขั้นแรกจะอธิบายถึงภาพรวมของCDMA6.1 ลักษณะโดยรวมของ CDMACDMA เปนการเขาถึงขอมูลโดยอนุญาตใหผูใชจํ านวนมากสามารถสงขอมูลของตนไปในชองความถี่เดียวกัน ณ เวลาเดียวกันได โดยที่ผูใชแตละคนจะมีลักษณะที่แตกตางกันก็คือ รหัส ซึ่งรหัสที่ใชนี้จะประกอบดวยPseudo-Noise (PN) code และ orthogonal code หรือ บางครั้งเรียกวาWalsh Code (WC) ซึ่งแตละ WC จะมีความยาว 64 บิท (bit) หรือ ชิป(chip) ดังนั้นในการกํ าหนดชองสัญญาณที่ใชเทคโนโลยีแบบ CDMA


8จะใชรหัสเปนตัวกํ าหนดความแตกตางของแตละชองสัญญาณ ทํ าใหในระบบโทรศัพทเคลื่อนที่ที่ใชเทคนิคของ CDMA ทําใหเซลลที่อยูขางเคียงสามารถใชความถี่ที่เหมือนกันได [26][27][28]6.2 TDDเปนการสื่อสารขอมูลแบบ 2 ทาง ที่เกิดจากการรวมการทํ างานของTDMA และ CDMA ทั้ง uplink และ downlink จะใชความถี่เดียวกัน(unpaired band) โดยใชชองเวลามาทํ าการซิงโครนัสกันทั้ง FDD และ TDD มีโครงสรางของชองสัญญาณที่เหมือนกัน สํ าหรับในบทความนี้จึงอางอิงของ FDD เปนหลัก6.3 FDDเปนการสื่อสารขอมูลแบบ 2 ทาง คือ uplink และ downlink ในการสงขอมูล แบบ FDD จะใชความถี่ 1 คู(paired band) เนื่องจากทั้ง uplink และdownlink จะไมใชความถี่เดียวกันในการสง โครงสรางของชองสัญญาณใน FDD มีความแตกตางกันระหวาง uplink และ uownlink คือ6.3.1 ชองสัญญาณของ uplink ในระดับชั้น physicalชองสัญญาณที่ใชสํ าหรับสงขอมูลของผูใชจะถูกสงไปชองสัญญาณเฉพาะของขอมูล เรียกวา DPDCH (Dedicated Physical Data Channel)และขอมูลที่เกี่ยวกับการควบคุมถูกสงไปในชองสัญญาณเฉพาะของการควบคุม เรียกวา DPCCH (Dedicated Physical Control Channel) ทั้งDPDCH และ DPCCH เปนแบบ IQ มัลติเพล็กซ(multiplexed) คือ ในDPDCH ขอมูลจะสงไปในแกน I และ DPCCH ซึ่งประกอบดวยสัญลักษณในการนํ ารอง (Pilot symbols) สัญลักษณในการควบคุมการสง(Transmitter Power Control symbols –TPC) จะถูกสงไปในแกน Q ซึ่งแกน IQ จะมีความสัมพันธทางดานเฟส (phase) สามารถดูรูปประกอบไดในรูปที่ 5 และมีการมอดูเลทแบบ QPSK (Quadrature Phase ShiftKeying) จากที่ไดเคยกลาวไวแลววาในเทคนิคแบบ CDMA เปนการใชรหัสในการแสดงความแตกตางชองสัญญาณ ดังนั้นการสง DPDCH และDPCCH ไปยังคนละชองสัญญาณแสดงวา ทั้ง 2 ชองสัญญาณก็ยอมมีรหัสที่ตางกัน คือ DPDCH จะมีรหัสเฉพาะเรียกวา C D และ DPCCH ก็จะมีรหัส C C และเมื่อจะออกจากสถานีฐานก็จะถูกเขารหัสอีกครั้งเปนC scramb ซึ่งเปนรหัสเฉพาะของแตละสถานีเคลื่อนที่ การทํ า IQ มัลติเพล็กซโดยใชรหัสนี้ ทํ าใหในการสงเปนไปอยางตอเนื่องซึ่งการสงอยางตอเนื่องนี้เองสามารถลดปญหาการรวมตัวกับคลื่นแมเหล็กไฟฟาได เพราะสถานีเคลื่อนที่มีโอกาสที่จะเขาใกลอุปกรณอิเล็กทรอนิคไดงาย ละการสงแบบตอเนื่องยังสามารถลดความตองการเครื่องขยายในตัวสถานีเคลื่อนที่ไดรูปที่5แสดงโครงสรางชองสัญญาณใน uplink6.3.2 ชองสัญญาณของ downlink ในในระดับชั้น physicalในการมัลติเพล็กซ ของ DPDCH และ DPCCH จะเปนการมัลติเพล็กซแบบเวลา(time multiplexed) ซึ่งดูรูปประกอบไดในรูปที่ 6 ทั้ง DPDCHและ DPCCH ถูกสงสลับกันไปตามเวลา ทําใหทั้ง DPDCH และ DPCCHเปนการสงแบบไมตอเนื่องซึ่งตางจากใน uplink ในการสงแบบใชเวลามีขอดีคือชองสัญญาณควบคุมจะทํ าการคนหาสถานีเคลื่อนที่ไดอยางรวดเร็ว เนื่องจากการสงแบบไมตอเนื่องนั้น มีอัตราในการเสี่ยงตอการเกิดการรวมตัวกับคลื่นแมเหล็กไฟฟาแตใน downlink ปญหาดังกลาวจะมีโอกาสเกิดไดนอยเพราะสถานีฐานแทบจะไมมีโอกาสเขาใกลอุปกรณอิเล็กทรอนิค เหมือนกับสถานีเคลื่อนที่ในการเขารหัสของชองสัญญาณในdownlink จะมีการเขารหัสดังนี้ ทั้ง DPDCH และ DPCCH จะมีรหัสที่เหมือนกันเรียกวา C CH และเมื่อมีการสงสัญญาณไปยังสถานีเคลื่อนที่ก็จะมีการเขารหัสซึ่งเปนรหัสเฉพาะสํ าหรับแตละสถานีฐาน คือ C scramb [3][22][30][31]รูปที่ 6 แสดงโครงสรางชองสัญญาณใน downlinkนอกจากในระดับชั้น physical ที่มีชองสัญญาณแลว ในระดับชั้น logicalประกอบดวยชองสัญญาณอีกจํ านวนหนึ่งซึ่งขอมูลแตละชนิดที่จะถูกสงไประหวางสถานีเคลื่อนที่กับสถานีฐานจะใชชองสัญญาณที่ไมเหมือนกันขึ้นกับชนิดของขอมูลนั้นๆ โครงสรางของชองสัญญาณ logical ในWCDMA มีพื้นฐานตาม ITU-R M.1035 คือก. ชองสัญญาณ control (CCH) ประกอบดวย• ชองสัญญาณ broadcast control (BCH) เปนชองสัญญาณที่ใชสงขอมูลที่เปนคุณสมบัติของระบบและเซลล• ชองสัญญาณ paging (PCH) ชองสัญญาณนี้ ถูกใชเมื่อเครือขายไมทราบวาเซลลทองถิ่นของสถานีฐาน• ชองสัญญาณ forward (FACH) เปนชองสัญญาณที่สงขอมูลจากสถานีฐานไปยังสถานีเคลื่อนที่ ที่อยูภายในเซลลเดียวกัน• ชองสัญญาณ dedicated control (DCCH) เปนชองสัญญาณที่ใชในการสงขอมูลในการควบคุมระหวางเครือขายกับสถานีเคลื่อนที่ข. ชองสัญญาณ Traffic (TCH) ประกอบดวย• ชองสัญญาณ dedicated traffic (DTCH) เปน ชองสัญญาณที่สงขอมูลแบบจุดตอจุดใน uplink และ downlink


9• ชองสัญญาณ user packet traffic (UPCH)MAP7. การพัฒนา ไปสูระบบโทรศัพทเคลื่อนที่รุนที่ 3GSM-MSCABTSการเปดกวางของระบบโทรศัพทรุนที่ 2 ที่มีความแตกตางกันในพื้นที่ทั่วโลก ใหสามารถพัฒนาไปสู ระบบที่ 3 ไดเริ่มขึ้นแลว อยางเชนในระบบGSM 2+ ไดพัฒนาใหมีการบริการขอมูลที่มีอัตราเร็วเพิ่มมากขึ้นไดและสามารถใหบริการทางดานมัลติมีเดียไดบางแลว จากรูปที่ 7[6] เปนภาพโดยรวมของระบบเครือขาย WCDMA ซึ่งถูกออกแบบใหใชใน ประเทศแถบทางยุโรปเพื่อรองรับ <strong>IMT</strong>-<strong>2000</strong> ระบบจะประกอบดวยชุมสายโทรศัพทเคลื่อนที่ (Mobile Switching Center -MSC) อุปกรณควบคุมเครือขายคลื่นวิทยุ (Radio Network Controller -RNC) สถานีฐาน (BaseTransceiver Station –BTS) และสถานีเคลื่อนที่ (Mobile Station) เปนเครื่องโทรศัพทแบบ WCDMA สถานีฐานจะถูกออกแบบใหสามารถใชทรัพยากรสวนตางๆของระบบรวมกันเพื่อประหยัดคาใชจายและทํ าใหการใชงานมีประสิทธิภาพ จากรูปที่ 7 สถานีฐานจะถูกเชื่อมตอไปยังอุปกรณควบคุมเครือขายคลื่นวิทยุ โดยใชแพล็ตฟอรมของ ATM(Asynchronous Transfer Mode) สําหรับใชสื่อสารระหวางโหนด(Node)ของเครือขายและภายในเครือขายแตละโหนดของ ATM ที่ใชใน <strong>IMT</strong>-<strong>2000</strong> นี้จะใชเทคโนโลยีสวิตซแพ็คเก็ตและ AAL2 (ATM AdaptationLayer 2) ไดถูกพัฒนามาตรฐานขึ้นมาเพื่อรองรับการสงของแพ็คเก็ตเสียงอุปกรณควบคุมเครือขายคลื่นวิทยุของระบบจะทํ าหนาที่ควบคุมเครือขายคลื่นวิทยุ เชน การกํ าหนดและยกเลิกการเชื่อมตอของชองสัญญาณ การควบคุมกํ าลังสง (power control) การยายชองสัญญาณ (handover) และฟงกชั่น codec ก็จะอยูภายในอุปกรณควบคุมเครือขายคลื่นวิทยุ นอกจากนี้อุปกรณควบคุมเครือขายคลื่นวิทยุ ยังมี A-interface เพื่อเชื่อมโยงไปยังชุมสายโทรศัพทเคลื่อนที่ของเครือขาย GSM ทําใหสามารถเชื่อมตอชองสัญญาณเสียงระหวางเครื่องโทรศัพทเคลื่อนที่ WCDMA กับระบบGSMได ซึ่งเปนไปตามขอกํ าหนดใน <strong>IMT</strong>-<strong>2000</strong> ที่ตองการใหระบบในรุนที่ 2และรุนที่ 3 สามารถรวมเขากันได สวนชุมสายโทรศัพทเคลื่อนที่ (MSC)ของระบบ มีหนาที่หลักในการจัดตั้งการเชื่อมตอชองสัญญาณของเครื่องโทรศัพทเคลื่อนที่ และมี Iu-interface สําหรับเชื่อมตอกับอุปกรณควบคุมเครือขายคลื่นวิทยุและสามารถเชื่อมตอกับเครือขายแบบใชสายเชนATM LAN ISDN และโมเด็ม อีกทั้งยังสามารถรองรับการบริการสื่อสารขอมูลแบบ packet-switching และ circuit–switching นี่เปนระบบจํ าลองที่จะนํ ามาใชใน <strong>IMT</strong>-<strong>2000</strong> และยังคงตองนํ ามาพัฒนาเพื่อใหไดระบบที่ดีที่สุดสํ าหรับใชอนาคต แตไมวาระบบโทรศัพทเคลื่อนที่รุนที่ 3 จะเปนอยางไรก็ตาม การเขากันไดระบบที่มีอยูก็เปนอีกปจจัยหนึ่งที่เปนสิ่งสํ าคัญMAIISDN/PSTNInternetCorporateLANMSC" Iu "RNCMSรูปที่ 7 ระบบเครือขายแบบ WCDMA ที่จะนํ ามาใชใน <strong>IMT</strong>-<strong>2000</strong>8. บทสรุปบทความนี้ไดนํ าเสนอภาพโดยรวมของ <strong>IMT</strong> <strong>2000</strong> ในสวนของ โครงสรางพื้นฐาน มาตรฐาน และเทคโนโลยีที่ใชใน <strong>IMT</strong>-<strong>2000</strong> การศึกษาโครงสรางพื้นฐานของ <strong>IMT</strong>-<strong>2000</strong> เปนอีกสวนหนึ่งที่สํ าคัญในการสรางและพัฒนาระบบโทรศัพทเคลื่อนที่ รุนที่ 3 เพื่อใหตอบสนองความตองการของผูใชบริการไดอยางครบถวนดังนั้นองคกรจากทั่วโลกทั้ง ยุโรป จีน ญี่ปุน เกาหลี และอเมริกา จึงไดมีการจัดทํ าขอเสนอเพื่อมารองรับในการสรางระบบโทรศัพทเคลื่อนที่รุนที่ 3 โดยขอเสนอจะเนนไปสูการพัฒนาดาน air interface ซึ่งสวนใหญจะเลือกใชเทคโนโลยีแบบWCDMA เปนพื้นฐานในการพัฒนาระบบโดยใชการสื่อสารขอมูล 2 ทางแบบ FDD เปนหลักทํ าใหระบบมีประสิทธิภาพที่สูงขึ้น สามารถรองรับการบริการขอมูลแบบความเร็วสูงไดขอเสนอจากประเทศตางๆถูกสงไปยัง ITU-R เพื่อดําเนินการในการจัดทํ ามาตรฐานของขอเนอเหลานี้ใหเปนมาตรฐานเดียวกัน ดังนั้น ITU จึงไดจัดตั้งกลุม TG8/1 เพื่อดํ าเนินการจัดทํามาตรฐาน และคาดวาการดํ าเนินการดังกลาว จะทํ าใหระบบสามารถใหบริการไดทั่วโลกหลังป <strong>2000</strong>เอกสารอางอิง[1] N. Takezaki, ” The Next World: Standard for 3GCommunications,” NTT DoCoMo’s <strong>IMT</strong><strong>2000</strong>,November 1997[2] W. Stark, ”Digital Communications Theory,” Technicalpaper no. 181, The University of Michigan, <strong>2000</strong>[3] P. Chaudhury, W.Mohr, and S.Onoe, ”The 3GPPProposal for <strong>IMT</strong>-<strong>2000</strong>,” IEEE CommunicationsMagazine, December 1999, pp. 72-81[4] M. Callendar, ”<strong>IMT</strong>-<strong>2000</strong> Standardization,” Telecom’99,1999[5] M. Gallagher ,W.Webb,”UMTS the next generation ofmobile radio,” IEE Review, March 1999, pp.59-63[6] P. Susampanpiboon, ” Third Generation (3G),” InternetMagazine, December1999, pp.68-75ATMBTSBTS


10[7] ITU Web page: http://www.itu.int/imt/1_infor/article/interview/index.html[8] K. Etemad, “CDMA Concepts and Applications inWireless PCS Networks,” University of Maryland atCollege Park, October 1999[9] R. M. Rajatheva, ”Coding and Modulation Techniquesfor High Bit Rate Mobile Communication Systems:Third and Future Generation,” The 1 st Asia-PacifiSeminar On Next Generation Mobiles Communications,January <strong>2000</strong>[10] P. Agrawal, D. Famolari, ”Mobile Computing in NextGeneration Wireless Networks,” The 1 st Asia-PacificSeminar On Next Generation Mobiles Communications,January <strong>2000</strong>[11] P. Srisuksat, ”The Migration from 2G to 3G forThailand,” The 1 st Asia-Pacific Seminar On NextGeneration Mobiles Communications, January <strong>2000</strong>[12] H. Benn, ”ETSI SMG2 UTRA,” ITU TG8/1 <strong>IMT</strong>-<strong>2000</strong>Workshop, Jersey, November 1998[13] ARIB W-CDMA, ”Japan’s Proposal for Candidate RadioTransmission Technology on <strong>IMT</strong>-<strong>2000</strong>: W-CDMA,”ITU TG8/1 <strong>IMT</strong>-<strong>2000</strong> Workshop, Jersey, November1998[14] TIA, ”Evolution cdma-One to cdma <strong>2000</strong>,” ITU TG8/1<strong>IMT</strong>-<strong>2000</strong> Workshop, Jersey, November 1998[15] UWC, ”Evolution of TDMA to 3G,” ITU TG8/1 <strong>IMT</strong>-<strong>2000</strong> Workshop, Jersey, November 1998[16] TTA , ”Global CDMA I: Multiband Direct-SequenceCDMA System RTT Description,” June 1998[17] 3GPP Web page: http://www.3GPP.org[18] 3GPP2 Web page: http://www.3GPP2.org[19] M.Kijima, ”Curent Status of <strong>IMT</strong>-<strong>2000</strong> SystemDevelopment,” The 1 st Asia-Pacific Seminar On NextGeneration Mobiles Communications, January <strong>2000</strong>.[20] P.Weraarchakul, ”CAT’s cdma-ONe and the Migrationtowards 3G Coomunicatio Systems,” The 1 st Asia-Pacific Seminar On Next Generation MobilesCommunications, January <strong>2000</strong>[21] B.Chong, ”Fujisu’s Scope and Strategy for <strong>IMT</strong>-<strong>2000</strong>,”The 1 st Asia-Pacific Seminar On Next GenerationMobiles Communications, January <strong>2000</strong>[22] R.Prasad and T.Ojanpera’, ”An Overview of CDMAEvolutionToward Wideband CDMA,” IEEECommunications Surveys, http://www.comsoc.org/pubs/surveys,Fourth Quarter 1998,Vol.1No.1[23] Qualcomm, ”The Technical Case for ConvergencedThird Generation Wireless Systems Based on CDMA”,1999[24] A.Giordano and A.leverque, “Understanding WirelelessCommunications ,CDMA and Next Generation Digital,”Northeastern University,Octerber 1999[25] P.Susampanpiboon, ” Edge,” Internet Magazine,December 1999, pp. 42-47[26] T.Paugma, “Cellular Mobile Telephone System”,1998[27] H.Masaki, ”<strong>IMT</strong>-<strong>2000</strong> TDD Mode System,” The 1 stAsia-Pacific Seminar On Next Generation MobilesCommunications, January <strong>2000</strong>[28] Hewlett packard, ”CDMA Overview & Testing,”September 1999[29] L.Harte, CDMA IS-95 for Cellular amd PCS, MCGraw-Hill Telecommunations,1999[30] ARIB,”Specifications of Air-Interface for 3G MobileSystem Ver.1.0,” December 1997[31] S.Barberis and E.Berruto,” A CDMA-based radio intoface for third Generation Mobile Systems,” MobileNetworks and Applications, 1999, pp.19-29[32] J.Eldstahl and A.Nasman, ”WCDMA Evalition system-Evaluating the radio access technology of thirdgenerationsystems,” Ericson Review, No.2,1999[33] U.Black, ”Mobile and Wireless Networks,” Prentice HallPTR,1996คํ ายอ3GPPAALARIBATMBCCHBTSCCHCDMAD-AMPSDCCHDPCCHDPDCHEDGEETSI SMGFACHFDDFMAFPLMTSFRAMESGSMThe third Generation Partner ProjectAsynchronous Transfer Mode AdaptationLayerAssociation of Radio Industry and BusinessAsynchronous Transfer ModeBroadcast Control ChannelBase Transceiver StationControl ChannelsCode Division Multiple AccessDigital-Advanced Mobile PhoneSystemsDedicated Control ChannelDedicated Physical Control ChannelDedicated Physical Data ChannelEnhanced Data rate for Global EvolutionEuropean Telecommunications StandardsInstitute Special Mobile GroupForward Access ChannelFrequency Division DuplexFuture Radio Wideband Multiple AccessSystem Multiple AccessFuture Public Land MobileTelecommunication SystemsFuture Radio Wideband Multiple AccessSystemGlobal System for Mobile communication<strong>IMT</strong>-<strong>2000</strong> International Mobile Telecommunications -<strong>2000</strong>IS-95 Interim Standard-95ISDNIntegrated Service Digital NetworkITU-R International Telecommunications Union -Radio communication Standardization Sector


11LAN Local Area NetworkMSC Mobile Switching CenterNA:WCDMAOHGPCHPDCQPSKRITTRNCT1P1TCHTDDTDMANorth American:Wideband Code DivisionMultiple AccessOperator Harmonization GroupPaging ChannelPersonal Digital Cellular StandardQuadrature Phase Shift KeyingResearch Institute of TelecommunicationsTransmissionRadio Network ControllerTelecommunications Planning GroupTraffic ChannelsTime Division DuplexTime Division Multiple AccessTD-SCDMA Time Division-Synchronous Code DivisionMultiple AccessTIA Telecommunications Industry AssociationTPC Transmitter Power ControlTIA Telecommunications Industry AssociationTPC Transmitter Power ControlTTA Telecommunications TechnologiesAssociationTTC Telecommunication Technology CommitteeUMTS Universal Mobile TelecommunicationsSystemUPCH User Packet Traffic ChannelUTRA Universal Mobile TelecommunicationsSystem Terrestrial Radio AccessUWC-136 Universal Wireless Communications-136WARC World Administrative Radio ConferenceWCDMA Wideband Code Division Multiple AccessWIMS Wireless Multimedia and Messaging ServicesWLL Wireless Local LoopBiographiesDr. Sinchai KAMOLPHIWONG receivedthe B.Sc.(EE) and M.E.(EE) degrees inElectrical Engineering from Prince ofSongkla University (PSU), Thailand, in1984 and 1988 respectively. In 1999, hereceived the Ph.D. (EE) degree from theUniversity of NSW, Australia.He was with the Department of ElectricalEngineering, PSU, Thailand in 1984where he tough in microprocessors and system designs. In1992, he was with the Department of Computer Engineeringat the same university where he involved in PABX andsystem control development projects. He is now an AssistantProfessor in the Department of Computer Engineering, PSU.Thailand. He is a team leader of IP telephony developmentproject. He is a research member of 3rd Generation MobilePhone (<strong>IMT</strong>-<strong>2000</strong>) project. His main interest research areasare: flow control in ATM networks, IP networks and packettelephony, high speed networks, computer network protocols,network embedded systems, mobile networks, modelling andsimulation in computer networks. He is a member of IEEE,ACM, ComSoc, and Computer.มัลลิกา อุณหวิวรรธน สํ าเร็จการศึกษาจาก คณะวิศวกรรมศาสตร สาขาโทรคมนาคม ณ สถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบัง ปการศึกษา 2542. เปนผูชวยวิจัยโครงการพัฒนาโทรศัพทเคลื่อนที่ยุคที่ 3 ปจจุบันกํ าลังศึกษาปริญญาโท ภาควิชาเทคโนโลยีสารสนเทศ และวิศวกรรมไฟฟา คณะสถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร งานวิจัยที่สนใจการเขาถึงขอมูลโดยการเขารหัส ระบบโครงขายเคลื่อนที่ไรสายสุธน แซหวอง วิศวกรรมศาสตรบัณฑิต (เกียรตินิยมอันดับ 1) คณะวิศวกรรมศาสตร มหาวิทยาลัยสงขลานครินทร เมื่อป พ.ศ. 2542 ปจจุบันเปนอาจารยประจํ าภาควิชาวิศวกรรมศาสตร คณะวิศวกรรมศาสตร มหาวิทยาลัยสงขลานครินทร เปนผูชวยวิจัยโครงการพัฒนาโทรศัพทเคลื่อนที่ยุคที่ 3 และเปนผูวิจัยหลักในโครงการพัฒนาระบบไอพีเทเลโฟนนี่ งานวิจัยที่สนใจ: ไอพีเทเลโฟนนี่ เครือขายพหุสื่อ การสงขอมูลแบบทันเวลาจริง


12Progress Report on NECTEC's Microelectronics ProjectItti Rittaporn Chumnarn Punyasai and Pavan SiamchaiThai Microelectronics Center (TMEC) ProjectNational Electronics and Computer Technology Center (NECTEC)73/1 Rama VI Road, Ratchathevee, Bangkok 10400, ThailandPhone (+66-2)644-8150 Fax. (+66-2)644-8137, E-Mail: itti@notes.nectec.or.thABSTRACT -- As a national center, NECTEC's road map in the area of microelectronics is to start fromIC/VLSI design, wafer fabrication and then to expand into the areas of flat panel display devices, sensors,optoelectronics, and so on. The mission is to activate the rise of microelectronics industry in Thailand. Afternearly ten years, however, the progress has not been significant. Main reason is the lack of strategy andcommitment in the national policy-making level. Most of the activities are bottom-up oriented, and not wellenoughsupported. Under this situation, NECTEC is working hard to promote IC/VLSI design, and torealize Thailand's first wafer fabrication line. In this report NECTEC's microelectronics related activitiesare summarized.1. IntroductionNECTEC has started its activity on micro-electronics in 1989by joining the ASEAN - Australia cooperation project. SomeVLSI have been designed in-house and sent for fabrication inAustralia during the program.In 1994, NECTEC has provided the software tools for VLSIdesign to about 10 universities in Thailand to support theireducational program and activity on VLSI design. This hascontributed to the gradual expansion of the design activitiesin Thailand and after several years, there are already some ICdesign companies starting their business.In the same year, NECTEC signed an agreement with IMEC(Interuniversity Microelectronics Center) of Belgium underthe agreement of cooperation in microelectronic sectorbetween Thailand and Belgium governments. Under thisagreement, NECTEC will send engineers and technicians for50 man-months to IMEC for training in process technologyand facilities management focusing, practically at 0.5 micronCMOS technology. IMEC will transfer basic processtechnology and provide necessary consultancy whereBelgium government will subsidize the cost on IMEC's side.This agreement will end by 31 August <strong>2000</strong>.In 1995, the Cabinet has approved the proposal of NECTECto establish the Thai Microelectronics Center (TMEC). Theplan is to build a wafer fabrication line for CMOS processtechnology below 1 micron with the capacity of 500 sixincheswafers/month. The original objectives and goals ofthis project have been summarized in Ref.1. Under theproposal, the government will support 600 million Baht in 3years for establishing the TMEC center and a privatecompany, Alphatec Group, will donate another 300 millionBaht for the project. Because they are planning to start waferfabrication business in Thailand and need support in the areaof human resource development.2. Current Status and future planAt present, NECTEC's microelectronics related activities canbe summarized as follows.2.1 TMEC ProjectIn 1997, NECTEC has started the construction of the TMECbuilding in the Alpha-technopolis Industrial Park atChacherngsao province. Cleanroom, equipped with necessaryfacilities to support CMOS 0.5 micron technology, of class100 (300 m 2 ) and class 1000 (700 m 2 ) are the main features.Originally the work was planned to be finished by March1998, however due to the contractor financial problem afterthe economic crisis in 1997, the progress of construction hadbecome very slow and out of schedule. Extensions of thecontract have been made several times due to governmentmeasures to help construction industry from the economiccrisis. This gave further delay to the construction and atpresent the contract is extended until 31 January <strong>2000</strong>.Figure 1 and 2 show the progress at the construction siteas of August 1999. The amount of accomplished work isabout 20% of the total.Fig. 1 TMEC Construction site (August 99)


13August 1999. The training covered almost all aspects ofwafer fabrication (process technology, process integration,design technology, fab management, and facilities design andmaintenance, QA and safety, etc.) Under the agreement,IMEC will send experts to help commissioning TMEC'scleanroom and advising process start-up. Collaborationbeyond the end of present agreement is under consideration.Fig. 2 TMEC Construction site (August 99)Figure 3 shows the design drawing of the TMEC building.2.2 MPC (5 um) Program with ERC/KMITLBeginning in 1996, NECTEC has started a Multi Project Chip(MPC) program with Electronic Research Center (ERC) ofKing Mongkut's Institute of Technology Ladkrabang(KMITL) to upgrade the microelectronics facilities of ERCfrom 20 micron process to 5 micron CMOS process. Themain aim is to make the facilities up-to-date and ready as acenter of excellence for providing multi project chipfabrication service for universities over Thailand. A newcleanroom of class 1000 (30 m 2 ) and class 10,000 (111 m 2 )has been built. LPCVD, ion implanter, etcher, furnace havebeen newly purchased or upgraded. After a long series ofeffort, it is planed to open its service by March <strong>2000</strong>. Underthis scheme, NECTEC and ERC/KMITL will arrange a MPC(Multi Project Chip) fabrication service for IC/VLSIdesigners.Fig. 3 TMEC BuildingFor the process and metrology equipment, 10 items havebeen purchased. About 25 more are necessary.For the TMEC Project as a whole, the bad economic situationfrom 1996 and the Baht crisis in 1997 have raised seriousproblems. Firstly, it was not possible for the Alphatec Groupto donate the 300 million Baht to the project as plan.Secondly, with the only 600 million Baht from thegovernment and the depreciation of the Baht after mid 1997,it is not possible to complete the project without additionalfinancial support. From 1998 to mid 1999, a lot of effort hasbeen spent to find way-out. Eventually the Project has beenre-studied and the revised proposal of the TMEC Project hasbeen approved by the NSTDA Board in August 1999. Now itis being submitted to the Minister of Science Technology andEnvironment to ask for the Cabinet approval. Only after thatthat NECTEC will have necessary funding to accomplish theplan of this project.In the revised proposal, the main philosophy of the projecthas been changed from to be the center to mainly supporthuman resource development for the wafer fabricationindustry (process engineer), to the center to activate the riseof IC/VLSI design industry in Thailand (design engineer).This is considered more strategically appropriate sinceThailand has a wide base of IC/VLSI design educationnetwork in more than 10 major universities with more areparticipating. A large pool of new designers can be expectedto contribute to the rise of IC/VLSI design industry inThailand in near future.For the cooperation with IMEC, NECTEC has accomplishedsending engineers for 50 man-months training to IMEC byFig. 4 ERC/KMITL Cleanroom2.3 IC/VLSI design and PromotionAs mentioned earlier, this activity is considered the mostimportant at present because it is the mission to exploreThailand's new capability in IC/VLSI design area. The factsthat it is not highly capital intensive (compare with waferfabrication), the technology is still growing, the worldwideshortage of VLSI designers, and the chance of gainingbusiness opportunity worldwide are convincing to mostpeople. The success of this activity will be crucial for the riseof microelectronics industry in Thailand.In-house design projects: At present , there are several inhousedesign projects running. First is a project to design the8051 microcontroller compatible chip with higherperformance. Another is the project to design a GPS chip(Global Positioning System).This article is a reprint of a paper presented at the 1 st NRCT-KOSEF (Thai-Korea) Workshop on Semiconductors Technology(Nov.1999, Bangkok)


143. Supporting private design houses: Although still afew, there are already several design companies inThailand. NECTEC is trying its best to supportthese companies. As an example, MTT(Microelectronic Technologies Thailand) iscollaborating with NECTEC in submitting theirdesigns for fabrication through IMEC of Belgiumunder EuroPractice Program. Figure 4 is the layoutdesign of the "ThaiTum2" chip (microcontroller) ofMTT. The company is also offering commercialservice for layout design to outside customers.Fig. 5 TMEC's 8051 layout designPromotion of IC/VLSI design To strengthen the designcommunity, NECTEC has initiated several new activities.1. Establishing of Microelectronics Forum InJanuary 1999, NECTEC has initiated themicroelectronics community in Thailand whichcomprises of universities, IC packaging industries,hard disk drive industries, system houses, and designhouses to setup the Microelectronics Forum. Themain objective is to utilize the expertise andresources of each party to organize training forindustrial work force to help upgradingmicroelectronics industries in Thailand towardshigher value added and upstream industry. TheForum is also aiming to cooperate in consolidationof appropriate policy/strategy and make suggestionto the Thai government.4. Development of AIT master program AIT(Asian Institute of Technology) is planning to startits master degree in microelectronics from May<strong>2000</strong> academic year. NECTEC strongly involves inthe establishment of this program and will activelysupport the program, providing faculties for somecourses and also facilities for students' projects.Fig. 7 AIT 's microelectronics program5. IC Design Contest <strong>2000</strong> As a result of the 3 rd ICDesign Network meeting held on 31 August 1999, acommittee has been setup to run the Thailand firstIC design contest to enhance the public knowledgeand interest in IC/VLSI design. For this first "ICDesign Contest <strong>2000</strong>", specifications of the targetchips, one analog and one digital, will be given andthe chance is open to all designers. About 50challengers are expected and the designs of thewinners will be sent for real fabrication.Fig. 6 MTT's Thaitum-2 chip layout design2. Establishing of IC Design Network Also inJanuary 1999, NECTEC has set up the IC DesignNetwork. It is the network of people doing design inThailand with members of about 40 at present. Themain aims are to cooperate in both development ofnew IC/VLSI designers and sharing of expertise andIP resources in real design projects.3. SummaryNECTEC as a national center is doing its best to promotemicroelectronics in Thailand. Activities span from academiccooperation on human resource development to promotingand supporting IC designers both in universities and privatesectors. Without strong commitment and sufficient supportscomparable to other countries, real strength and success ofThailand in microelectronics is not foreseeable.


154. AcknowledgmentThe authors would like to thank all colleagues in themicroelectronics area in Thailand; the IC Design Networkmembers, colleagues in the TMEC project, ERC/KMITL anduniversities. Contribution of IMEC in our activities is highlyappreciated.References[1] P. Sirirutchatapong, P. Sichanugrist, P. Siamchai, C.Punyasai, and S. Chinsakolthanakorn, "R&D Programs infabrication of VLSI in Thailand", Proceedings of EECON-20,Nov. 13-14, 1997, Bangkok, ThailandItti Rittaporn received B.E.(1983), M.E.(1985) and Ph.D(1988) in applied physicsengineering from the University ofTokyo. From 1988-1996 he joinedSuperconductivity ResearchLaboratory of Ministry ofInternational Trade and Industry of Japan as seniorresearcher where he had been using photoelectronspectroscopy, STM/AFM/MFM for study of electronicstructure of high-Tc superconductors. He returned toThailand in 1996 under the mission of transferring theSORTEC synchrotron light source from Japan to Thailand.From 1997, He joined NECTEC and at present is headingTMEC Project.Chumnarn Punyasai receivedB.Sc. in physics from KonkaenUniversity in 1989 and receivedMaster degree in computerengineering (VLSI design) fromUniversity of SouthwesternLouisiana in 1993. He co-found NECTEC'sMicroelectronics Lab and is heading IC/VLSI Design Groupof TMEC Project. He is at present working for Ph.D degreeat KMITL.Pavan Siamchai received B.E.(1990) and M.E.(1992) in electricalengineering from ChulalongkornUniversity. In 1995, he receivedhis Ph.D. in electrical andelectronics engineering from TokyoInstitute of Technology. His fields of expertise include thinfilm processing, amorphous silicon, silicon processing,semiconductor technology.This article is a reprint of a paper presented at the 1 st NRCT-KOSEF (Thai-Korea) Workshop on Semiconductors Technology(Nov.1999, Bangkok)


16การคนคืนสารสนเทศออนไลนโดยใชจีเนติกอัลกอริทึมOnline Information Retrieval using Genetic Algorithmsบังอร กลับบานเกาะสาขาวิชาเทคโนโลยีสารสนเทศ คณะเทคโนโลยีสารสนเทศสถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบังลาดกระบัง กรุงเทพฯ 10520โทร (02) 7372551-4(EXT:802) โทรสาร 3269074 E-Mail:S0067034@kmitl.ac.thเอื้อน ปนเงินภาควิชาวิศวกรรมคอมพิวเตอร คณะวิศวกรรมศาสตรสถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบังลาดกระบัง กรุงเทพฯ 10520โทร (02) 3269969 E-Mail:kpouen@kmitl.ac.thABSTRACT -- This article presents an online information retrieval using genetic algorithms to increaseinformation retrieval efficiency. Under vector space model, information retrieval is based on the similaritymeasurement between query and documents. Documents with high similarity to query are judge morerelevant to the query and should be retrieved first. Under genetic algorithms, each query is represented by achromosome. These chromosomes feed into genetic operator process: selection, crossover, and mutationuntil we get an optimize query chromosome for document retrieval.KEY WORDS -- GENETIC ALGORITHMS, INFORMATION RETRIEVALบทคัดยอ -- บทความนี้นํ าเสนอเกี่ยวกับวิธีการคนคืนสารสนเทศออนไลนโดยประยุกตใชจีเนติกอัลกอริทึมเพื่อเพิ่มประสิทธิภาพในการคนคืนสารสนเทศ ภายใตเวคเตอรสเปซโมเดล (vector space model) การคนคืนสารสนเทศใดนั้นขึ้นอยูกับความคลายคลึง (similarity)ระหวางเอกสารและคิวรี เอกสารใดที่มีความคลายคลึงกับคิวรีสูงยอมแสดงวาเอกสารนั้นมีความสัมพันธกับคิวรีมากกวาและควรจะไดรับการคนคืนขึ้นมากอน ในขั้นตอนของจีเนติกอัลกอริทึมนั้น คิวรีจะถูกแทนดวยโครโมโซม ซึ่งโครโมโซมเหลานี้จะถูกนํ าเขาสูกระบวนการจีเนติกโอเปอเรเตอรตางๆ อันไดแก การคัดเลือก การครอสโอเวอร และการมิวเตชัน จนกระทั่งไดโครโมโซมคิวรีที่เหมาะสมเพื่อนํ าไปคนคืนสารสนเทศตอไปคํ าสํ าคัญ -- จีเนติกอัลกอริทึม, การคนคืนสารสนเทศ1. คํ านํ าจีเนติกอัลกอริทึมคิดคนขึ้นโดย John Holland ในปค.ศ. 1975 [1][2] เปนการนํ าขบวนการวิวัฒนาการของสิ่งมีชีวิตมาประยุกตใชในงานปญญาประดิษฐ เพื่อใชสํ าหรับหาคํ าตอบที่ดีที่สุด (Optimization) ของปญหาตาง ๆ จากจํานวนคํ าตอบที่เปนไปไดทั้งหมดของการแกปญหานั้นปจจุบันไดมีการประยุกตใชจีเนติกอัลกอริทึม ในงานตาง ๆ อยางแพรหลาย เชน การใชจีเนติกอัลกอริทึมในกับการแกปญหาทางคณิตศาสตรการแกปญหาการหาเสนทางที่มีระยะทางสั้นที่สุด (Traveling SalesmanProblem : TSP) [1] [2] การจัดตารางสอน (Timetable SchedulingProblem) [7] [12] การควบคุมหุนยนต (Robot Control) [8] [10] รวมทั้งการคนคืนสารสนเทศดวย [3] [4] [5]


172. งานวิจัยที่เกี่ยวของจีเนติกอัลกอริทึมเปนกระบวนการแกปญหาเอนกประสงคที่สามารถนํ าไปประยุกตใชกับปญหาประเภทตาง ๆ ได สํ าหรับงานวิจัยที่เกี่ยวของเทาที่ศึกษาและคนความามีดังนี้ คือ “การเรียนรูของแขนหุนยนตโดยการใชการโปรแกรมพันธุการ” โดยจุมพล พลวิชัย [8], “การปรับปรุงประสิทธิผลของโปรแกรมหุนยนตซึ่งกอกํ าเนิดโดยการโปรแกรมเชิงพันธุศาสตร” โดย ธวัชชัย เอี่ยมมนัสกุล [10], “การลดทอนความเพียรพยายามเชิงคํ านวณของวิธีการเรียนรูแบบการโปรแกรมเชิงพันธุศาสตร”โดยชัยวัฒน เจษฎาปกรณ [9], “การจัดตารางสอนของโรงเรียนแบบอัตโนมัติโดยจีเนติกอัลกอริทึม” โดยกาญจนี วงศวิภาพร [7] ในสวนของการประยุกตจีเนติกอัลกอริทึมกับการคนคืนสารสนเทศ เชน Jing-Jye Yang, Robert R. Korfhage และ Edie Rasmussen ไดประยุกตใชจีเนติกอัลกอริทึมในการปรับปรุงคิวรี (Query Improvement inInformation Retrieval using Genetic Algorithms) [4] โดยมีวัตถุประสงคที่จะปรับปรุงคิวรี ใหสามารถคนคืนขอมูลไดตรงตามความตองการของผูใชมากขึ้น ขอจํ ากัดของงานวิจัยนี้คือใชการปรับปรุงเฉพาะนํ้ าหนัก (term weight) ของคิวรี ไมมีการเพิ่มเติมคํ าใหม ๆ เขามาในกระบวนการของ จีเนติก ฉะนั้นการคนหาจะจํ ากัดอยูเฉพาะที่คํ าที่มีอยูในคิวรีเดิม ในขณะที่ Maria J. Martin-Bustista, Henrik L. Larsen,Jacob Nicolaisen และ Torben Svendsen ไดประยุกตใชจีเนติกอัลกอริทึมรวมกับยีนสแบบฟซซีในงานวิจัยเรื่อง An Approach to An AdaptiveInformation Retrieval Agent using Genetic Algorithms with Fuzzy SetGenes [5] โดยมีวัตถุประสงคที่จะสรางเอเจนตเพื่อการกลั่นกรองสวนบุคคล (personal filter agent) ระหวางผูใชกับกลไกคนหาขอมูลบนอินเตอรเน็ต (internet search engine) ขอจํ ากัดของงานวิจัยนี้คือการใชยีนสแบบฟซซีทํ าใหยากตอการกํ าหนดรูปแบบโครโมโซมไดถูกตองยากแกการใชงานจริงจะเห็นวาแนวโนมการใชจีเนติกอัลกอริทึมในการคนคืนสารสนเทศมีมากขึ้นและผลที่ไดก็เปนที่นาพึงพอใจแตทั้งนี้ยังตองมีการวิจัยพัฒนาตอไป เพื่อเพิ่มประสิทธิภาพในการคนคืนสารสนเทศใหดียิ่งขึ้น3. หลักการของจีเนติกอัลกอริทึม3.1 องคประกอบของจีเนติกอัลกอริทึมจีเนติกอัลกอริทึมมีองคประกอบที่สํ าคัญ 5องคประกอบ คือ1) รูปแบบโครโมโซมที่ใชในการนํ าเสนอทางเลือกที่สามารถจะเปนไดของแตละปญหา2) วิธีสรางประชากรตนกํ าเนิด ( initial population) ของทางเลือกที่สามารถจะเปนไปได3) ฟงกชันสํ าหรับประเมินคาความเหมาะสม (fitness) เพื่อใหคะแนนแตละทางเลือก4) จีเนติกโอเปอเรเตอร (Genetic Operator) ซึ่งใชในการปรับเปลี่ยนองคประกอบของขอมูลตลอดกระบวนการ ไดแกการคัดเลือก การครอสโอเวอร และการมิวเตชัน5) คาพารามิเตอรตางๆ ซึ่งตองใชสํ าหรับ จีเนติกอัลกอริทึม เชนขนาดของประชากร, ความนาจะเปนของการใชจีเนติกโอเปอเรเตอร และจํ านวนรุนเปนตน6) ฟงกชันสํ าหรับประเมินคาความเหมาะสม (fitness) เพื่อใหคะแนนแตละทางเลือก7) จีเนติกโอเปอเรเตอร (Genetic Operator) ซึ่งใชในการปรับเปลี่ยนองคประกอบของขอมูลตลอดกระบวนการ ไดแกการคัดเลือก การครอสโอเวอร และการมิวเตชัน8) คาพารามิเตอรตางๆ ซึ่งตองใชสํ าหรับ จีเนติกอัลกอริทึม เชนขนาดของประชากร, ความนาจะเปนของการใชจีเนติกโอเปอเรเตอร และจํ านวนรุนเปนตน3.2 การทํ างานของจีเนติกอัลกอริทึมขั้นตอนแรกของจีเนติกอัลกอริทึมคือการกํ าหนดฟงกชันความเหมาะสมรวมทั้งรูปแบบโครโมโซมเสียกอน จากนั้นจึงเริ่มสรางประชากรตนกําเนิดตามรูปแบบโครโมโซมที่ไดกํ าหนดไว เมื่อไดประชากรตนกํ าเนิดแลวก็ทํ าการวัดคาความเหมาะสม (fitness) ของแตละโครโมโซม เพื่อคัดเลือกเขาสูกระบวนการจีเนติกโอเปอเรเตอร โดยทํ าการคัดเลือกเอาเฉพาะโครโมโซมที่มีคาความเหมาะสมเปนที่นาพอใจชุดหนึ่งเก็บไวโครโมโซมที่คัดเลือกไวนั้นจะถูกนํ ามาทํ าการครอสโอเวอรและมิวเตชันไดเปนโครโมโซมชุดใหม ซึ่งเราจะนํ าโครโมโซมชุดใหมนี้มาวัดคาความเหมาะสมเพื่อทํ าการคัดเลือกและดํ าเนินการตอไปจนสิ้นสุดตามเงื่อนไขที่ไดกํ าหนดไว ก็จะไดโครโมโซมที่มีคาความเหมาะสมเปนที่นาพอใจ หรือไดคํ าตอบของปญหาที่ตองการดังแสดงในรูปที่ 14. การคนคืนสารสนเทศออนไลนโดยใชจีเนติกอัล กอริทึม4.1 รูปแบบการนํ าเสนอระบบคนคืนสารสนเทศออนไลนโดยใชจีเนติกอัลกอริทึมนี้ จัดทํ าขึ้นภายใตเวคเตอรสเปซโมเดล โดยแตละเอกสารแทนดวยเวคเตอรของคํ าสําคัญและคิวรีแทนดวยเวคเตอรของคํ าที่ใชในคิวรี(query terms) การใชเวคเตอรคิวรีในการคนคืนทํ าไดโดยการจับคูระหวางเอกสารกับคิวรีแลวทํ าการคํ านวณหาคาความคลายคลึง โดยถาหากปรากฏคํ า ณ


18ตําแหนงนั้นในเอกสารหรือคิวรีจะใหคาเปน “1” หากไมปรากฏใหคาเปน “0” คาที่คํ านวณไดเปนการแสดงวาเอกสารนั้น ๆ ตรงกับคิวรีเพียงใด ซึ่งคาความคลายคลึงที่วัดไดนี้จะถูกนํ าไปใชในขั้นตอนการคัดเลือกของกระบวนการจีเนติก ตัวอยางเชน ให Doc เปนเวคเตอรของเอกสารและ Query เปนเวคเตอรของคิวรีDoc = (term 1 ,term 2 ,….term n )Query = (qterm 1 ,qterm 2 ,…..qterm m )StartGen := 0Create InitialPopulationTerminationCriterionSatisfied ?YesDesignateResultNoEvaluate Fitness ofEach Individual inPopulationEndi := 0Gen := Gen+1Yesi = Size ofPopulation ?NoReproduceSelect GeneticOperationMutationSelect OneIndividual Base onFitnessCrossoverSelect TwoIndividuals Base onFitnessSelect OneIndividual Base onFitnessi := i+1PerformReproductionPerform CrossoverPerform MutationCopy intoNew PopulationInsert TwoOffspring into NewPopulationInsert intoNew Populationi := i+1รูปที่ 1 การทํ างานของจีเนติกอัลกอริทึม [12]เมื่อผู ใชใสคิวรีเขาสูระบบสามารถคนคืนชุดของเอกสาร 5 ฉบับประกอบดวยคํ าสํ าคัญดังนี้Doc 1 ประกอบดวย Relational Database,Query, Data Retrieval, ComputerNetworks, DBMSDoc 2 ประกอบดวย Artificial Intelligence,Internet, Indexing, NaturalLanguage Processing


19Doc 3 ประกอบดวย Databases, ExpertSystem, Information RetrievalSystem, MultimediaDoc 4 ประกอบดวย Fuzzy Logic, NeuralNetwork, Computer NetworksDoc 5 ประกอบดวย Object-Oriented,DBMS, Query, Indexingสามารถจัดเรียงเปนชุดของคํ าสํ าคัญ คือ Artificial Intelligence,Computer Networks, Data Retrieval, Databases, DBMS, ExpertSystem, Fuzzy Logic, Indexing, Information Retrieval System, Internet,Multimedia, Natural Language Processing, Neural Network, Object-Oriented, Query, Relational Databasesนําเสนอในรูปแบบโครโมโซม ไดดังนี้คือDoc 1 = 0110100000000011Doc 2 = 1000000101010000Doc 3 = 0001010010100000Doc 4 = 0100001000001000Doc 5 = 0000100100000110โครโมโซมชุดแรกที่ไดมานี้จะเรียกวาประชากรตนกํ าเนิด ซึ่งจะนํ าไปผานกระบวนการจีเนติกตอไป ความยาวของโครโมโซมเหลานี้จะขึ้นอยูกับจํานวนคํ าสํ าคัญของชุดเอกสารทั้งหมดที่ตรงตามคิวรี จากตัวอยางแตละโครโมโซมมีความยาวเทากับ 16 บิท4.2 การวัดคาความเหมาะสมฟตเนสฟงกชันหรือฟงกชันวัดความเหมาะสม คือ ฟงกชันที่ใชในการประเมินวาแตละทางเลือก (solution) นั้น มีความเหมาะสม สามารถใชแกปญหาไดดีเพียงใด สํ าหรับปญหาของการคนคืนสารสนเทศก็คือ ทํ าอยางไรจึงจะสามารถคนหาเอกสารที่ตรงตามความตองการของผูใช จากการที่เลือกใชเวคเตอรสเปซโมเดล การที่จะกํ าหนดวาเอกสารใดตรงตามคิวรีหรือคลายคลึงกับคิวรีนั้น สามารถทํ าไดโดยใชฟงกชันในการวัดความคลายคลึงซึ่งก็มีดวยกันหลายรูปแบบ ในที่นี้เลือกใชฟงกชันดังตารางที่ 1 [6] เพื่อนํ ามาใชเปนฟตเนสฟงกชันจากตารางที่ 1 กํ าหนดให X=(x 1 , x 2 , x 3 ,., x n ),| X | = จํานวนคํ าที่ปร ากฎใน X ,= จํานวนคํ าที่ปรากฎทั้งใน X และ YX ∩Yฟตเนสฟงกชันมี 2 รูปแบบคือแบบถวงนํ้ าหนักและแบบไบนารี แตในการวิจัยครั้งนี้จะใ ชแบบไบนารีผลลัพธที่ไดจากการคํ านวณของฟตเนสฟงกชันจะมีคาอยูระหวาง 0.0–1.0 โดยที่ 1.0 หมายถึงเอกสารและคิวรีนั้นเหมือนกัน คาที่เขาใกล 1.0แสดงวาเอกสารและคิวรีนั้นมีความสัมพันธกันมาก สวนคาที่เขาใกล 0.0แสดงวาเอกสารและคิวรีนั้นมีความสัมพันธกันนอย คาที่ไดจากการคํานวณนี้เรียกวาคาความเหมาะสม (fitness)SimilarityMeasureDicecoefficientCosinecoefficientJaccardCoefficient4.3 การคัดเลือกตารางที่ 1 ฟตเนสฟงกชันBinaryWeightedTerm Vectors Term Vectorsหลังจากไดคาความเหมาะสมของแตละโครโมโซมแลว ขั้นตอนตอมาก็คือการคัดเลือกสายพันธุ (Selection) การคัดเลือกสายพันธุเปนไปตามหลักการอยูรอดของสิ่งที่เหมาะสมที่สุด (Survival of the fittest) โดยโครโมโซมที่มีคาความเหมาะสมเปนที่นาพอใจก็จะไดรับการคัดเลือกไวสวนโครโมโซมที่มีคาความเหมาะสมตํ่ า ก็จะไดรับการคัดเลือกนอยหรือไมไดรับการคัดเลือกเลย4.4 การครอสโอเวอรX ∩Y2X + YXX ∩ Y1 / 2.YX ∩ Y1 / 2X + Y − X ∩ Y. ∑การครอสโอเวอร (Crossover) คือ การนํ าโครโมโซม 2 โครโมโซมมาทํ าการตามขั้นตอนตางๆ ซึ่งจะใหคาโครโมโซมใหมที่จะนํ าไปใชในการคัดเลือกครั้งถัดไป หรือเปนการนํ าโครโมโซมสองโครโมโซมมาผสมกันเพื่อใหไดคาโครโมโซมใหมขึ้นมานั่นเอง ในขั้นตอนนี้จะพยายามสรางทางเลือกใหมและปรับปรุงทางเลือกใหดีขึ้นโดยการครอสโอเวอร ซึ่งจีเนติกอัลกอริทึมจะพยายามสรางทางเลือกที่ดีขึ้นโดยการรวมลักษณะที่ดีของแตละโครโมโซมเขาดวยกัน โครโมโซมที่มีคาความเหมาะสมสูงกวามักจะถูกเลือกมาครอสโอเวอรบอยครั้งกวาสงผลใหมีโอกาสในการรอดไปยังรุนตอ ๆ ไปมีมากกวาt2t∑x . yi ii=1t t2 2∑xi+ ∑yii= 1 i=1t∑x . yi ii=1t t2∑xii= 1 i=1t∑x . yii=1ty22∑xi+ ∑yi− ∑t2iii= 1 i= 1 i=1ix . yi


20การครอสโอเวอรสามารถทํ าไดหลายวิธีเชน การครอสโอเวอรหนึ่งตําแหนง (one point crossover) การครอสโอเวอรสองตํ าแหนง (twopoint crossover) หรือการครอสโอเวอรหลายตํ าแหนง (multiple pointcrossover)การครอสโอเวอรแบบหนึ่งตํ าแหนง โดย ครอสโอเวอร ณ ตํ าแหนงที่ 8101111110011101100110011110000ผลที่ไดหลังการครอสโอเวอร คือ1011111111100001001100100111014.5 การมิวเตชันการมิวเตชัน (Mutation) เปนลักษณะของการผาเหลาคือการนํ าโครโมโซมเกามาสุมแกไขบางสวนของโครโมโซม เชน บิทบางบิทใหเปลี่ยนไป ทํ าใหไดโครโมโซมใหมที่มีสายพันธุตางจากเดิม ซึ่งมีโอกาสที่จะเปนโครโมโซมที่ดีขึ้นหรือเลวลงก็ได หากโครโมโซมที่ไดใหมนี้เปนโครโมโซมที่เลวลง โครโมโซมที่ไดนี้ก็จะถูกคัดออกไปในขั้นตอนการคัดเลือกเอง วัตถุประสงคของการมิวเตชันคือเพื่อประกันการสูญหายของขอมูลและเพื่อความหลากหลายของขอมูล ตัวอยางของการทํ ามิวเตชัน เชน สุมเลือกเปลี่ยนโครโมโซมตํ าแหนงที่ 10101111110011101ผลที่ไดคือ 101111110111101จีเนติกอัลกอริทึม จะทํ าเปนวัฎจักรหมุนเวียนอยูเชนนี้จนกระทั่งถึงจุดหนึ่งตามเงื่อนไข โดยอาจสิ้นสุดเมื่อถึงรุน (generation) ตามที่กํ าหนดหรือสิ้นสุดเมื่อพบคํ าตอบที่ดีที่สุดแลวหรือถึงเธรชสโฮลด (threshold)ตามที่ไดกํ าหนดไวลวงหนาแลวนั้น4.6 ขั้นตอนการทํ างานของระบบ1. ผูใชใสคิวรีเขาสูระบบ2. นําคิวรีไปคนหาจากรายการคํ าสํ าคัญ ทั้งหมดของระบบที่มีอยู3. นําชุดของเอกสารที่ตรงตามคิวรีมาแปลงเปนโครโมโซม จะไดเปนประชากรตนกํ าเนิด4. นําชุดโครโมโซม (ประชากรตนกํ าเนิด) ที่ไดนี้เขาสูกระบวนการจีเนติกโอเปอเรเตอร อันไดแก การคัดเลือก การครอสโอเวอร และการมิวเตชัน ตามที่ไดอธิบายไวแลวดําเนินการตามขอ 4 จนกระทั่งถึงรุนที่กํ าหนด จะไดโครโมโซมคิวรีที่เหมาะสม (optimize query chromosome) เพื่อคนคืนสารสนเทศตอไป5. แปลงโครโมโซมคิวรีที่เหมาะสมนี้เปนคิวรีเพื่อคนคืนสารสนเทศจากฐานขอมูล5. การทดลอง5.1 วิธีการทดลองการทดลองเปนการทดลองคนคืนจากคิวรี 21 คิวรี ซึ่งใชฟตเนสฟงกชันหรือฟงกชันวัดความเหมาะสมที่แตกตางกัน 3 ฟงกชันดังที่ไดกลาวมาแลว คือ Jaccard Coefficient, Cosine Coefficient และ Dice Coefficientโดยที่แตละฟตเนสฟงกชันนั้นจะทดสอบโดยใชคาความนาจะเปนในการครอสโอเวอร 0.8 และ คาความนาจะเปนในการมิวเตชัน 0.01, 0.10และ 0.30 จํานวนรุนสูงสุด (Max Generation) เทากับ 30 รุน เพื่อทดสอบเปรียบเทียบประสิทธิภาพ โดยประสิทธิภาพของการคนคืนสารสนเทศวัดไดจากคาความแมนยํ า (Precision) และคาความระลึก (Recall )คาความระลึก (R) เปนอัตราสวนของการคนพบเอกสารที่ถูกตองจากจํานวนเอกสารที่ถูกตองทั้งหมด ดังสมการที่ 1 [3][6]R = จํานวนเอกสารที่ถูกตองที่คนคืนได (1)จํานวนเอกสารที่ถูกตองทั้งหมดในฐานขอมูลคาความแมนยํ า (P) เปนอัตราสวนของการคนพบเอกสารที่ถูกตองจากจํานวนเอกสารทั้งหมดที่ทํ าการคนคืนมาได ดังสมการที่ 2 [3][6]P = จํานวนเอกสารที่ถูกตองที่คนคืนได (2)จํานวนเอกสารทั้งหมดที่คนคืนออกมาไดฐานขอมูลสํ าหรับงานวิจัยนี้ เปนฐานขอมูลโครงงานนักศึกษา คณะเทคโนโลยีสารสนเทศ สถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบัง จํ านวน 343 โครงงาน


21ตารางที่ 2 ผลการคนคืนโดยใชฟตเนสฟงกชันทั้ง 3 ฟงกชันKeywords Query Chromosome F1 F2 F3 RetRel RetNRelapplication 00100000000000000000000000001100 0.84 0.91 0.90 30 1database 0001000000000000000000000000000010000100 0.59 0.65 0.65 34 8DNS 0011001001 1.00 1.00 1.00 6 2internet 00000000000010000000000001 0.76 0.86 0.84 41 -marketing 0110110 1.00 1.00 1.00 11 8recognition 11000 0.71 0.75 0.74 7 -security 000100100 1.00 1.00 1.00 17 57network 0000100000000010000000 1.00 1.00 1.00 78 215.2 ผลการทดลองปรากฎดังนี้คือ1. ผลจากการทดลองโดยใชฟตเนสฟงกชันทั้ง 3 นั้นทํ าใหไดโครโมโซมคิวรีซึ่งเหมือนกัน เพียงแตมีคาความเหมาะสม(F1,F2,F3) ตางกันเทานั้น ดังนั้นจึงสามารถคนคืนไดชุดเอกสารชุดเดียวกัน แสดงผลไดดังตารางที่ 2 โดย RetRel หมายถึงจํ านวนเอกสารที่ถูกตองที่คนคืนได และ RetNRel หมายถึงจํ านวนเอกสารที่ไมถูกตองที่คนคืนได2. คาความแมนยํ า การคนคืนสารสนเทศโดยใชคาความนาจะเปนในการครอสโอเวอร 0.8 และคาความนาจะเปนในการมิวเตชัน 0.01จะใหคาความแมนยํ าสูงสุดคือ 0.746 ในขณะที่การคนคืนสารสนเทศโดยใชคาความนาจะเปนในการมิวเตชัน 0.10 ใหคาความแมนยําปานกลางคือ 0.560 และการคนคืนสารสนเทศโดยใชคาความนาจะเปนในการมิวเตชัน 0.3 จะใหคาความแมนยํ าตํ่ าสุดคือ0.417 ดังแสดงในรูปที่ 23. คาความระลึก จากการทดลองคนคืนสารสนเทศดวยคาความนาจะเปนในการครอสโอเวอร 0.80 และคาความนาจะเปนในการมิวเตชัน 0.10 ใหคาความระลึกตํ่ าสุด คือ 0.935 การคนคืนสารสนเทศโดยใชคาความนาจะเปนในการมิวเตชัน 0.01 ใหคาความระลึกปานกลาง คือ 0.971 และการคนคืนสารสนเทศโดยใชคาความนาจะเปนในการมิวเตชัน 0.30 ใหคาความระลึกสูงสุด คือ 0.976 ดังแสดงในรูปที่ 21.Efficiency10.90.80.70.60.5PrecisionRecall0.40 0.05 0.1 0.15 0.2 0.25 0.3Pmutationรูปที่ 2 คาความแมนยํ าและคาความระลึก4. จากตารางที่ 2 จะเห็นไดวาการคนคืนโดยคิวรีบางคํ าทํ าใหไดรับเอกสารที่ไมเกี่ยวของจํ านวนมาก สาเหตุเนื่องจากคํ าสํ าคัญเหลานั้นมักปรากฏอยูรวมกับคํ าสํ าคัญอื่นบางคํ า ซึ่งทํ าใหเมื่อทํ าการปรับปรุงคิวรีแลวไดรับคํ าสํ าคัญซึ่งมักจะปรากฎอยูดวยกันนั้นมาดวยแตคํ าสํ าคัญนั้นไมไดบงชี้ถึงสาระสํ าคัญของเอกสารที่ผูใชตองการโดยตรง เพียงแตเปนเรื่องที่มักสัมพันธหรือเกี่ยวของกัน เชนSecurity มัก ปรากฏอยูรวมกับหนังสือที่เกี่ยวกับ Network เมื่อทํ าการปรับปรุงคิวรีจนไดคิวรีที่เหมาะสมเพื่อทํ าการคนคืน ปรากฏวามีเอกสารที่เกี่ยวกับ Network แตไมเกี่ยวกับ Security โดยตรงไดรับการคนคืนขึ้นมาดวย วิธีการที่จะชวยลดขอผิดพลาดนี้ทํ าไดโดยใชการปอนกลับของผู ใช (Relevance Feedback) หรือการปรับปรุงคิวรีใหเฉพาะเจาะจงมากขึ้นดวยการใชตรรกะ (AND, OR, NOT) รวมกับคิวรีเพื่อปรับปรุงคิวรีใหสามารถคนคืนไดตรงตามความสนใจของผูใชมากขึ้น


22ตารางที่ 3 การเปรียบเทียบประสิทธิภาพผลงานวิจัย คาความแมนยํ า คาความระลึกวิธีการของ Kraft 0.842 0.664วิธีการที่นํ าเสนอ 0.746 0.971.5. ผลการคนคืนสารสนเทศโดยวิธีการที่นํ าเสนอเมื่อเปรียบเทียบกับวิธีการโดยทั่วไปพบวา วิธีการที่นํ าเสนอใหคาความระลึกสูงกวาวิธีการทั่วไป เนื่องจากวิธีการที่นํ าเสนอนอกจากจะสามารถคนคืนเอกสารที่คนคืนไดตามวิธีเปรียบเทียบแบบตรงกัน (Exact Match)แลวระบบยังสามารถคนคืนสารสนเทศที่เกี่ยวของแตไมไดระบุโดยตรงจากคิวรีอีกดวย และเมื่อเปรียบเทียบกับผลงานวิจัยที่ใกลเคียงคือผลงานของ Kraft [4] ซึ่งเปนการปรับปรุงคิวรีเพื่อใชในการคนคืนสารสนเทศเชนเดียวกันนั้น ผลปรากฎดังตารางที่ 3 คือวิธีการที่นําเสนอมีคาความแมนยํ าตํ่ ากวา แตใหคาความระลึกสูงกวาวิธีการของ Kraft และเมื่อเปรียบเทียบประสิทธิภาพ (E-Measure) ตามวิธีการของ van Rijsbergen [11] โดยรวมคาความระลึกและคาความแมนยํ าออกมาเปนคาเดียว ดังสมการที่ 3E(1 + b2 ) PR1−b P + R=2โดยที่ P คือคาความแมนยํ า R คือคาความระลึกและ b เปนการวัดความสํ าคัญเชิงสัมพัทธของคาความระลึกและความแมนยํ าของผูใชให b=1 คือความสํ าคัญระหวางคาความระลึกและคาความแมนยํ าเทากัน ผลปรากฎวาวิธีการที่นํ าเสนอมีคา E เทากับ 0.156 และวิธีของKraft มีคา E เทากับ 0.258 ซึ่งคา E ที่ยิ่งเขาใกล 0 แสดงวายิ่งมีประสิทธิภาพดี ดังนั้นสรุปไดวาวิธีการที่นํ าเสนอมีประสิทธิภาพดีกวา6. สรุปจากผลการทดลองในเบื้องตนจะเห็นวาคาความแมนยํ าและคาความระลึกจะมีลักษณะเชิงผกผันกัน การจะเลือกใชพารามิเตอรใดขึ้นกับความเหมาะสมวาตองการใชคนคืนสารสนเทศเพื่ออะไร กรณีที่ตองการเอกสารที่มีคาความแมนยํ าสูงก็ควรจะเลือกใชคาความนาจะเปนในการครอสโอเวอรสูงและคาความนาจะเปนในการมิวเตชันตํ่ า ในขณะที่หากตองการเอกสารที่เกี่ยวของมาก (คาความระลึกสูง) ก็อาจใชคาความนาจะเปนในการมิวเตชันสูงและคาความนาจะเปนในการครอสโอเวอรตํ่ าลงจากผลการทดลองในเบื้องตนนี้จะเห็นวาเราสามารถใชจีเนติกอัลกอริทึมกับการคนคืนสารสนเทศได นอกจากนี้ วิธีการที่นํ าเสนอเปนการใชคํ าสํ าคัญเปนหลักในการคนหา ซึ่งคํ าสํ าคัญเหลานั้นจะ(3)เปนตัวชี้ไปยังเอกสารอีกทีหนึ่ง ดังนั้นวิธีการที่นํ าเสนอจึงสามารถนํ าไปประยุกตใชสํ าหรับคนคืนสารสนเทศภาษาใด ๆ ก็ไดสํ าหรับแนวทางในการวิจัยตอไปคือทํ าการทดลองกับฐานขอมูลที่มีขนาดใหญขึ้น พรอมทั้งนํ าเสนอเอกสารจากการคนคืนตามลํ าดับของคาความเหมาะสมที่วัดไดจากฟตเนสฟงกชันซึ่งจะบงบอกถึงลํ าดับความตองการของผูใชเอกสารอางอิง[1] David, L. Handbook of genetic algorithms. New York : VanNostrand Reinhold. 1991.[2] Goldberg, D.E. Genetic Algorithms: in Search,Optimization, and Machine Learning. New York : Addison-Wesley Publishing Co. Inc. 1989.[3] Korfhage, R.R. Information Storage and Retrieval. NewYork : Wiley Computer Publishing. 1997.[4] Kraft, D.H. et. al. “The Use of Genetic Programming to BuildQueries for Information Retrieval.” in Proceedings of theFirst IEEE Conference on Evolutional Computation. NewYork : IEEE Press. PP. 468-473.[5] Martin-Bautista, M.J. et. al. “An Approach to An AdaptiveInformation Retrieval Agent using Genetic Algorithms withFuzzy Set Genes.” In Proceeding of the Sixth InternationalConference on Fuzzy Systems. New York : IEEE Press. 1997.PP. 1227-1232.[6] Salton, G. Automatic text processing : the transformation,analysis, and retrieval of information by computer. NewYork : Addison-Wesley Publishing Co. Inc. 1989.[7] กาญจนี วงศวิภาพร. “การจัดตารางสอนของโรงเรียนแบบอัตโนมัติโดยจีเนติก อัลกอริทึม.” วิทยานิพนธวิศวกรรมศาสตรมหาบัณฑิต สาขาวิศวกรรมไฟฟา บัณฑิตวิทยาลัย, สถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบัง. 2541.[8] จุมพล พลวิชัย. “การเรียนรูของแขนหุนยนตโดย ใชการโปรแกรมพันธุการ.” วิทยานิพนธ วิศวกรรมศาสตรมหาบัณฑิตสาขาวิศวกรรมคอมพิวเตอร บัณฑิตวิทยาลัย, จุฬาลงกรณมหาวิทยาลัย. 2538.[9] ชัยวัฒน เจษฎาปกรณ. “การลดทอนความเพียรพยายามเชิงคํ านวณของวิธีการเรียนรูแบบการโปรแกรมเชิงพันธุศาสตร”


วิทยานิพนธวิศวกรรมศาสตรมหาบัณฑิต สาขาวิศวกรรมคอมพิวเตอร บัณฑิตวิทยาลัย, จุฬาลงกรณมหาวิทยาลัย. 2540.[10] ธวัชชัย เอี่ยมมนัสสกุล. “การปรับปรุงประสิทธิผลของโปรแกรมหุ นยนตซึ่งกอกํ าเนิดโดยการโปรแกรมเชิงพันธุศาสตร.” วิทยานิพนธวิศวกรรมศาสตรมหาบัณฑิต สาขาวิศวกรรมคอมพิวเตอรบัณฑิตวิทยาลัย, จุฬาลงกรณมหาวิทยาลัย. 2540.[11] นิพนธ เจริญกิจการ. “การจัดเก็บและคนคืนสารสนเทศ ฉบับปรับปรุงครั้งที่ 1.” [Online]. Available :http://web.it.kmutt.ac.th/nipon/ yllabus-temp.html. 2542.[12] สุรเดช ตรีวิทยากรานต. “การจัดตารางเวลาสอบหัวขอวิจัยโดยอาศัยเทคนิคจีเนติก อัลกอริทึม.” วิทยานิพนธวิทยาศาสตรมหาบัณฑิต สาขาเทคโนโลยีสารสนเทศ บัณฑิตวิทยาลัย,มหาวิทยาลัยพระจอมเกลาธนบุรี. 2540.23Bangorn Klabbankoh received bachelordegree in education technology from KingMongkut’s University of TechnologyThonburi (KMUTT) in 1997, bachelordegree in Business Administration(Marketing) from RamkamhaengUniversity in 1999 and master degree ininformation technology from KingMongkut’s Institute of TechnologyLadkrabang (KMITL) in <strong>2000</strong>. Her research interests areGenetic Algorithm, Information Retrieval and Expert System.ผู ชวยศาสตราจารย เอื้อน ปนเงินสํ าเร็ จการศึ กษาระดั บปริ ญญาตรี จากมหาวิทยาลัยศรีนครินทรวิโรฒสาขาคณิตศาสตรปริญญาโทจากจุฬาลงกรณมหาวิทยาลัย และQregon State University สาขาคอมพิวเตอร และไดสํ าเร็จปริญญาเอกทางคอมพิวเตอรจาก University of Nebraskaประเทศสหรัฐอเมริกา ปจจุบันเปนอาจารยประจํ าภาควิชาวิศวกรรมคอมพิวเตอร คณะวิศวกรรมาศาสตร สถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบัง


24ความกาวหนาของการพัฒนาระบบระบุผูพูดภาษาไทยThai Language Speaker Identification System: Development Progress 1ชัย วุฒิวิวัฒนชัย, สุทัศน แซตั้ง และวารินทร อัจฉริยะกุลพรคณะนักวิจัยและพัฒนาระบบระบุผูพูดสํ าหรับภาษาไทย 2หนวยปฏิบัติการวิจัยและพัฒนาวิศวกรรมภาษาและซอฟตแวรศูนยเทคโนโลยีอิเล็กทรอนิกสและคอมพิวเตอรแหงชาติสํานักงานพัฒนาวิทยาศาสตรและเทคโนโลยีแหงชาติ539/2 อาคารมหานครยิบซั่ม ชั้น 22 ถนนศรีอยุธยา แขวงพญาไท เขตราชเทวี กรุงเทพฯ 10400ABSTRACT -- Speaker identification for Thai language project has been initiated by the NationalElectronics and Computer Technology Center (NECTEC) since 1999. The first objective is to research anddevelop a text-dependent closed-set speaker identification system in the office environment. The speakingtexts for this system are isolated digit utterances 0-9 and their concatenation. This paper gives an overviewof the system, explains the route of the past 1-year research history, and some details of the latestidentification system, which achieves the best performance of 92.30% for isolated digit “0” and enhances to98% for 3-concatenated digit.KEY WORDS -- Speaker Identification, Text Dependent, Closed Set, Thai Languageบทคัดยอ -- โครงการระบบระบุผูพูดสํ าหรับภาษาไทย (Speaker Identification for Thai Language) ของศูนยเทคโนโลยีอิเล็กทรอนิกสและคอมพิวเตอรแหงชาติ ไดริเริ่มขึ้นในปงบประมาณ 2542 โดยเบื้องตนมุงเนนการวิจัยและพัฒนาระบบระบุผูพูดที่ใชกับภาษาไทยแบบกํ าหนดคํ าพูดตายตัว (Text dependent) เปนระบบปด (Closed set system) และใชในสภาพแวดลอมสํ านักงาน (Office environment) คํ าพูดที่ใชในการวิจัยเปนเสียงตัวเลขโดด 0-9 และตัวเลขโดดตอกัน บทความฉบับนี้เปนการสรุปผลการวิจัยโดยนํ าเสนอภาพรวมของระบบระบุผูพูด แสดงรายละเอียดของผลงานวิจัยในชวง 1 ปที่ผานมา รวมทั้งนํ าเสนอผลงานความกาวหนาลาสุด พรอมทั้งรายละเอียดของระบบระบุผูพูดที่ใชกับผูพูดจํ านวน 50 คน ซึ่งไดผลอัตราการระบุผูพูดสูงที่สุด 92.30% เมื่อใชเสียงตัวเลข 0 และเพิ่มขึ้นเปน 98% เมื่อใชเสียงตัวเลขโดดตอกัน 3 ตัวคํ าสํ าคัญ -- การระบุผูพูด, กํ าหนดคํ าพูดตายตัว, ระบบปด, ภาษาไทย1 บทความนี้ตีพิมพครั้งแรกในเอกสารประกอบการประชุมวิชาการของศูนยเทคโนโลยีอิเล็กทรอนิกสและคอมพิวเตอรแหงชาติ ป 2543 หนา 496-510 และไดรับรางวัลบทความวิชาการดีเดน2 คณะนักวิจัยประกอบดวย ดร.จุฬารัตน ตันประเสริฐ หัวหนาโครงการ, นายวศิน สินธุภิญโญ, นายเปรมนาถ ดูเบ, นายสุทัศน แซตั้ง, นายวารินทรอัจฉริยะกุลพร, นายชัย วุฒิวิวัฒนชัย และนายศวิต กาสุริยะ


251. บทนํ าในปจจุบันระบบที่ใชองคประกอบและลักษณะของบุคคลมาระบุตัวบุคคลนั้นๆ (Biometrics personal identification system) เพื่อใชในระบบรักษาความปลอดภัย แทนการปอนรหัสผานทางแปนพิมพ (Password)หรือการใชบัตรแถบแมเหล็ก (Magnetic card) เปนที่นิยมมาก เชน การตรวจสอบลายนิ้วมือ (Fingerprints) การตรวจสอบรูปแบบมานตา(Retinal patterns) หรือจะเปนการตรวจสอบใบหนา (Face recognition)เปนตน เหตุผลประการหนึ่งที่ระบบดังกลาวไดรับความนิยมเพราะยากตอการปลอมแปลง ในขณะที่การใชรหัสผาน หรือบัตรแถบแมเหล็กนั้นงายตอการถูกลักขโมย รวมทั้งอาจจะลืมรหัสผาน หรือลืมนํ าบัตรติดตัวมาดวยระบบการรูจํ าผูพูด (Speaker recognition system) ก็เปนหนึ่งในเทคโนโลยีดังกลาว ที่ไดรับความสนใจนํ ามาใชในการระบุตัวบุคคล[1,2] นอกเหนือจากระบบระบุตัวบุคคลอื่นๆ การรูจํ าผูพูดสามารถแบงออกไดเปน 2 ประเภทหลักๆ คือ การรับรองผูพูด (Speaker verification)ซึ่งเปนการตรวจสอบผูพูดวาเปนบุคคลเดียวกับบุคคลที่กํ าหนดหรือไมและการระบุผูพูด (Speaker identification) ซึ่งจะทํ าการตรวจสอบผูพูดวาเปนใคร [3] นอกจากนี้การระบุผูพูดยังแบงไดเปน 2 อยางคือ การระบุผูพูดแบบปด (Closed-set) เปนการระบุวาผูพูดเปนบุคคลใดในกลุมบุคคลที่กําหนด ในขณะที่การระบุผูพูดแบบเปด (Open-set) เปนการระบุวาผูพูดเปนบุคคลใดในกลุมบุคคลที่กํ าหนด หรือเปนบุคคลนอกกลุม ระบบการรู จําผูพูดยังสามารถแบงไดตามขอความที่พูดคือ แบบกํ าหนดคํ า หรือประโยคใหพูด (Text dependent) และแบบไมกํ าหนดคํ า หรือประโยคใหพูด (Text independent) หรือแบงตามสถานที่ใชงาน คือในสภาพแวดลอมของสํ านักงาน (Office environment) และสภาพแวดลอมทางโทรศัพท (Telephone environment)สํ าหรับงานวิจัยนี้ เปนการวิจัยและพัฒนาระบบระบุผูพูดสํ าหรับภาษาไทยแบบกํ าหนดคํ าพูดตายตัว และเปนระบบปด ใชในสภาพแวดลอมสํานักงาน ถือไดวาเปนงานวิจัยในยุคเริ่มแรกของการวิจัยระบบรูจํ าผูพูดสําหรับภาษาไทย และบทความฉบับนี้เปนบทสรุปความกาวหนาของงานวิจัยใน 1 ปที่ผานมา โดยแบงหัวขอดังนี้ หัวขอที่ 2 จะกลาวถึงภาพรวมวิธีการระบุผูพูด โดยใหรายละเอียดคราวๆ ของสวนประกอบตางๆ ในระบบ หัวขอที่ 3 จะกลาวถึงขั้นตอนของงานวิจัยที่ผานมาโดยแบงแยกเปนงานวิจัยในสวนตางๆ ของระบบ หัวขอที่ 4 จะกลาวถึงผลงานลาสุดที่ใหผลการระบุผูพูดสูงที่สุด หัวขอที่ 5 จะสรุปปญหา ขอเสนอแนะและงานวิจัยที่จะดํ าเนินการตอไปในอนาคต และสรุปเนื้อหาของบทความนี้ในหัวขอที่ 62. ภาพรวมของระบบระบุผูพูดหลักการโดยทั่วไป สํ าหรับการสรางระบบระบุผูพูดไดแสดงไวในรูปที่ 1[3] ประกอบดวยการประมวลผลเบื้องตน (Preprocessing) การสกัดคาลักษณะสํ าคัญ (Feature extraction) และการรูจํ า (Recognition)สัญญาณเสียงการประมวลผลเบื้องตนการสกัดคาลักษณะสําคัญการรูจําผลการรูจํารูปที่ 1. หลักการโดยทั่วไปของระบบระบุผูพูด2.1 การประมวลผลเบื้องตน (Preprocessing)สัญญาณเสียงที่ผานการแปลงสัญญาณเปนดิจิตอลแลว จะนํ ามาผานขั้นตอนการประมวลผลเบื้องตน ซึ่งประกอบดวยขั้นตอนตางๆ ดังนี้1. การกรองทางความถี่ (Filtering) เปนขั้นตอนในการกรองสัญญาณในชวงความถี่ที่ไมตองการออกโดยอาศัยตัวกรองแบบดิจิตอล2. การตัดหัว-ทายเสียง (Endpoint detection) เปนขั้นตอนในการกําหนดจุดเริ่มตนและจุดสิ้นสุดของเสียง โดยการแยกสวนที่เปนคํ าพูดออกจากสวนที่ไมใชคํ าพูด วิธีในการตัดหัว-ทายเสียงมีหลายวิธีเชน ใชคาระดับพลังงาน (Energy level) ใชอัตราการตัดศูนย (Zerocrossingrate) เปนตน3. การนอรมอลไลซทางเวลา (Time normalization) เปนขั้นตอนการเพิ่ม หรือลดขนาดความยาวของสัญญาณในเชิงเวลา เพื่อปรับแตงขนาดความยาวของสัญญาณใหเหมาะสมตามตองการ ทั้งนี้จะขึ้นอยูกับกระบวนการในการรูจํ าวาจํ าเปนตองทํ าการนอรมอลไลซสัญญาณใหเทากันหรือไม วิธีในการนอรมอลไลซทางเวลามีหลายวิธี เชน การเปลี่ยนอัตราการชักตัวอยาง (Sampling rate changing)การประมาณคาในชวงเชิงเสน (Linear interpolation) [4] และการเหลื่อมและรวมสวนยอยแบบซิงโครไนซ (Synchronized overlapand-add)[5] เปนตน2.2 การสกัดคาลักษณะสํ าคัญ (Feature)การสกัดคาลักษณะสํ าคัญ คือการวิเคราะหหาคาที่จะใชแทนสัญญาณเสียง เพื่อนํ าไปใชในขั้นตอนการรูจํ า แบงไดเปน 3 กลุมหลัก กลุ มแรก


26เปนคาลักษณะสํ าคัญระดับสูง (High level feature) ไดแก สํ าเนียงการพูดรูปแบบในการพูด และความเร็วในการพูด เปนตน ในกลุมที่สอง จะใชคาลักษณะสํ าคัญทางฉันทลักษณ (Prosodic feature) เชน คาความถี่มูลฐาน (Fundamental frequency) ความถี่ฟอรแมนท (Formant frequency)และระดับพลังงาน (Energy profile) เปนตน ถึงแมวาคาลักษณะสํ าคัญแบบนี้จะมีประสิทธิภาพสูงในการรูจํ า แตยากในการสกัดจากสัญญาณกลุมสุดทายเรียกวาคาลักษณะสํ าคัญแบบเอนเวโลปของสเปกตรัม(Spectral envelop feature) [6] เปนกลุมที่นิยมใชกันมาก เนื่องจากคาลักษณะสํ าคัญสวนใหญสํ าหรับการรูจํ าเสียงจะรวมอยูในขอมูลเชิงสเปกตรัมนี้ อีกทั้งยังงายและสะดวกในการคํ านวณหาคาดวย ตัวอยางคาลักษณะสํ าคัญแบบนี้ไดแก สัมประสิทธิ์การประมาณพันธะเชิงเสน(Linear prediction coefficients: LPC), สัมประสิทธิ์เซปสตรัม (Cepstralcoefficient) และพัฒนาการอีกมากมายจากเซปสตรัมปกติ [7] อาทิเชนสัมประสิทธิ์เซปสตรัมบนสเกลเมล (Mel frequency cepatralcoefficients: MFCC) เซปสตรัมแบบหักลบคาเฉลี่ย (Cepstral meansubstraction: CMS) และเซปสตรัมแบบผานตัวกรองภายหลัง (Postfiltered cepsturm: PFL) เปนตน นอกจากนั้น ยังมีการคํ านวณคาการเปลี่ยนแปลง (Derivative หรือ Delta) ของสัมประสิทธิ์เหลานี้มาใชเปนคาลักษณะสํ าคัญเพิ่มเติมไดดวยสํ าหรับการคํ านวณคาลักษณะสํ าคัญแบบเอนเวโลปของสเปกตรัมจะมีขั้นตอนดังนี้ [3]1. การเนนสัญญาณขั้นตน (Preemphasis) เปนขั้นตอนในการบีบอัดสัญญาณเสียงโดยนํ าสัญญาณเสียงผานตัวกรองลํ าดับหนึ่ง (Firstorderfilter) ซึ่งจะเพิ่มอัตราสวนสัญญาณตอสัญญาณรบกวน(Signal to noise ratio)2. การแบงเปนสวนยอย (Frame) เปนขั้นตอนในการแบงสัญญาณเสียงเปนสวนยอย ขนาดความยาวประมาณ 10 – 40 มิลลิวินาที ซึ่งทําใหสัญญาณเสียงมีคุณสมบัติเปลี่ยนแปลงตามเวลานอยมาก หรือไมมีเลย เพื่อใหสามารถสรางแบบจํ าลองการกระจายของหนวยสัญญาณเสียงยอยทางสถิติได3. การลดขอบดวยฟงกชันหนาตางสํ าหรับปรับสัญญาณใหราบเรียบ(Smoothing window)4. การสกัดคาลักษณะสํ าคัญ (Feature extraction) ในสวนนี้ จะทํ าการคํ านวณคาลักษณะสํ าคัญของสัญญาณเสียงในแตละสวนยอย ผลลัพธอยูในรูปแบบของเวกเตอรของคาลักษณะสํ าคัญ (Featurevector) สําหรับแตละสวนยอย2.3 การรูจํ า (Recognition)ขั้นตอนนี้ประกอบดวย 2 หนาที่หลัก คือการนํ าเวกเตอรของคาลักษณะสําคัญของสัญญาณเสียง ที่อยูในชุดอางอิงหรือชุดฝกฝน มาทํ าการเรียนรูเมื่อเรียนรูแลวเวกเตอรของสัญญาณเสียงที่ตองการทดสอบการรูจํ า จะถูกนําเขามาเทียบเคียงเพื่อรูจํ า ขั้นตอนในการเรียนรูนั้นขึ้นอยูกับวิธีในการรูจําของระบบนั้นๆ บางวิธีก็เพียงแคเก็บขอมูลชุดเรียนรูไวเปรียบเทียบกับขอมูลชุดทอดสอบเทานั้น เชน วิธีการรูจํ าแบบหาคาระยะหางยูคลิเดียน(Euclidean distance) วิธีไดนามิกไทมวารปปง (Dynamic time warping:DTW) [6] เปนตน ในขณะที่บางวิธี จะนําขอมูลชุดเรียนรูไปแปลงเปนคาอางอิงที่ตองการ เชน โครงขายประสาทเทียม (Artificial neuralnetworks: ANN) [8] จะนําขอมูลชุดเรียนรูไปผานโครงขายที่สรางขึ้นเพื่อจดจํารูปแบบ และเก็บเปนคานํ้ าหนัก (Weight) แทน วิธีควอนไตซแบบเวกเตอร (Vector quantization: VQ) [9] ซึ่งจะแทนเวกเตอรทั้งหมดของแตละสัญญาณเสียงอางอิงดวยเวกเตอรจํ านวนไมมาก หรือการใชแบบจํ าลองฮิดเดนมารคอฟ (Hidden markov model: HMM) [6,9] โดยนํ าขอมูลชุดฝกฝน ไปผานแบบจําลองที่สรางขึ้นเพื่อจดจํ ารูปแบบ และเก็บคาทางสถิติและคาความนาจะเปนของแตละสถานะไว เปนตน แตทั้งหมดจะมีพื้นฐานอยูที่การคํ านวณระยะหางของรูปแบบที่จะรูจํ า และนํ าคาระยะหางที่ไดไปใชรูจํ าตามแตละวิธีนั้นๆการเลือกใชวิธีการรูจํ า ขึ้นอยูกับขอกํ าหนดของงาน เชน วิธี DTW และANN เหมาะสมกับระบบแบบกํ าหนดคํ าพูดตายตัว ในขณะที่วิธี VQ และHMM จะเหมะสมกับระบบงานที่เปนแบบไมกํ าหนดคํ าพูดมากกวา [1,9]3. เสนทางการวิจัยที่ผานมาเนื่องจากงานดานการระบุผูพูดสํ าหรับภาษาไทยในประเทศไทยยังไมมีผลงานวิจัยมากนัก คณะวิจัยจึงเริ่มศึกษาแนวทางจากบทความการระบุผูพูดจากภาษาตางประเทศเพื่อเปนแนวทางในการดํ าเนินการ งานวิจัยเริ่มแรกควรใชระบบระบุผูพูดแบบกํ าหนดคํ าพูดตายตัวเพื่อใหงายตอการวิจัยและไมซับซอนเกินไปนัก โดยทดสอบกับเสียงของตัวเลขโดด 0 ถึง9 ของภาษาไทย ซึ่งคาดวาจะสามารถประยุกตนํ าไปใชกับระบบรักษาความปลอดภัย ระบุผูพูด หรือพิสูจนผูพูดได เชน การระบุผูพูดจากรหัสประจํ าตัว เปนตน3.1 การทดลองขั้นตนในขั้นเริ่มตนของงานวิจัย ไดมีความพยายามในการเลือกระบบรูจํ าที่จะนํามาใช โดยเปรียบเทียบระบบรูจํ าอยางนอย 3 ระบบ คือวิธีหาระยะหางแบบยูคลิเดียน, วิธี DTW โดยใชวิธีตัดสินใจแบบพิจารณาจุดใกล K จุด(K-nearest neighbor: K-NN) [2], และการใช ANN ชนิดเพอเซปตรอนหลายชั้น (Multilayer perceptron network: MLP) รวมกับการเรียนรูแบบแพรกระจายยอนกลับ (Back-propagation) [8]


27การทดลองทํ าการระบุผูพูดจํ านวน 20 คน (ชาย 11 คน หญิง 9 คน) โดยผูพูดแตละคนจะตองอัดเสียงพูดตัวเลขโดด 0-9 จํ านวน 10 ครั้งตอสัปดาหเปนเวลา 5 สัปดาห แบงเสียงจาก 3 สัปดาหแรกเปนชุดฝกฝน ที่เหลือเปนชุดทดสอบ สัญญาณเสียงจะถูกนํ ามาผานผานการนอรมอลไลซทางเวลาเฉพาะในกรณีของระบบรูจํ าแบบยูคลิเดียนและ ANN หลังจากนั้น แบงเปนสวนยอยๆ ละ 20 มิลลิวินาที เหลื่อมสวนยอยละ 5 มิลลิวินาที และใชคาลักษณะสํ าคัญแบบ LPC ขนาด 10 อันดับ ผลการทดลอง [10] แสดงดังรูปที่ 2พูด (%)อัตราการระบุผู100908070605040300 1 2 3 4 5 6 7 8 9DTW+KNN เสียงตัวเลขMLPEuclideanรูปที่ 2. กราฟเปรียบเทียบผลอัตราการระบุผูพูดสํ าหรับวิธี DTW, ANNและระยะหางแบบยูคลิเดียนผลการทดลองชี้ใหเห็นถึงความสามารถของ DTW ซึ่งใหผลการระบุผูพูดสูงสุดถึง 96.67% กับเสียงพูดเลข 5 และผลอัตราการระบุผูพูดเฉลี่ยสํ าหรับทุกเสียงตัวเลขเทากับ 89.42% ในขณะที่ ANN ใหอัตราการระบุผูพูดสูงสุด 85.83% กับเสียงพูดเลข 3 และอัตราการระบุผูพูดเฉลี่ย 74.83%สวนการใชระยะหางแบบยูคลิเดียนใหผลตํ่ าที่สุด โดยมีอัตราการระบุผูพูดเฉลี่ยเพียง 69.75% เทานั้นจากผลการทดลอง สวนหนึ่งที่วิเคราะหไดคือการใชวิธีนอรมอลไลซทางเวลา นาจะเปนวิธีที่ลดประสิทธิภาพของการรูจํ าไดมาก อยางไรก็ตามDTW ไดกลายมาเปนวิธีที่ถูกนํ ามาวิจัยและพัฒนาตอ รวมทั้งการวิจัยวิธีการอื่นๆ ของระบบรูจํ าที่หลีกเลี่ยงการนอรมอลไลซทางเวลา ในขณะเดียวกันการทดลองเพื่อเลือกคาลักษณะสํ าคัญที่ใหประสิทธิภาพสูงขึ้นก็จะทํ าควบคูกันไปดวยกับวิธีการรูจํ าแบบตางๆ เนื่องจากเราไมสามารถบอกไดวา จะใชคาลักษณะสํ าคัญแบบใดจึงเหมาะสมกับเทคนิคในการเทียบเคียงรูปแบบสัญญาณแตละแบบ3.2 การวิจัยเกี่ยวกับระบบรูจํ าหลังจากการทดลองขั้นตนเกี่ยวกับระบบรูจํ าที่จะนํ ามาใชดังไดกลาวมาแลว งานวิจัยก็หันมามุงเนนที่การพัฒนาระบบรูจํ าโดยไดศึกษารายละเอียดของวิธีการรูจํ านั้นๆ เพื่อปรับเปลี่ยนคาพารามิเตอร และขั้นตอนกระบวนการตางๆ เพื่อใหเหมาะสมกับสัญญาณเสียงภาษาไทย เพื่อเพิ่มผลอัตราการรูจํ าใหสูงขึ้น และสามารถรองรับจํ านวนผูพูดไดมากขึ้นโดยไมมีผลกระทบตออัตราการรูจํ าการทดลองเกี่ยวกับ ANNปญหาสํ าคัญประการหนึ่งของ ANN แบบ MLP ซึ่งอาศัยการเรียนรูแบบแพรกระจายยอนกลับ คือจะตองกํ าหนดจํ านวนขอมูลในชั้นขอมูลเขาใหเทากันทุกๆ รูปแบบที่จะรูจํ า ซึ่งจํ าเปนตองใชการนอรมอลไลซทางเวลามาชวย ทํ าใหสูญเสียลักษณะสํ าคัญบางประเภทที่จํ าเปนสํ าหรับการรูจํ าไป อัตราการรูจํ าจึงไมสูงเทาที่ควร เพื่อไมใหลักษณะสํ าคัญสูญเสียระหวางการทํ ากระบวนการนอรมอลไลซทางเวลา และเพื่อประหยัดเวลาในการรูจํ า คณะนักวิจัยฯ จึงไดคิดหาวิธีในการสงขอมูลลักษณะสํ าคัญเขาสูชั้นขอมูลเขาเพื่อใชในการฝกหัดใหม ซึ่งทํ าใหไมมีความจํ าเปนในการทํ านอรมอลไลซทางเวลาอีกตอไป โดยเปลี่ยนใหมีการสงขอมูลเขาแบบหนาตาง (Windowing technique) [11] รายละเอียดของกระบวนการจะกลาวในหัวขอตอไปการทดลองสํ าหรับระบุผูพูดจํ านวน 20 คนเชนเดิม โดยใชคาลักษณะสํ าคัญแบบเซปสตรัมที่คํ านวณมาจาก LPC (Linear predictive codingderived cepstrum, LPCC) ขนาด 15 อันดับ ผลการทดสอบแสดงดังรูปที่3 ยืนยันวา วิธีการสงขอมูลเขาแบบหนาตางนี้ใหผลการรูจํ าที่สูงกวาแบบเดิมโดยเฉลี่ยถึง 15% [8] กลาวคือใหอัตราระบุผูพูดไดสูงสุดถึง 93.75%สําหรับเสียงตัวเลข 0 และใหอัตราการรูจํ าเฉลี่ยสูงถึง 86.37%อัตราการรูจํา (%)1009080706050400 1 2 3 4 5 6 7 8 9เสียงตัวเลขWithout WindowingWith Windowingรูปที่ 3. กราฟเปรียบเทียบผลอัตราการระบุผูพูดดวยวิธี ANN ปกติและแบบใชเทคนิค Windowingการทดลองเกี่ยวกับ DTWวิธีการรู จําแบบ DTW เปนอีกวิธีหนึ่งที่ไดศึกษาอยางละเอียด หลังจากไดศึกษาวิธีการรูจํ าแบบ DTW แลวพบวาพารามิเตอรตางๆ ใน DTW ไดแก


28การเลือกคา r หรือกรอบของจุดที่อนุญาตใหมีการจับคูจุดได (Timealignment window) และจํ านวนจุดของการกาวแตละครั้งใหเหมาะสมการกําหนดคา r ไวคงที่ จะสงผลกระทบกับการจับคูลํ าดับ 2 ลํ าดับที่มีความยาวตางกันมากๆ นอกจากนี้ถามีจํ านวนชุดอางอิงมากก็จะสูญเสียเวลาในการคํ านวณระยะหางมาก และถามีจํ านวนผูพูดมากก็จะเสียเวลาในการคํ านวณมากเชนกันจากปญหาตางๆ ดังกลาว จึงไดมีการทดลอง 3 สวน สวนแรกไดทํ าการทดลองเพื่อปรับคา r ที่เหมาะสม [12] โดยทําการทดลองระบุผูพูดจํ านวน20 คน ใชคาลักษณะสํ าคัญแบบ LPC ขนาด 10 อันดับ ปรากฏวาคา r ที่เหมาะสมขึ้นอยูกับความยาวของเสียงที่ใชในการระบุผูพูด สํ าหรับเสียงตัวเลขโดด คา r เทากับ 5 ใหผลการระบุไดสูง และคา r ควรจะเพิ่มขึ้นเมื่อใชเสียงพูดยาวขึ้นสวนที่ 2 เปนการเสนอขั้นตอนกระบวนการในการกํ าหนดคา r รวมทั้งแกไขปญหาความแตกตางของความยาวของลํ าดับที่เทียบเคียงกัน ในสวนนี้ไดเสนอเทคนิคการเทียบเคียงดวย DTW 3 เทคนิค ดังแสดงในรูปที่ 4 เทคนิคแรกเปนการกํ าหนดคา r คงที่และมีการเพิ่มคาศูนยตอทายสําหรับลํ าดับที่สั้นกวา เทคนิคที่ 2 เปนการกํ าหนดคา r ใหเทากับความแตกตางของความยาวของลํ าดับที่เทียบเคียงกัน เทคนิคสุดทายเปนการยึดจุดที่ควรจะเทียบเคียงกัน ตามสัดสวนของความยาวแลวจึงกํ าหนดคา rใหคงที่คาหนึ่ง ผลการทดลอง [13] ปรากฏวาในการระบุผูพูดจํ านวน 50คน โดยใชคาลักษณะสํ าคัญแบบ LPCC ขนาด 15 อันดับ เทคนิคที่ 1 และ3 ใหผลการระบุผูพูดเฉลี่ยไดใกลเคียงกันกลาวคือ 84.53% และ 84.29%ตามลําดับ เทคนิคที่ 1 ใหผลดีกวาเล็กนอยและยังใชจํ านวนการคํ านวณนอยกวาอีกดวยสวนสุดทายเปนการทดลองปรับเปลี่ยนจํ านวนเสียงอางอิงจากเดิมใชเสียงจาก 3 สัปดาหแรก (30 เสียง) เปน 20 และ 10 เสียงโดยคัดแบบคละกันจาก 3 สัปดาหแรก ผลการทดลอง [13] ปรากฏใหเห็นวาสํ าหรับการระบุผู พูด 50 คน และใชคาลักษณะสํ าคัญแบบ LPCC ขนาด 15 อันดับจํานวนเสียงอางอิงเทากับ 20 ใหผลการทดลองไดถึง 84.61% ซึ่งสูงกวาคาอื่น แสดงใหเห็นวาการใชชุดอางอิงจํ านวนมากอาจทํ าใหระบบเกิดความสับสนไดมากขึ้นAB2rก. เทคนิคที่ 1zero-valueABABข. เทคนิคที่ 2ค. เทคนิคที่ 3รูปที่ 4. ขั้นตอนกระบวนการ DTW 3 เทคนิคการทดลองระบบรูจํ าแบบอื่นๆนอกเหนือจาก ANN และ DTW แลว ยังไดมีความพยายามใชระบบรูจําแบบอื่น ไดแก วิธี VQ, วิธี HMM แบบไมตอเนื่อง (Discrete hiddenmarkov model: DHMM) และวิธีแบบจํ าลองสวนผสมแบบเกาส(Gaussian mixture model: GMM) ซึ่งกําลังอยูในขั้นตอนการทดลองการทดลองวิธีการตัดสินใจเมื่อใชเสียงตัวเลขตอกันการทดลองอีกสวนหนึ่ง คือการเพิ่มความยาวของคํ าพูดที่ใชในระบบระบุผูพูดโดยใชเสียงตัวเลขโดดตอกัน เพื่อเพิ่มประสิทธิภาพของการระบุผูพูด โดยคัดเลือกเอาคาลักษณะสํ าคัญของเสียงตัวเลขโดดที่ใหอัตราการระบุผูพูดสูงที่สุดอันดับแรกๆ มาตอกันแลวจึงเขาระบบรูจํ าวิธีการนี้จะใหผลอัตราการรูจํ าสูงขึ้นกวาการใชเสียงตัวเลขโดด อยางไรก็ตามการใชตัวเลขตอกันนี้ จะทํ าใหระบบใชเวลาในการประมวลผลมากขึ้นโดยเฉพาะอยางยิ่ง ระบบที่ใช DTW ซึ่งตองกํ าหนดคา r ใหกวางขึ้น ยิ่งเปนการเพิ่มเวลาในการรูจํ ามากขึ้นไปอีก วิธีการหนึ่งสํ าหรับระบบระบุผูพูดที่ใช DTW และ K-NN ซึ่งไดเสนอไวใน [13] คือการรวมเสียงอางอิง Kเสียงที่ไดจากการระบุผูพูดดวยตัวเลขโดดแตละตัว เชน ถาสํ าหรับตัวเลขโดด ใชกฎการตัดสินใจแบบ 5-NN เมื่อใชตัวเลข 3 ตัวตอกันในระบบระบุผู พูด จะทํ าการคํ านวณ 5-NN ของตัวเลขโดดแตละตัวแลวจึงนํ ามารวมกันพิจารณาแบบ 15-NN เปนตนการทดลองระบุผูพูดจํ านวน 50 คนโดยใช LPCC ขนาด 15 อันดับ กับตัวเลขตอกัน 3 ตัวดวย DTW ผลปรากฏวาวิธีตัดสินใจแบบใหมใหผลอัตราการระบุผูพูด 96.10% ในขณะที่วิธีแบบเกา คือการนํ าคาลักษณะสํ าคัญของแตละเลขมาตอกันกอน โดยใช r = 20 จะใหอัตราการรูจํ า 95.40%ซํ้ายังใชเวลาในการประมวลผลนานกวามาก หลักการเดียวกันนี้สามารถนําไปใชไดในระบบระบุผูพูดที่ใช ANN แบบใหมไดเชนกัน3.3 การวิจัยเกี่ยวกับคาลักษณะสํ าคัญของเสียง2r2r


29หลังจากไดทดลองเกี่ยวกับระบบที่ใชในการเทียบเคียงพอสมควรแลวคณะนักวิจัยไดเริ่มหันมาพิจารณาคาลักษณะสํ าคัญที่เหมาะสมสํ าหรับระบบแตละระบบ คาลักษณะสํ าคัญที่เปนที่นิยม ไดรับการพิสูจนแลววามีประสิทธิภาพสูง สํ าหรับการรูจํ าผูพูดหรือรูจํ าเสียงพูดไดถูกนํ ามาใชในการทดลองเปรียบเทียบในชวงตนของงานวิจัย ไดมีการใชคาสัมประสิทธิ์การประมาณพันธะเชิงเสน (Linear prediction coefficient: LPC) เปนคาลักษณะสํ าคัญ ตอมาจึงหันมาใชคาสัมประสิทธิ์เซปสตรัม (Cepstral coefficient) ชนิดที่คํ านวณมาจาก LPC เรียกวา LPCC (Linear predictive coding derived cepstrum)โดยมีการทดลองที่แสดงไวใน [14] เปนการทดลองระบุผูพูดจํ านวน 20คน โดยใชคาลักษณะสํ าคัญแบบ LPC และ LPCC ขนาด 10 และ 15อันดับ ใชระบบรูจํ าแบบ DTW และ K-NN ผลการทดลองดังตารางที่ 1แสดงใหเห็นอยางชัดเจนวา LPCC ใหผลการระบุผูพูดสูงกวา LPC มากทั้งแบบ 10 และ 15 อันดับ สํ าหรับ LPCC แลว ใชขนาด 15 อันดับใหผลดีกวา 10 ลําดับโดยใหผลการระบุผูพูดเฉลี่ยถึง 86.28%ตารางที่ 1. การทดลองเปรียบเทียบอัตราการรูจํ าของระบบที่ใช LPC และLPCC ขนาด 10 และ 15 อันดับอัตราการระบุผูพูด (%)ตัวเลข LPCLPCC10 15 10 150 84.00 83.75 90.50 91.001 71.00 68.75 86.00 89.752 64.75 69.50 83.00 87.003 74.25 67.75 83.75 85.004 77.50 68.50 91.00 93.005 70.50 70.75 90.50 91.506 69.00 65.25 82.25 85.757 60.75 56.75 81.75 84.758 48.50 49.50 64.25 70.009 70.50 66.50 86.25 85.00เฉลี่ย 69.08 66.70 83.93 86.28ในงานวิจัยถัดมา คาลักษณะสํ าคัญอีกหลายชนิดโดยเฉพาะคาลักษณะสําคัญที่อยูในกลุมของเซปสตรัมไดถูกนํ าขึ้นมาทดลอง อาทิเชน เซปสตรัมแบบหักลบคาเฉลี่ย (Cepstral mean substraction: CMS) เซปสตรัมแบบใหนํ้ าหนักที่ปรับสวนประกอบได (Adaptive component weightedcepstrum: ACW) เซปสตรัมบนสเกลเมล (Mel frequency cepstralcoefficient: MFCC) และเซปสตรัมแบบผานตัวกรองภายหลัง (Postfiltered cepstrum: PFL) ในจํานวนนี้ คาลักษณะสํ าคัญที่ใหผลการระบุผูพูดไดสูงไดแก MFCC และ PFL จึงมีการทดลองเปรียบเทียบคาลักษณะสํ าคัญ 3 คาคือ LPCC, MFCC และ PFL กับการระบุผูพูดจํ านวน 50 คนและกําหนดอันดับของคาลักษณะสํ าคัญใหคงที่ที่ 15 อันดับ ปรากฏวาทั้งการทดลองโดยใช ANN ที่ปอนขอมูลแบบหนาตาง และการทดลองโดยใช DTW และ K-NN [14] ผลการระบุผูพูดเฉลี่ยจะสูงที่สุดเมื่อใช MFCCซึ่งสูงกวา PFL เพียงเล็กนอยในขณะที่ LPCC ใหผลตํ่ าที่สุด รายละเอียดของการคํานวณและผลการทดลองจะไดกลาวในหัวขอถัดไปนอกจากคาลักษณะสํ าคัญที่กลาวมาแลว ยังไดมีการวิจัยที่ทดลองใชคาลักษณะสําคัญแบบอื่นๆ อีก อาทิเชน การประมาณพันธะแบบอิงการรับฟงของมนุษย (Perceptual linear predictive: PLP) ซึ่งยังไมไดผลการระบุผูพูดสูงนัก และการผสมคาลักษณะสํ าคัญปกติกับคาการเปลี่ยนแปลง(Derivative) ซึ่งแมจะใหผลดีกวาแบบปกติก็จริง แตตองใชลํ าดับของคาลักษณะสําคัญจํ านวนมาก เปนการลดความเร็วของการประมวลผล3.4 การทดลองอื่นๆนอกจากงานวิจัยในสวนหลักที่กลาวมาแลว ยังมีการวิจัยในรายละเอียดสวนอื่นๆ ที่มีความสําคัญควรคาแกการพิจารณา เพื่อเพิ่มโอกาสในการพัฒนาผลการระบุผูพูดใหดีขึ้น ในที่นี้มีการวิจัยเพิ่มเติม 2 สวนดังนี้เทคนิคการนอรมอลไลซทางเวลาในขั้นตอนหนึ่งของการวิจัย ไดมีความพยายามปรับปรุงระบบรูจํ าที่ใชANN แบบปกติ เนื่องจากสามารถรูจํ าไดโดยใชเวลาประมวลผลไมมากเมื่อเทียบกับ DTW สําหรับการพัฒนาระบบ ANN ดังที่ไดกลาวมาแลวสวนสํ าคัญที่นาจะเปนตัวฉุดความสามารถของการรูจํ าลง คือการนอรมอลไลซทางเวลา ซึ่งเปนการปรับใหเสียงมีความยาวเทากันกอนผานเขาระบบ เพื่อใหไดจํ านวนขอมูลที่จะสงเขา ANN เทากันทั้งหมดวิธีการนอรมอลไลซทางเวลามีหลายวิธี ไดแก การเปลี่ยนอัตราการชักตัวอยาง (Sampling rate changing) [4] การประมาณคาในชวงเชิงเสน(Linear interpolation) [4] การเหลื่อมและรวมสวนยอยแบบซิงโครไนซ(Synchronized overlap-and-add: SOLA) [5] วิธีที่ดีจะตองทํ าใหสัญญาณเสียงเพี้ยนไปจากเดิมนอยที่สุดเทาที่จะเปนไปได จากการวิจัยที่ผานมาไดเปรียบเทียบ 2 วิธีคือ การประมาณคาในชวงเชิงเสนและ SOLA หลักการของการนอรมอลไลซทางเวลาทั้ง 2 แบบแสดงในรูปที่ 5


30OriginalInterpolationNormalized0 1 2 3 40 2/3 4/3 2 8/3 10/3 4ผลกระทบของระดับเสียงของคํ าพูดที่ใชระบุผูพูดเสียงของภาษาไทยมีความแตกตางจากเสียงภาษาตางประเทศอยูหลายประการ จุดสํ าคัญจุดหนึ่งคือ ภาษาไทยมีระดับเสียง (Tone) โดยมีหาระดับคือ สามัญ (Middle) เอก (Low) โท (Falling) ตรี (High) จัตวา(Rising) งานวิจัยอีกสวนหนึ่งคือการเปรียบเทียบผลของการใชเสียงพูดในระดับเสียงตางๆ ในการระบุผูพูด โดยมีเปาหมายเพื่อคัดเลือกคํ าที่เหมาะสมมาใชในการระบุผูพูด0 1 2 3 4 5 6ก. การประมาณคาในชวงเชิงเสนข. SOLAOriginalAdjustmentSynchronization(fine tune)Weight and Addรูปที่ 5. การนอรมอลไลซทางเวลา 2 วิธี.การประมาณคาในชวงเชิงเสนเปนวิธีที่งาย ทํ าโดยการเพิ่มหรือลดจํ านวนเสียงของสัญญาณตัวอยางใหมีขนาดตามตองการ โดยเสียงสัญญาณใหมจะถูกสรางขึ้นจากสัญญาณเดิมสองขางที่อยูติดกัน วิธีนี้จะทํ าใหสัญญาณเสียงเพี้ยนไป (Aliasing) แตอยางไรก็ตามระบบการเทียบเคียงสัญญาณเสียงก็ยังสามารถทํ าการรูจํ าสัญญาณเสียงได สวนวิธี SOLA จะใหความสํ าคัญในการปรับสัดสวนลักษณะสํ าคัญของเสียงและคุณสมบัติทางเวลาใหมีความคลายคลึงกับสัญญาณเสียงตนแบบมากที่สุด โดยการตัดสัญญาณเสียงเปนชวง ๆ แลวนํ ามาซอนทับกัน ปรับเปลี่ยนระยะทางของสัญญาณที่นํามาซอนทับกัน โดยขึ้นอยูกับสัดสวนของเวลาที่ตองการ ใหนํ้าหนักความสํ าคัญของสัญญาณในแตละชวงกอนที่จะไปรวมกันการทดลองกับผูพูดจํ านวน 20 คนโดยใชคาลักษณะสํ าคัญแบบ LPCCขนาด 15 อันดับกับเสียงตัวเลขโดด 0-9 ผลการทดลองปรากฏวาวิธีSOLA ใหอัตราการระบผู พูดเฉลี่ยถึง 75.33% [15] ในขณะที่วิธีที่ใชการประมาณคาในชวงเชิงเสนใหผลเพียง 67.28 แสดงใหเห็นถึง ความสํ าคัญของการคงลักษณะดั้งเดิมของเสียงไว ดังนั้นถาเปนไปไดควรหลีกเลี่ยงการนอรมอลไลซทางเวลาการทดลองระบุผู พูดจํานวน 9 คน โดยใชคาลักษณะสํ าคัญแบบ LPCขนาด 10 อันดับและระบบรูจํ าแบบ ANN คําพูดที่ใชในการระบุผูพูดประกอบดวย 6 ประโยคคือ “เอเอเอเอเอ”, “เอเอเอเอเอ”, “เอเอเอเอเอ”,“เอเอเอเอเอ”, “เอเอเอเอเอ” และชุดสุดทายเปนวรรณยุกตผสมคือ “เอเอเอเอเอ” ผลการทดลอง [16] พบวาชุดที่เปนเสียงวรรณยุกตผสมใหผลการระบุผู พูดสูงที่สุดคือ 95.56% สวนวรรณยุกตเดี่ยวๆ พบวาเสียงวรรณยุกตในกลุมที่มีการเปลี่ยนแปลงในพยางคคือวรรณยุกตโทและจัตวาจะใหผลไดดีกวาชุดอื่นๆ4. ระบบระบุผูพูดในปจจุบันณ ปจจุบันนี้ ผลการทดลองไดผลดีที่สุดถึง 92.30% สําหรับคํ าพูดตัวเลขโดด และเพิ่มขึ้นสูงกวา 98% เมื่อใชเสียงของตัวเลขตอกัน ระบบดังกลาวมีรายละเอียดดังตอไปนี้4.1 สัญญาณเสียงในงานวิจัย ไดทํ าการอัดเก็บเสียงในรูปแบบของสัญญาณดิจิตอล โดยผานไมโครโฟนที่ตอกับคอมพิวเตอรผานทางการดเสียงปกติ กํ าหนดใหเก็บเสียงในรูปแบบของไฟล WAV อัตราการชักตัวอยาง (Sampling rate)ที่ 11.025 กิโลเฮิรต ตัวอยางละ 16 บิต และแบบชองสัญญาณเดียว(Mono)ทําการอัดเสียงจากผูพูดจํ านวน 50 คน (ชาย 30 คนและหญิง 20 คน) เปนเวลา 5 สัปดาห ในแตละสัปดาห ผูพูดแตละคนจะตองพูดเสียงตัวเลขโดด0-9 เปนภาษาไทย ตัวเลขละ 10 ครั้ง และเพื่อปองกันการที่ผูพูดชินกับการพูดตัวเลขตอๆ กัน จึงมีการพัฒนาโปรแกรมเฉพาะสํ าหรับการอัดโปรแกรมจะทํ าการสุมตัวเลขโดด 0-9 ขึ้นแสดงบนจอคอมพิวเตอรทีละตัว ผูพูดจะตองพูดเสียงตัวเลขที่แสดงเทานั้น โปรแกรมจะกํ าหนดชวงเวลาของการพูดไวไมเกิน 1 วินาทีตอหนึ่งตัวเลข หากผูพูดคนใดพูดกอนชวงเวลาที่กํ าหนดหรือพูดชากวาเวลาที่กํ าหนด โปรแกรมจะสั่งใหพูดใหมอีกครั้งโดยอัตโนมัติ โดยพิจารณาจากคาพลังงานของสัญญาณในชวงเวลา 1 วินาทีดังกลาว หลังจากนั้นจะแบงสัญญาณเสียงออกเปน 2


31กลุ ม สัญญาณเสียงในสัปดาหที่ 1-3 ใชสํ าหรับเปนชุดฝกฝนหรือชุดอางอิง สวนสัปดาหที่ 4-5 ใชเปนชุดทดสอบ4.2 การประมวลผลขั้นตนกระบวนการประมวลผลสัญญาณขั้นตนประกอบดวย การกรองสัญญาณ(Filtering) โดยใชตัวกรองแบบดิจิตอลชนิดผานความถี่สูง กํ าหนดจุดผานความถี่ (Cutoff frequency) ที่ 200 เฮิรต เพื่อปองกันสัญญาณรบกวนความถี่ตํ่ าที่เกิดจากแหลงกํ าเนิดไฟฟา ตอจากนั้นจะผานการตัดหัว-ทายเสียง (Endpoint detection) ในที่นี้อาศัยวิธีการตัดโดยพิจารณาจากคาพลังงานของเสียง [4] โดยไมมีการนอรมอลไลซทางเวลา4.3 การสกัดคาลักษณะสํ าคัญสัญญาณเสียงที่ผานการประมวลผลขั้นตนแลวจะนํ ามาผานการเนนสัญญาณเบื้องตน (Preemphasis) ดวยตัวกรองอันดับที่ 1 (First orderfilter) เพื่อเพิ่มคาอัตราสวนสัญญาณตอสัญญาณรบกวน (Signal-to-noiseratio) หลังจากนั้นจะตัดแบงสัญญาณเสียงออกเปนสวนยอย (Frame)ขนาดสวนยอยละ 20 มิลลิวินาที โดยเหลื่อมสวนยอยละ 5 มิลลิวินาที แตละสวนยอยจะผานการปรับใหราบเรียบ (Smoothing) ดวยแฮมมิงวินโดว(Hamming window) หลังจากนั้นจึงทํ าการสกัดคาลักษณะสํ าคัญ คาลักษณะสําคัญที่ใหผลการระบุผูพูดสูงที่สุด ณ ปจจุบันคือ MFCC และPFL ขนาด 15 อันดับ ซึ่งมีรายละเอียดดังตอไปนี้MFCC [6] – คาสัมประสิทธิ์เซปสตรัมเปนคาลักษณะสํ าคัญที่นิยมมากทั้งในระบบรูจํ าผูพูดและเสียงพูด โดยพื้นฐานแลวเซปสตรัมสามารถคํ านวณไดจาก การแปลงโคซายนแบบไมตอเนื่อง (Discrete cosinetransformation) ของคาลอการิธึม (Logarithm) ของสเปกตรัม(Spectrum) ของสัญญาณเสียงแตละสวนยอย สเปกตรัมของสัญญาณเสียงสามารถหาไดโดยการแปลงฟูริเยรแบบไมตอเนื่อง (DiscreteFourior transformation) หรือการแปลงฟูริเยรแบบเร็ว (Fast Fouriortransformation) ขั้นตอนดังกลาวตั้งอยูบนพื้นฐานแนวคิดที่วา สเปกตรัมของสัญญาณเสียงกํ าเนิดจากสวนประกอบ 2 สวนคือ เอนเวโลปของสเปกตรัม (Spectral envelop) และโครงสรางรายละเอียดของสเปกตรัม(Spectral fine structure) ทั้ง 2 สวนสามารถแยกกันไดดวยการใสลอการิธึม สัมประสิทธิ์เซปสตรัมเปนการแทนสัญญาณในสวนเอนเวโลปของสเปกตรัมเทานั้นพัฒนาการหนึ่งของเซปสตรัม คือการผานสเปกตรัมของสัญญาณเสียงเขาไปในกลุมของตัวกรอง (Filter bank) ซึ่งกระจายอยูบนสเกลความถี่แบบไมสมํ่ าเสมอ เชน การกระจายตามสเกลเมล (Mel scale) [6] ซึ่งออกแบบมาใหเหมาะสมกับการรับฟงของหู เปนตน คาพลังงานของสเปกตรัมของเสียงที่ไดจากตัวกรองแตละตัวจะถูกนํ ามาใชคํ านวณคาสัมประสิทธิ์เซปสตรัมแทนคาสเปกตรัมปกติ คาสัมประสิทธิ์เซปสตัมที่ไดจากการกระทํ าเชนนี้จึงไดชื่อวา MFCCPFL [7,17] – อีกวิธีการหนึ่งของการคํ านวณคาสัมประสิทธิ์เซปสตรัมคือการคํ านวณจากคาสัมประสิทธิ์ LPC วิธีการคํ านวณรวมทั้งเหตุผลของการคํ านวณแสดงไวใน [3,18] หลังจากนั้นมีการเสนอคาลักษณะสํ าคัญแบบใหม โดยผานคาเซปสตรัมที่ไดเขาไปยังตัวกรองซึ่งเรียกวา ตัวกรองภายหลัง (Post filter) ตัวกรองดังกลาวจะทํ าการเนนคาสเปกตรัมของเสียง ณ บริเวณความถี่ฟอรแมนท (Formant frequency) ซึ่งเปนการเพิ่มความโดดเดนของสัญญาณเสียงทั้งในแงการรูจํ าเสียงพูดและรูจํ าผูพูดภาพรวมของการคํ านวณคาลักษณะสํ าคัญทั้ง 2 วิธีที่กลาวมาแสดงไวในรูปที่ 64.4 ระบบรูจํ าAutocorrelationLPC AnalysisCepstrumCalculationPost FilteringPFLSpeech SignalPre-emphasisFrame BlockingFrame SmoothingFFTFilter-BankLogDCTMFCCรูปที่ 6. ขั้นตอนการคํ านวณคาลักษณะสํ าคัญในปจจุบันระบบรูจํ าที่ใหผลการระบุผูพูดสูงสุดคือ DTW โดยใชกฎการตัดสินใจแบบ K-NN รองลงมาคือ ANN โดยใชวิธีปอนขอมูลเปนชวงของสวนยอย สวนตอไปจะอธิบายหลักการคราวๆ ของแตละวิธีDTW และ K-NN [6] – DTW เปนวิธีการหนึ่งของการโปรแกรมพลวัต(Dynamic programming) ใชในการเทียบเคียงเพื่อหาระยะหางระหวางลําดับ 2 ชุดซึ่งยาวไมเทากัน กํ าหนดใหลํ าดับ A = {a 1 , a 2 , …, a I } และ B= {b 1 , b 2 , …, b J } เปน 2 ลํ าดับที่จะเทียบเคียงกัน DTW จะทํ าการหาจุดเทียบเคียงที่ใหคาระยะหางรวมตํ่ าที่สุด ดังแสดงในรูปที่ 7


32ABรูปที่ 7. ภาพแสดงวิธีการเทียบเคียงแบบ DTWโดยอาศัยขั้นตอนกระบวนการดังตอไปนี้ขั้นที่ 1: กําหนดคาเริ่มตน D(a 1 ,b 1 ) = 2d(a 1 ,b 1 ) โดยที่ d(a i , b j ) เปนคาระยะหางระหวางจุด a i และ b j อาจใชระยะหางแบบยูคลิเดียนก็ไดขั้นที่ 2: คํานวณแบบวนซํ้ าหาจุดเทียบเคียง a i และ b j ที่เหมาะสมโดยตั้งอยู บนพื้นฐานที่วา D(a i ,b j ) จะตองใหคาตํ่ าที่สุด ดังสมการ⎧ D(ai−1,b j ) + d(ai, b j )⎪( ai, b j ) = min⎨D(ai−1, b j−1) + 2d(ai, b j )⎪⎩D(ai, b j−1) + d(ai, b j )D (1)ทั้งนี้จะมีขอกํ าหนดดังตอไปนี้1) 1 ≤ i ≤ I,1 ≤ j ≤ J2) จุดเทียบเคียงจุดแรกคือ (a 1 ,b 1 ) และ (a I , b J ) เปนจุดเทียบเคียงจุดสุดทาย3) สําหรับแตละจุด (a i , b j ) ที่เทียบเคียงกัน i − j ≤ rk+ 1 kk+1 k4) 0 ≤ i − i ≤ 1, 0 ≤ j − j ≤ 1 โดย k เปนดัชนีรอบของการเทียบจุดD(aI, bJ)ขั้นที่ 3: คาระยะหางรวมของ 2 ลํ าดับคือI + Jสมการที่ (1) จะตรงตามขอกํ าหนดขอที่ 4 ในตัวเอง กลาวคืออนุญาตใหมีการขยับจุดที่จะเทียบเคียงไดทีละ 1 จุดเทานั้น คา r ในขอกํ าหนดขอที่ 3เปนคาที่สํ าคัญที่ใชในการกํ าหนดความหางของจุดที่เทียบเคียงกัน เพื่อใหบรรลุตามขอกํ าหนดขอที่ 2 จะมีการเติมเวกเตอรศูนยตอทายลํ าดับที่สั้นกวาดังที่ไดกลาวมาแลวในหัวขอ 3.2 เพื่อใหสามารถจับคูจุดสุดทายไดพอดีเมื่อไดคาระยะหางระหวางสัญญาณเสียงที่เขามาทดสอบกับสัญญาณเสียงในชุดอางอิงแลว จะใชวิธี K-NN ในการตัดสินใจ คือการพิจารณาสัญญาณเสียงอางอิง K ตัวที่ใหคาระยะหางตํ่ าที่สุด วาไปตกลงที่สัญญาณเสียงของผู พูดคนใดมากกวากัน ก็จะตอบเปนผูพูดคนนั้น ในการทดลองนี้ใช 5-NN ในการตัดสินใจ และจะเปลี่ยนเปน 1-NN เมื่อ 5-NN ไมสามารถตัดสินใจไดANN [8,19] – ANN ที่ใชเปนแบบ MLP และวิธีการเรียนรูแบบแพรกระจายยอนกลับ โดยพัฒนาวิธีการปอนขอมูลเขาแบบใหมคือแบบหนาตาง เพื่อหลีกเลี่ยงการนอรมอลไลซทางเวลา หลักการที่พัฒนาขึ้นนี้เทียบกับวิธีการปอนขอมูลแบบเกาไดแสดงไวในรูปที่ 8ANN แบบเกาจะมีจํ านวนโหนดในชั้นขอมูลเขาเทากับ 555 โหนดคงที่(15 ลําดับ * 37 สวนยอยของเสียงที่ผานการนอรมอลไลซทางเวลามา)สวนจํ านวนโหนดที่ชั้นขอมูลออกจะเทากับจํ านวนผูพูดที่จะระบุและมีเพียง 1 โครงขายเทานั้น แตโครงสรางแบบใหมจะมี 1 โครงขายตอผูพูด1 คน มีจํ านวนโหนดในชั้นขอมูลเขาเพียง 60 โหนด (15 ลําดับ * 4 สวนยอย) คือเลื่อนขอมูลเขาทีละ 4 สวนยอยและเหลื่อมครั้งละ 3 สวนยอย มีโหนดในชั้นขอมูลออกเพียง 2 โหนด ซึ่งทํ าการรูจํ าวาใชหรือไมใชผูพูดคนนั้นSpeech SignalPreprocessingwith TimeNormalizationFeature ExtractionCepstrum Coefficients(c 1,c 2,...,c 555)MLP NetworkRecognition Result4.5 ผลการระบุผูพูดSpeech SignalPreprocessingFeature ExtractionCepstrum Coefficients(c 1,c 2,...,c n)Windowingc 1,c 2,...............,c n...MLP NetworkRecognition Resultรูปที่ 8. วิธีการปอนขอมูลเขา ANNการทดลองระบุผูพูดจํ านวน 50 คนโดยอาศัยคาลักษณะสํ าคัญและระบบรู จําที่ไดกลาวมาแลว แบงเปน 2 สวน สวนแรกเปนการระบุผูพูดโดยใชเสียงพูดตัวเลขโดด 0-9 ผลการทดลองแสดงไวในตารางที่ 2ตารางที่ 2. ผลการระบุผูพูดเมื่อใชเสียงตัวเลขโดดตัวเลข อัตราการระบุผูพูด (%)DTWANNMFCC PFL MFCC PFL0 89.1 90.7 86.3 87.41 89.4 89.4 86.3 86.42 87.8 86.7 80.9 82.13 87.6 87.9 86.5 81.1


334 85.7 86.9 79.4 78.65 92.3 89.1 90.1 82.16 85.3 79.7 74.2 72.87 84.2 83.6 78.2 77.08 79.9 75.5 77.0 72.69 86.1 85.5 84.5 82.6เฉลี่ย 86.74 85.50 82.34 80.27ตารางที่ 3. ผลการระบุผูพูดเมื่อใชเสียง 3 ตัวเลขตอกันระบบ ตัวเลข ผลการระบุผูพูด (%)DTW MFCC “510” 98.70PFL “015” 98.80ANN MFCC “530” 97.30PFL “019” 96.40เพื่อเพิ่มประสิทธิภาพของการระบุผูพูด จึงไดใชเสียงพูดที่ยาวขึ้นโดยการตอเสียงตัวเลขโดดเปน 3 ตัว ตัวเลขโดดที่นํ ามาตอกันนั้นจะเลือกมาจากตัวเลขที่ใหผลการระบุผูพูดสูงที่สุด 3 อันดับแรกจากการทดลองกับเสียงตัวเลขโดด ผลการระบุผูพูดรวมทั้งตัวเลขตอกันที่ใชในการทดลองแสดงไดดังตารางที่ 34.6 ซอฟตแวรตนแบบเมื่องานวิจัยมาถึงจุดที่ใหผลการระบุผูพูดที่สูง โดยมีอัตราการระบุผูพูดสูงเกินกวา 90% คณะนักวิจัยจึงไดพัฒนาซอฟตแวรตนแบบสํ าหรับระบุผูพูด ใชกับเสียงตัวเลขโดด โดยผูใชสามารถเลือกไดวาจะใช DTW และ KNN หรือใช ANN ในการรูจํ า ทั้งนี้ซอฟตแวรจะกํ าหนดใหผูพูดแตละคนอัดเสียงตัวเลขที่กํ าหนดจํ านวน 3 ครั้งระบบจะนํ าไปใชเปนชุดอางอิงสํ าหรับ DTW หรือนํ าไปฝกฝนสํ าหรับ ANN กอนขั้นตอนการทดสอบระบุผูพูดจริง ผูสนใจสามารถติดตอขอชมการทํ างานของซอฟตแวรตนแบบไดที่ศูนยเทคโนโลยีอิเล็กทรอนิกสและคอมพิวเตอรแหงชาติ5. อุปสรรคและงานในอนาคตงานวิจัยและพัฒนาระบบระบุผูพูดสํ าหรับภาษาไทยไดดํ าเนินการผานมา1 ปเต็มแลว พบอุปสรรคในการดํ าเนินงานอยูหลายประการ ไดแก1. การรวบรวมขอมูลจากการอัดเสียง เนื่องจากงานวิจัยมีวัตถุประสงคที่ตองการสรางระบบที่สามารถรูจํ าผูพูดที่มีประสิทธิภาพสูง ไมวาเวลาจะผานไปนานเทาไร ระบบควรจะสามารถระบุผูพูดไดในอัตราความถูกตองใกลเคียงเดิม ดังนั้นขบวนการจัดเก็บเสียงจึงจัดเก็บในหลายสัปดาหตอเนื่องกัน ซึ่งทางคณะนักวิจัยไดขอความรวมมือจากพนังงานของศูนยเทคโนโลยีอิเล็กทรอนิกสและคอมพิวเตอรแหงชาติที่ประจํ าอยู ณ อาคารมหานครยิบซั่มชวยสละเวลามาอัดเสียงให ปจจุบันรวบรวมได 50 คน คณะนักวิจัยคาดหวังวาจะเก็บเสียงไดอยางนอย 100 คนในอนาคต โดยอัดเสียงนักศึกษาฝกงานและอาจจัดตั้งโครงดารความรวมมือกับองคกรตางๆ เพื่อพัฒนาฐานขอมูลเสียงภาษาไทย2. เวลาในการระบุผูพูดของ DTW คอนขางนานมากเมื่อเทียบกับANN แตเนื่องจากอัตราการรูจํ าผูพูดของ DTW ดีกวาผลจาก ANNคณะนักวิจัยจึงตองคิดคนหาวิธีปรับปรุงเทคนิค DTW ใหสามารถทํางานไดเร็วยิ่งขึ้นหรือพัฒนา ANN ใหสามารถรูจํ าไดถูกตองมากขึ้น นอกจากนี้คณะนักวิจัยกํ าลังทดลองเทคนิคการรูจํ าผูพูดวิธีอื่นๆดวย เพราะคาดวาจะไดระบบระบุผูพูดที่ดีมีประสิทธิภาพสูงขึ้นกวาระบบในปจจุบัน3. ฐานความรูเกี่ยวกับเสียงภาษาไทยคอนขางมีจํ ากัด สงผลใหคณะนักวิจัยมีความจํ าเปนตองทดลองในทุกๆ สมมติฐานที่ตั้งขึ้นเอง ซึ่งทํ าใหตองใชเวลาในการวิจัยมากขึ้น ดังนั้นเมื่อคณะนักวิจัยไดผลการทดลองจึงไดพยายามจัดทํ าบทความวิชาการเพื่อเผยแพรความรูอยูตลอดเวลา ดวยความหวังที่วาความรูเหลานั้นจะไดชวยเสริมใหเกิดงานวิจัยทางดานดารระบุผูพูดในประเทศไทยมากขึ้น และลดงานที่ซํ้าซอนลงไป6. บทสรุประบบระบุผูพูดมีความสํ าคัญมากกับการเพิ่มประสิทธิภาพของระบบรักษาความปลอกภัย และยังเปนพื้นฐานที่สํ าคัญในการพัฒนาระบบรูจํ าเสียงพูด (Speech recognition system) สําหรับภาษาไทยอีกดวย ในปจจุบันคณะนักวิจัยไดพัฒนาซอฟตแวรตนแบบระบุผูพูดสํ าหรับภาษาไทยที่ใหอัตราความถูกตองเฉลี่ย 98% กับผู พูดจํานวน 50 คน คณะนักวิจัยจะพัฒนาระบบนี้ใหสามารถทํ างานไดดีกับผูพูดจํ านวนมากยิ่งขึ้นและจะพัฒนาระบบระบุผูพูดที่ใชงานไดกับเสียงพูดผานทางสายโทรศัพทดวย นอกจากนี้ทางคณะนักวิจัยกํ าลังพัฒนาและรวบรวมฐานขอมูลเสียงพูดตัวเลข 0-9 เพื่อใหนักวิจัยจากที่อื่นๆ สามารถเขามาในเว็บไซตและดึงขอมูลเพื่อนํ าไปใชทดลองและคิดคนเทคนิคใหมๆ เพื่องานระบุผูพูดสํ าหรับภาษาไทยที่ดีขึ้นอีกดวย


34เอกสารอางอิง[1] J. P. Campbell, Jr., "Prolog to Speaker Recognition: ATutorial", Proceedings of IEEE, Vol. 85, No. 9, pp. 1437-1462, September 1997.[2] G. R. Doddington, "Speaker Recognition-Identifying Peopleby their Voices", Proceedings of IEEE, Vol. 73, No. 11,pp.1651-1664, November 1985.[3] S. Furui, "Digital Speech Processing, Synthesis, andRecognition", New York and Basel: Marcel Dekker, Inc,1989.[4] ชัย วุฒิวิวัฒนชัย, “การรูจํ าเสียงคํ าหลายพยางคแบบไมขึ้นกับผูพูด โดยใชเทคนิคแบบฟซซีและนิวรอลเน็ตเวอรก”, วิทยานิพนธวิศวกรรมศาสตรมหาบัณฑิต จุฬาลงกรณมหาวิทยาลัย,2540[5] S. Roucos and A.M. Wilgus, "High Quality Time ScaleModification for Speech," IEEE International ConferenceASSP, pp. 493-496, 1985.[6] L. R. Rabiner and B. -H. Juang, "Fundamentals of SpeechRecognition", A. Oppenheim, Series Editor, EnglewoodCliffs, NJ: Prentice-Hall, 1993.[7] R. J. Mammone, X. Zhang, and R. P. Ramachandran, "RobustSpeaker Recognition, A Feature-based Approach", IEEESignal Processing Magazine, p. 58-71, September 1996.[8] L Fausette, “Fundamentals of Neural Networks–Architecture,Algorithm, and Applications”, Prentice-Hall, 1994.[9] K. Yu, J. Mason, and J. Oglesby, “Speaker Recognition usingHidden Markov Models, Dynamic Time Warping and VectorQuantisation”, IEE Proc.-Vis. Image Signal Process, Vol.142, No. 5, October 1995.[10] วศิน สินธุภิญโญ, เปรมนาถ ดูเบ, สุทัศน แซตั้ง, วารินทรอัจฉริยะกุลพร, ชัย วุฒิวิวัฒนชัย และจุฬารัตน ตันประเสริฐ,“การระบุผูพูดดวย LPC และ DTW สํ าหรับภาษาไทย”,เอกสารประกอบการประชุมวิชาการ ศูนยเทคโนโลยีอิเล็กทรอนิกสและคอมพิวเตอรแหงชาติ สํ านักงานพัฒนาวิทยาศาสตรและเทคโนโลยีประจํ าปงบประมาณ 2542 ณ ศูนยประชุมสหประชาชาติ 30 มีนาคม-เมษายน 2542[11] S. Sae-Tung and C. Tanprasert, “Feature Windowing basedThai Text-Dependent Speaker Identification using MLP andBackpropagation Algorithm”, Proceedings of theInternational Symposium on Circuits and Systems, May <strong>2000</strong>.[12] C. Wutiwiwatchai, V. Achariyakulporn, and C. Tanprasert,“Text-dependent Speaker Identification using LPC and DTWfor Thai Language”, 1999 IEEE 10 th Region Conference(TENCON’99), Vol. 1, September 1999.[13] วารินทร อัจฉริยะกุลพร, ชัย วุฒิวิวัฒนชัย และ จุฬารัตน ตันประเสริฐ, “ระบบระบุผูพูดภาษาไทยดวยวิธีไดนามิกสไทมวารปปง”, กํ าลังพิจารณาเพื่อตีพิมพใน NECTEC TechnicalJournal, Vol.2, No. 7, <strong>2000</strong>[14] C. Wutiwiwatchai and C. Tanprasert, “Thai Text-DependentSpeaker Identification: Features Comparison”, The 4 thSymposium on National Language Processing, May <strong>2000</strong>.[15] C. Wutiwiwatchai, S. Sae-Tung, and C. Tanprasert, “ThaiText-Dependent Speaker Identification by ANN with TwoTime Normalization Techniques”, Proceedings of the 1 stWorkshop on Natural Language Processing and NeuralNetworks, pp. 47-52, November 1999.[16] C. Tanprasert, C. Wutiwiwatchai, and S. Sae-tang, "TextdependentSpeaker Identification Using Neural Network onDistinctive Thai Tone Marks", Proceedings of InternationalJoint Conference on Neural Networks, July 1999.[17] M. S. Zilovic, R. P. Ramachadran, and R. J. Mammone,“Speaker Identification Based on the Use of Robust CepstralFeatures Obtained from Pole-Zero Transfer Functions”, IEEETransactions on Speech and Audio Processing, Vol.6, No.3,pp.260-267, May 1998.[18] S. Furui, "Cepstral Analysis Technique for AutomaticSpeaker Verification", IEEE Transaction on Acoustic, SpeechSignal Processing, Vol. ASSP-29, pp.254-272, April 1981.[19] SNNS (Stuttgart Neural Network Simulator) User Manual,Version 4.1, University of Stuttgart, Institute for Parallel andDistributed High Performance Systems (IPVR), Report No.6/95.


35นายชัย วุฒิวิวัฒนชัย ตําแหนงผูชวยนักวิจัย ศูนยเทคโนโลยีอิเล็กทรอนิกสและคอมพิวเตอรแหงชาติ สํ าเร็จการศึกษา ปริญญาโท (วิศวกรรมศาสตรมหาบัณฑิต) ป 2540 จุฬาลงกรณมหาวิทยาลัย ประสบการณการทํ างาน โครงการระบบรู จํ าเสียงพุดภาษาไทยซึ่งอยูในชวงเริ่มตน ผลงานเดน มีชื่อเปนผูแตงบทความวิชาการที่ไดรับตีพิมพภายในประเทศจํ านวน 1 บทความและระดับนานาชาติ จํ านวน 7 บทความวารินทร อัจฉริยะกุลพร สํ าเร็จการศึกษาระดับปริญญาตรีสาขาวิทยาการคอมพิวเตอร เกียรตินิยมอันดับ 2 จากมหาวิทยาลัยเกษตรศาสตร ป พ.ศ.2538 และการศึกษาระดับปริญญาโทสาขาวิทยาการคอมพิวเตอร จากมหาวิทยาลัยมหิดล ป พ.ศ.2541 ปจจุบันไดรวมงานในหนวยปฎิบัติการวิจัยและพัฒนาวิศวกรรมภาษาและซอฟตแวร โดยรับผิดชอบในหนาที่การพัฒนาโปรแกรมพัฒนาเว็บเพจ และฐานขอมูล นอกจากนี้ยังมีสวนรวมรับผิดชอบในโครงการแกปญหาคอมพิวเตอรป ค.ศ. <strong>2000</strong> โครงการ Asean-India DigitalArchive (AIDA) และโครงการระบบระบุผูพูดภายใน NECTEC มีความสนใจในดานการออกแบบระบบงาน การออกแบบโปรแกรมเชิงวัตถุและงานทางดานปญญาประดิษฐสุทัศน แซตั้ง สําเร็จการศึกษาระดับปริญญาตรีสาขาระบบสารสนเทศ เกียรตินิยมอันดับ 2 จากสถาบันเทคโนโลยีรัชมงคล ป พ.ศ. 2536 และการศึกษาระดับปริญญาโทสาขาวิทยาการคอมพิวเตอร จากมหาวิทยาลัยมหิดล ป พ.ศ. 2541 ปจจุบันไดรวมงานในหนวยปฎิบัติการวิจัยและพัฒนาวิศวกรรมภาษาและซอฟตแวร โดยรับผิดชอบในงานวิจัย และพัฒนาโปรแกรมแปลงรูปภาพเอกสารเปนขอความ (Thai OCR) โครงการระบบระบุผูพูดดวยเสียง นอกจากนี้ยังมีสวนรวมรับผิดชอบในโครงการแกปญหาคอมพิวเตอรป ค.ศ. <strong>2000</strong> มีความสนใจในดานการประมวลรูปภาพ (Image Procesisng) การรูจํ ารูปแบบ(Pattern Recognition) และการออกแบบพัฒนาโปรแกรมเชิงวัตถุ (ObjectOriented Systems)


36Issues in Thai Text-to-Speech Synthesis:The NECTEC Approach 1Pradit Mittrapiyanuruk, Chatchawarn Hansakunbuntheung,Virongrong Tesprasit and Virach SornlertlamvanichInformation R&D Division,National Electronics and Computer Technology Center (NECTEC)Gypsum Metropolitan Building, 22 nd Floor,539/2 Sri Ayudhaya Road, Rajthevi, Bangkok 10400, Thailand(pmittrap, chatchawarnh)@notes.nectec.or.th, (virong, virach)@nectec.or.thABSTRACT – This paper presents all the essential issues in developing the text-to-speech synthesis forThai - text analysis, prosody generation and speech synthesis. In the text analysis, problems in Thai textprocessing can be decomposed into the models of sentence extraction, phrase boundary determination andgrapheme-to-phoneme conversion. The syllable duration and F0 contour generation rules are included in theprosody generation. This is to realize the synthetic speech in the suprasegmental level. In the speechsynthesis, the definition and the construction of acoustic inventory structure ‘demisyllable’ are presented.Furthermore, three signal-processing algorithms, amplitude normalization, the segment boundarysmoothing and prosodic modification, are also presented in this topic.KEY WORDS -- Thai text-to-speech synthesis, text analysis, prosody generation, speech synthesis,demisyllableบทคัดยอ -- บทความนี้นํ าเสนอหัวขอสํ าคัญในการวิจัยและพัฒนาระบบสังเคราะหเสียงพูดจากขอความภาษาไทย ประกอบดวยการวิเคราะหขอความ, การสังเคราะหสัทสัมพันธและการสังเคราะหสัญญาณเสียงพูด ในหัวขอการวิเคราะหขอความจะกลาวถึงปญหาที่สํ าคัญในการประมวลผลขอความภาษาไทยและรายละเอียดของสวนประกอบภายในซึ่งประกอบดวย 3 สวน ไดแก การตัดประโยค การหาขอบเขตวลีเพื่อหยุดเวนวรรคการอาน และการแปลงรูปเขียนเปนรูปเสียงอาน ในหัวขอการสังเคราะหสัทสัมพันธจะกลาวถึงกฎในการกํ าหนดชวงเวลาของพยางคและ F0 contour ซึ่งจะทํ าใหสามารถสังเคราะหเสียงที่มีความสัมพันธในระดับเหนือหนวยเสียงได สวนหัวขอการสังเคราะหสัญญาณเสียงพูดจะกลาวถึงโครงสรางหนวยเสียงแบบครึ่งพยางคและอัลกอริทึมทางการประมวลผลสัญญาณในการปรับสัญญาณที่รอยตอใหตอเนื่องและปรับสัญญาณใหมีสัทสัมพันธตามที่ไดกํ าหนดมาคํ าสํ าคัญ -- การสังเคราะหเสียงพูดจากขอความภาษาไทย, การวิเคราะหขอความ, การสังเคราะหสัทสัมพันธ, การสังเคราะหสัญญาณเสียงพูด, ครึ่งพยางค1. IntroductionText-to-speech synthesis is a module or system or machinethat converts the input text into the acoustic speech signalthat people can understand. Many kinds of applicationsutilized from this system are developed such as theapplications for blind people e.g. screen reader, or theapplications for normal people e.g. electronic mail readerusing telephone interface, etc. Most of the text-to-speechsynthesis systems are developed for converting the text formajor languages such as English, Chinese, Japanese and theEuropean languages. At the present, there are only few1 This article is a reprint of the article appeared in the Proceedings of NECTEC Annual Conference <strong>2000</strong> : ECTI Technologies for NewEconomies, June <strong>2000</strong>, pp. 483-495. This paper wins a best paper award in category of "Best Presentation".


37systems developed for the Thai language. Most of them lackfor the continuity in their milestone and some focus on thespecific point rather than the whole picture. As a result, thereis no Thai text-to-speech synthesis system using in the realapplication. To overcome this obstacle, this work attempts toput together the jigsaw to form a complete picture. Our goalis to produce a text-to-speech synthesis that can synthesize anatural sound.In retrospect, there are some research works related to Thaitext-to-speech synthesis. The Luksaneeyanawin’s system [1]consists of three main modules. First is the Thai textprocessing module, it converts a string of Thai text into astring of Thai phonological units using the syllable, wordand phrase parsers. Second is the sound dictionary module. Itlooks up the synthesis unit for the correspondingphonological unit. Third is the synthesis by waveformconcatenation module. It synthesizes the speech by using thewaveform concatenation technique. Taisertavattanakul andKanawaree [2] developed a simple but practical system. Thesystem contains (1) the text-to-phoneme analyzer by usingconversion rules and a small dictionary for exceptionalwords (2) the synthesizer concatenates the speech waveformfrom the demisyllable based acoustic inventory.The other research works that focus on some specific pointsrather than the whole system are [3, 4, 5]. Kiat-arpakul,Fakcharoenphol and Keretho [3] proposes an acousticinventory structure for Thai speech synthesis. In this work, asyllable waveform is created from the concatenation of thephoneme-based and the demisyllable-based units.Luksaneeyanawin [4] proposes a technique to transform thetonal patterns of any syllable speech units by PSOLA-basedresynthesizing F0 contour. This technique takes theadvantages in the reducing the number of synthesis unitsabout 5 times. This technique stores only toneme syllabicunits and synthesizes other toneme speech from thesetoneme units. Hansakunbuntheung [5] applies the linespectrum pair to the Thai syllabic speech synthesizer. Thesound units are encoded in the form of the 20 th order LSPand its residues. The synthesizer can synthesize all Thai fivetones and adjust the sound duration by using the pitchsynchronousoverlap-add (PSOLA) technique. The details ofthe literature survey in the field of Thai text-to-speechsynthesis can be found in Luksaneeyanawin’s work [6].In our work, the system is divided into 3 major parts: textanalysis, prosody generation and speech synthesis. The mainfunction of text analysis is to segment the input text intosmaller units: sentences and phrases, and then transcribe intothe phoneme description. The prosody generation thendetermines the prosody parameter from the informationanalyzed by the text analysis. The phoneme description withthe prosody parameter of the text is synthesized to the speechwaveform by the speech synthesis module. In this module,any synthetic speech is created by the concatenativetechnique based on the demisyllable units. The signalprocessing algorithms are involved to produce the naturalsynthetic speech.In this paper, the detailed of NECTEC’s Thai text-to-speechsynthesis is discussed. Most parts of its are alreadyimplemented. However, they are being improved in thenaturalness. Section 2 discusses the issues in text analysis.The prosody generation based on the rewriting rules isdiscussed in Section 3. The detail in the acoustic inventorystructure and signal processing algorithm are discussed in thespeech synthesis topic, Section 4.2. Issues in Text AnalysisThe text analysis is the first part to accept the input text intothe system. In practice, the input text to the system may beone or more text paragraphs. Each paragraph consists ofsentences. The text may include Thai words, foreign texts(e.g. English), and other special expressions such as numeraltexts, abbreviations, punctuation marks, etc. Because the aimof this work is to synthesize the speech of Thai text, theforeign text that appears in the input text will be ignored. It isimpractical to process the whole input text all at once due tothe limitation in memory resource and processing time.Therefore the text analysis segment the input text intosmaller units for processing in other modules. In this work,the text analysis will segment the input text into a sequenceof sentences. In the same time, it also determines the phraseboundary, the acceptable position to pause when reading, forsynthesizing a natural sound. In addition to determination thesentence and phrase boundary, a module called ‘graphme-tophoneme’in the text analysis is also included. It converts thetext into the phonological representation.2.1 Sentence ExtractionUnlike the English or other European languages, there is noexplicit sentence marker in the Thai language. It isconvention to insert the space at the end of a sentence inThai writing. But not all spaces in a paragraph are thesentence marker. They also can be used as other purposes[7,8] such as, using between phrases or cluases within asentence, between sentences in a cohesive group ofsentences, before and after numerals, etc. Mittrapiyanuruk’sand Sornlertlamvanich’s work [9] extended the algorithm forPOS tagging in probabilistic n-gram model to discriminatethe sentence break spaces from other purpose spaces. Thetask can be view as the classification problem. We define thespace by its function into 2 different types: sentence breakand non-sentence-break space and apply the statistical partof-speech(POS) tagging as the classifier.The block diagram of sentence extraction algorithm is shownin Figure 1. The tokenization and word segmentation stageextract a set of tokens with at least one space in between.The spaces in the set of tokens are classified by POS tagging.A token is a sequence of consecutive characters enclosed bythe spaces. The special expressions e.g. numerals,abbreviations, punctuation marks, etc. are speciallyconsidered. For example, ‘10600’ can be pronounced eitherin the form of digit-by-digit reading as in the phrase of ‘กทม.10600’, or in the form of quantity number as in the phrase of‘10600 บาท’. The normalization is needed in this process.


39tone assigment rule can be founded in Thavaranon’s work[8].The first step typically called syllabification is developedusing the regular expression. Rather than hard coding therule for each syllable pattern, this work rewrites the rule inthe regular expression format. All possible orthographicalsyllablic structure are listed in the regular expression formatand compiled to be a deterministic finite state automata bythe lexical analyzer or ‘LEX’. When it matches a syllabicpattern then the orthographical syllablic composition: initialconsonant, vowel final consonant and tone marker, isreturned for assigning the phonological representation. Theadvantages of this scheme are the flexibility in rulemodification and the speed of processing time.3. Issues in Prosody GenerationThe prosody means the properties of the acoustical speechsuch as pitch variation, loudness and syllable length. Theeffects of prosody are referred to as suprasegmentalphenomena [14], since it occurs in higher level thansegmental level such as syllable or phoneme. It isacknowledgable by most researchers in this field that thenaturalness of synthetic speech is considerably affected bythe prosody. Therefore this work essentially includes theprosody generation. Many prosody parameters are generatedby determining the pause position and duration and the pitchmovement of utterance which represented by F0 contour.The pausing is executed by the phrase boundarydetermination in text analysis part.There are two major approaches in the research of prosodygeneration: the rule-based method and the corpus-basedmethod. In the rule-based approach, linguistic experts derivethe factors that affect the prosody event by observing variousphenomena in the natural speech, then write the rules thatinterplay among these factors for synthesizing the morenatural speech. On the contrary, the corpus-based approachderives the prosody model from the prosodic annotatedspeech corpus by using machine learning algorithms such asdecision tree, artificial neural network, etc. The prosodicparameters of unseen text are determined by infering fromthe training corpus. Lacking of the prosodic-labeled speechcorpus, our prosody generation is a rule-based approach.3.1 Syllable duration assigment ruleThe first consideration when devise the durational rule is thechoice of speech unit that will be affected by the rule. Thecontexual influences that affected the duration of differentspeech units are varied. Campbell and Isard [15] argue thatthe syllable is a suitable unit that reflects the rhythm of anyutterances. This approach first predicts the syllable durationand then the smaller segment duration e.g. phone isdetermined from its syllable duration. Because the speechsynthesizer that we use in this work is the demisyllablebasedconcatenative system, the speech waveform is formedby the sequence of syllabic sounds. Each syllablic waveformis created by concatenating two demisyllable units: initialand final unit. Then the timing of synthetic speech appears inthe syllabic time frame. There are many linguistic works [16]conclude that Thai is a syllable-time rhythm in which thesyllable is an intuitively recognizable unit for primitivepeople. Therefore we select the syllable as the speech unitfor modeling the duration.In timing aspect, the naturalness of any utterance occurswhen the duration of every syllable in the phrase is relativelysuitable. In any slow and fast utterance, the duration ofsyllable differs only in the absolute value but the relativevalue is almost the same. To accomplish this task we tailorthe most favorite scheme [17] to the prosodic generationmodule in the syllabic framework. This scheme first assignsthe base syllable duration from its intrinsic property. Thenthe rules are used to multiply the base duration by a specificfactor. These factors are devised by investigating the naturalspeech in word, phrase and sentence level. In this scheme wecan adjust the speaking rate by multiplying the factor to theintrisic duration without changing the rule.For finding the intrinsic duration of each syllable, it islaborious to acquire the intrinsic duration of all Thai syllablicsounds because of its plentitude of units, which is about27,000 [6]. To realize this process, we classify theconsonants by the manner of articulation into 8 types and thevowels by the tongue advancement/short/long attribute into12 types and use mid tone (tone 0). By the assumption thatthe syllables in the same group have the same intrinsicduration, we use the duration of each group representative asthe duration of every syllable in the group. This methodreduces the number of syllable duration patterns to 384patterns. The duration of each unit is taken from the carriersyllable in the medial position of pronunciation. The intrinsicinterval of all syllables is extrapolated using the value of therepresentative that has the same kind of initial consonant,final consonant and vowel. The duration of falling (tone 2)and rising (tone 4) tonal syllable is scaled-up by factor 4/3 tocompensate the tonal-durational interactive effect. Moreoverwe also measure intrinsic pause duration which is dividedinto 3 types: pre-plosive pause, glottal closure pause and endof phrase pause in the same way.For the details of rule, they are derived from Klatt’s work[17]. The rule in phrase and sentence level are the samewhich is lengthening the phrase-final syllable duration by thefactor of 1.2 and inserting the pause at the end of phrase withthe intrinsic phrase pause duration. At the end of sentence,the pause duration is longer than the intrinsic phrase pauseduration by the factor of 1.2. For the rule in word level, thesyllables in any words that are not the non word-finalposition are shortened by the factor of 0.9. Other syllable,any syllables in a polysyllabic word are shortened by thefactor of 0.9. The last rule considers the effect of postvocalicconsonant context. It shortens the duration of syllablesfollowed by the voiceless consonant by the factor of 0.9.Noted that these rules apply sequentially by cumulativelymultiplying the initial duration with each specfied rule’sfactor to obtain the final duration.3.2 F0 contour Generation ruleIn natural speech, the speech is continuously uttered asstrings of breaths. Each string, called phrase, consists of


40many sound units. The types of sound unit can be words,syllables or phonemes, etc. depending on the design purpose.Considering a particular type of the sound units, since thesound units in a phrase are produced in the same utterance,they must share some common characteristics. Acharacteristic, called intonation, is in the suprasegmentallevel of speech, relates to the tonal phenomena that affect onF0 contour of the continuous speech. In addition, there isanother effect on syllabic level. There is a tone pattern whensyllables are connected.3.2.1 Intonation RulesIn the suprasegmental level, two groups of rules are defined.The first group is the downdrift phenomenon that defineshow the F0 contour decreases relatively with the precedingtime. Another group concerns the pitch range of F0 contourthat limits the boundary of F0 contour.3.2.1.1 DowndriftA downdrift, can be observed in the F0 contour across aphrase [11,18-24]. [25] shows that this downdrift alsohappens in Thai speech as shown in Figure 2. Thisphenomenon can be observed by plotting the F0 contour of aphrase containing only the mid tone (tone 0). The plot showsthe downdrift effect on the F0 contour which looks like thesteps of similar patterns. The reference line connects all thebeginning points of F0 contours of the syllables.Figure 2. An example of downdrift on F0contour of Thai speechTo simplify the effect, the downdrift is estimated by a lineardeclining slope of the F0 contour. Since one system is for afemale speech, the slope was computed for a female speechprototype. As a result of the experiment, the declination is30 hertz per second. This declination can be represented by alinear line, called a reference line, as shown in Figure 3. Thisline is used as the reference of the starting or ending point ofF0 contour of each tone.Figure 3 A reference line that expresses a simiplified versionof downdrift3.2.1.2 Pitch RangeAn obvious difference between male and female speech isthe pitch range. Generally, a female speech is moreperceptible higher than a male speech. The pitch rangespecifies how high and how low the pitch level can reach.To determine a pitch range, an observation on a female'sspeech prototype is done by measuring the maxima andminima of F0 levels. The boundaries of pitch range areapplied to the system to limit the level of synthetic F0contour with downdrift effect. If F0 value of syllabic F0contour exceed these limits, the level of the syllabic F0contour will be reset to the starting F0 of the same phrase.3.2.2 Tone RulesAfter processing on the suprasegmental level, here, a syllabiclevel will be discussed. In this level, there are two parts. Thefirst part explains where the tone contours should be locatedand another part explaining the effect of adjacent syllableson a tone contour.3.2.2.1 Tonal contour locationThis part explains how to locate the tone contours. Whentone contours are concatenated, the locations of tonecontours are different depending on the situation. In areading speech, the Mid, Low and Rise tone start at thereference line while the others end at the reference line.However, there are some special cases that the tone contoursdo not conform to this rule. If there is a stress syllable in aphrase, its tone contour level will be shifted up. Since onlythe reading speech synthesizing is the goal of this system, alltone contours are based on this rule.3.2.2.2 Coarticulation EffectWhen a syllabic sound is voiced, the following one iseffected and vice versa. This effect on connected speech hasbeen reported by Gandour, Potisuk and Dechongkit [26]. Thestudy on tonal height reports that the anticipatory effectextends forward to about 75% of the duration of thefollowing syllable and, similarly, the carry-over effectextends backward to about 50% of the duration of precedingsyllable. This work uses the above duration duringsmoothing the F0 contour at the syllabic junction.4. Issues in Speech SynthesisAfter all necessary parameters for the synthesis aredetermined. This part will use these parameters to determinewhich sound units should be selected and how these unitsshould be processed to synthesize a high natural syntheticspeech. The parameters can be classified into two groups.First group is generated from the text analysis consisting ofphonemic lists of a phrase. These lists are used to select therelevant units. Another one is generated from the prosodygeneration consisting of the duration and the F0 contours.


41All are used in signal processing to improve the naturalnessof synthetic speech. Before describing the detail of thesynthesis techniques, the synthesis unit structure will bedetailed.4.1 Synthesis SchemeIn the synthesis work, there are various types of synthesisunits used in concatenative speech synthesis such as words,syllables, demisyllables, phonemes, diphones, triphones etc.Each type has different advantages depending on the purposeof each system. In this work, demisyllable is selectedbecause it has a reasonable number of sound units andacceptable quality. Although, its sound quality at syllableboundary is not quite natural as real speech but this problemcan probably be improved by signal processing as beingpresented in this system.4.1.1 DemisyllableDemisyllable is the unit being the initial and final halves of asyllable. On the idea that a speech waveform is constructedby splicing the syllabic segment. A syllabic waveform iscreated from the proper initial and final demisyllable unit.Both units are segmented from a syllable at the stable vowelpart. In general, Thai syllable has a structure of “C(C)VC”[1], therefore, the syllable is segmented into two portions, “C(C)V” and “VC”. The initial unit contains a single consonantor double consonants linking with a partial vowel. The finalunit contains a partial vowel linking with a final consonantand, also, tonal characteristic. Figure 4 shows an example ofa demisyllable unit.Figure 4. Demisyllable unit structure4.1.2 Demisyllable inventory structureIn the previous section, we have already explained what thedemisyllable-based concatenative synthesis is and how itworks. Therefore, in this section we will discuss about howto list all units in the inventory and how many units arenecessary in this system to construct the entire Thaisyllables.A Thai syllable sound can generally be characterized by fourelements: initial consonant, vowel, final consonant and tone.Considering the Thai syllable structure, there are 4 patterns;CV (ปา [pa;0], รี [ri;1]), CCV (ปลา [pla;0], ครู [khru;0]), CVC(ปาด [pa;t1], กาก [ka;k1]), CCVC (ปราบ [pra;t1], กวาด [kwa;t1]).The first letter “C” represents an initial consonant while“CC” denotes a consonant cluster. The vowel of a syllable isrepresented by the letter “V” and the final consonantrepresented by the last letter “C”. The Arabic numerals (0-4)represents the tone.♦ Initial consonant: There are 44 consonantal letters inThai. These letter represent 21 phonemes, grouped bytraditional Thai grammarians into 3 classes; the highclass, the middle class and the low class. These classesare very important in determining the tone of a syllable[6]. All of them can occur in the initial position such asกาด [ka;t], บน [bon], โยน [jo;n], etc. Some phonemes canbe clustered to produce two different types of soundtogether such as ปล- /pl/, คว- /khw/, ตร- /tr/, etc. Oursystem also includes some phonemes for producingsome loan words namely, consonant clusters and finalconsonants such as ดร- /dr/, ฟร- /fr/, บร- /br/, -ฟ /f/, -ล /l/, -ส /s/, etc. The list of Thai consonants is shown in Table 1and 2.♦ Vowel: There are 2 types of vowel; monophthong anddiphthong. Monophthong can be classified into 2groups; 9 long vowel sounds such as –า /a;/, -ู /-u;/, แ- /x;/and 9 short vowel sounds such as –ะ /a/, -ุ /u/, แ-ะ /x;/, etc.Diphthong consists of 6 vowel sounds; 3 long vowelsounds such as เ-ีย /i;a/, เ-ือ /v;a/, -ัว /u;a/ and 3 short vowelsounds such as เ-ียะ /ia/, เ-ือะ /va/, -ัว /ua/ [27]. The list ofThai vowels is shown in Table 3.♦ Final consonant: The final consonant consists of 9phonemes, including open syllable such as ราด [ra;t1], กับ[kap1], จะ [ca?1], ยาว [ja;w0], etc. and 4 phonemes comefrom foreign language such as ball [bol], half [haf]. Thereason of adding some borrowed phonemes in ourinventory is that pronouncing a loan word close to thenative pronunciation is preferable.♦ Tone: There are 5 levels in Thai phonology representedin our inventory with the Arabic numerals (0-4); lowlevel[ - , 1], mid-level [no tone marker, 0], high-level [ -, 3], falling [ -, 2] and rising [ - , 4]. The syllable structureand the initial consonantal phoneme are very importantto assign a tone for each syllable.In this work, the demisyllable-based inventory for the initialpart is constructed by creating all combination of 38 initialconsonantal phonemes and 9 monophthongs (only shortvowels sounds), resulting 342 units. The reason why only theshort monophthongs are selected is the characteristics ofshort and long vowels are the same at the beginning. Forfinal part, there are 1,163 units divided into 2 sets; 804 Thaiphonemes and 359 phonemes of loan words. As a result, thetotal number of our inventory is 1,505 units. Thecombination is shown in table 4.4.1.3 Construction phaseAfter a sound inventory has been designed, the next step is toselect the speaker. A female speaker is selected based on theresult of the listening test. All test sentences are read by 5female speakers at a natural speaking speed and recordeddirectly to the computer. The speaker whose voice is naturaland correctly pronounced in Thai standard is finally selected.


42In our early work, the speaker pronounced a set ofmeaningless syllable sounds or logatoms and the recordingwas done in the office room environment, using a highquality microphone. The result was unsatisfactory becausethe synthesized speech was over stressed. Moreover, audiblediscontinuities occurred at the concatenated boundary. In thecurrent work, we improve our synthesized speech byrecording the target syllable with a frame sentence ratherthan syllable unit to solve the over stress problem andrecording in the studio to get the clear voice. The femalespeaker reads each sentence 3 times for recording an initialpart and a final part. From the recorded files, select the bestone for manual segmentation. To segment a syllable into theinitial and the final parts we have to find the segmentingpoint by listening and using the spectrogram to cut at a zerocrossing point.This process is an important step that has an effect onthe quality of synthetic speech. However, such defects can becorrected by digital signal processing technique.4.2 Speech Signal ProcessingApplying signal-processing techniques to the synthesis partis a way to improve the naturalness. We apply the signalprocessing techniques (1) to normalize the amplitude ofsound units to the same scale, (2) to capture the prosodyparameter from the prosody generator into the syntheticspeech waveform (this function makes change to pitchcontour (F0 contour) and duration of speech signal.), (3) tosmooth the discontinuity at the vicinity of concatenation. Theconsidered discontinuities are the pitch variation, spectralmismatch and amplitude abruption.4.2.1 Amplitude normalizationIn a concatenation of sound units, the problem about abruptchange of amplitude at the concatenating point between theunits. This problem occurs because each unit comes differentsyllable. For this reason, each unit has different amplitude.This defect makes synthetic speech sound fluctuated. Todecrease this defect, this system normalizes the amplitude ofall demisyllable-base inventory units to be the samestandard.First, the standard amplitude of each vowel is calculated. Theframe sentence “เธอบอกใหพูด…ไปเรื่อยๆ” (/thq:?0 b@:k1 haj2phu:t2 …. paj0 rv:aj2 rv:aj2/) with different target vowels inbetween is selected to pronounce and record for measuringthe reference amplitude of the corresponding vowel. Then,each sentence is multiplied by a ratio that makes the mean ofamplitude of the syllable that preceding the reference vowel,in this case is “พูด” (/phu:t2/), to be the same. Now, allreference vowel sounds present their own amplitudecharacteristic. These adjusted reference vowel sounds areused in calculating the amplitude reference of each vowel.Finally, these references are used in multiplying alldemisyllable-based inventory units to have the sameamplitude at the junction.4.2.2 Prosodic modificationTo modify prosody, this system uses Time-Domain PitchSynchronous Overlap-Add (TD-PSOLA) [28] technique, awidespread technique which modifies pitch and duration ofsynthetic speech. This technique is based on dividing speechinto subframes that partially overlapped on each other andeach subframe is synchronized using pitch. To alter prosody,these subframes are slid to the preferred positions to modifyprosody.This technique is divided into three steps. First step, eachunit in the entire inventory is marked at pitches in voicedpart and, for unvoiced part, at virtual pitches every 4millisecond as shown in Figure 5. All pitch markers are alsolabeled with its type whether voiced or unvoiced. Secondstep, the new pitch contour (F0 contour) is calculated.Actually, this new pitch contour was prepared from prosodicgenerating part. Next, the new pitch contour will be mappedwith the old one using linear interpolation as shown in figure6. This interpolation will specify which old pitch should bemapped to the new one so there are some old pitch missingor duplicating depending on this modification be to decreaseor to increase duration. Final step, window function willprocess at each marked pitch on the original inventory unitsas shown in figure 7. Each window function is twopitchwidthhanning window. By changing the displacementbetween marked pitch and overlapping some part of windowat the edge, the prosody-modified synthetic speech isgenerated.Figure 5. Pitch marking and labelingFigure 6 Duration Scaling.


43Figure 7. TD-PSOLA4.2.3 Concatenated boundary smoothingDue to the inventory unit used in this system is demisyllabicunit, so there appears some quality problems that happen atthe intrasyllabic and intersyllabic concatenated point. Theseproblems are a discontinuity of pitch, amplitude and,especially, spectrum. For the pitch discontinuity, it wassolved in the prosodic modification part and, also, theamplitude discontinuity was already solved in the amplitudenormalization part. The discontinuity of pitch and amplitudecan be solved in time domain while the spectrumdiscontinuity must be solved in frequency domain. To solvethe spectrum discontinuity, the speech signal is transformedto some representation in frequency domain. In this system,the Line Spectrum Pairs (LSP) [29] representation derivedfrom LPC coefficients is selected.The advantages of this representation are; (1)its parameterscorrespond to speech fomants, work like formant coding, (2)this representation is stable on interpolation. Figure 8 shownan example of a relation between formants computed byusing LPC and their corresponding LSP parameters.Figure 8. Example of relation between formants (circles)and its LSP parameters (squares and crosses)one. Then the LSP parameter of subframes at the edges arecomputed as the reference parameters. The linearinterpolation between these reference parameters iscalculated to replace the removed subframes. This method isshown in figure 9.4.2.4 Cross-syllable coarticulation modelingWhen more than one syllable are connected together, thereare some cross-syllable coarticualtion between adjacentsyllables. These phenomena make the natural speech distinctfrom the synthetic speech. The effects of these phenomenaare classified into two types. The first type is a prosodyalteration, which is effected by the adjacent syllables. Thiseffect was computed in the prosodic modification part.Another effect is a waveform interaction with neighborsyllables. Since the natural speech is the continuous speechbut not the syllabic speech. Some syllabic speech signal iscontinuously transformed to the adjacent one. To improvethe quality of the synthetic speech, this system includes theseeffects in synthesis part.Figure 9. LSP Smoothing methodThere are two connection types derived by investigating thenatural speech. The first type is a simple touching. Thisoccurs when the initial consonant of preceding syllable orfinal consonant of next one is unvoiced. Another one is anassimilated connection. This occurs when both the initialconsonant of preceding syllable and final consonant of nextone are voiced. In the implementation, this system uses thedigital signal processing technique, LSP smoothing, asdescribed above to simulate these connecting. The exampleis shown in figure 10. Figure (10a) shows the simpletouching type and the assimilated connecting type is shownin figure (10b).This smoothing method is applied to this system to smooththe synthetic speech at the connecting points. To implementthis method, first, several subframes at the junction areremoved from the preceding demisyllable and the following


445. Future workFigure 10. Syllable connections:(a) a simple touching(b) an assimilated connectionAfter implementing the system with the above approach andevaluating the synthetic speech, we found that the qualitywas acceptable. However, the improvement of thenaturalness of the speech is suggested.In the aspect of text analysis, there are two major points: theinput text segmentation and the grapheme-to-phonemeconversion that need improvement. The improvement ingrapheme-to-phoneme conversion will boost the system inthe way to synthesize the correctly pronounced speech butnot the naturalness. The most important problem is how tohandle the homograph disambiguation. The homograph isthat a word has more than one possible phonologicalrepresentation such as the word ‘เพลา’ can be transcribed into‘/phe:0-la:0/’ or ‘/phlaw3/’ depending on its context. Theinput text segmentaion includes the tasks of sentenceextraction and phrase break determination. This task has anaffect on the naturalness of synthetic speech because itsresult implies the determination of the pause position that hasthe major role in the prosody generation. The break positionsare so ambiguous that even the native Thai people also cannot judge decisively whether they are actual break. The rulebasedapproach has been introduced for the task. Anadvantage of rule based approach is that it is easy todeveloped. But it also has a drawback in handling theproblem that has several interacting factors and high degreein ambiguity like the prosody parameter prediction task. Thestatistical or corpus based method is another alternative. Inthe future, we plan to apply the corpus-based approach toboth the text analysis and prosody generation.In the aspect of speech synthesis, other acoustic inventorystucture such as diphone, triphone, syllable and the nonuniformunit, etc. is in our consideration. Also the automaticunit selection algorithm which works well in other languagesystems is studied to replace the manual speechsegmentation in inventory construction phase. Furthermore,other advance topics such as the voice transformation andmore sophisticated synthesizer are also our interesting topics.To pursue these future works, it is evident that the largescaleprosody-labeled speech corpus be indispensible for us.Our next step is to design and to develop the speech corpuswhich be labeled with the complete information.AcknowledgementWe would like to thank Ms.Tanakorn Wiboon, an internstudent from Department of Computer Engineering,Kasertsart University, for her contribution in theimplementation of grapheme-to-phoneme conversionmodule.References[1] Luksaneeyanawin, S. et., al., 1992. A Thai text-to-speechsystem, Proceeding of 4 th NECTEC Conference, pp.65-78 (in Thai).[2] Taisertavattanakul, S. and Kanawaree, W., 1995, Thaispeech synthesizer. Unpublished senior project report,Department of Computer Engineering, ChulalongkornUniversity (in Thai).[3] Kiat-arpakul, R., Fakcharoenphol, J. and Keretho, S.,1995, A combined phoneme-based and demisyllableapproach for Thai speech synthesis, Proceedings of the2 nd Symposium on Natural Language ProcessingSNLP’95, pp 361-369.[4] Luksaneeyanawin, S., 1995, Tone transformation,Proceedings of the 2 nd Symposium on Natural LanguageProcessing SNLP’95, pp. 345-360.[5] Hansakunbuntheung, C., Leelarasmee, E., 1999, Thaisyllabic speech synthesis based on line spectrum pair,22 nd Thailand Electrical Engineering Conference, pp.521-524 (in Thai).[6] Luksaneeyanawin, S., 1993. Speech computing andspeech technology in Thailand, Proceedings of theSymposium on Natural Language Processing in Thailand,pp.276-321.[7] Danvivathana, N., 1987, The Thai writing system, ForumPhoneticum 39, Helmut Buske Verlag Hamburg.[8] Thavaranon, K., 1978, Spacing in Thai Writing,M.A.Thesis Department of Thai ChulalongkornUniversity (in Thai).[9] Mittrapiyanuruk, P. and Sornlertlamvanich, V., <strong>2000</strong>, Theautomatic Thai sentence extraction, Proceeding of 4 thSymposium on Natural Language Processing(SNLP’<strong>2000</strong>).[10] Sornlertlamvanich, V., 1993, Word segmentation forThai in machine translation system, Machine Translation,NECTEC pp 556-561 (in Thai).


45[11] Thavaranon, K., 1978, Spacing in Thai writing, MasterThesis, Department of Thai, Chulalongkorn University(in Thai).[12] Sileverman, K., 1987, The Structure and Processing ofFundamental Frequency Contours, Ph.D. Thesis,University of Cambridge.[13] Karn, H., 1996, Design and evaluation of a phonologicalphrase parser for Spanish text-to-speech, Proceedings ofthe Fourth International Conference on Spoken LanguageProcessing, Vol. 3, pp. 1696-1699.[14] Dutoit, T., 1997, Introduction to text-to-speechsynthesis, Kluwer Academic Publishers.[15] Campbell, W.N. and Isard, S.D., 1991, Segmentdurations in a syllable frame, Journal of Phonetics, Vol.19, pp37-47.[16] Luangthongkum, T., 1977, Rhythm in standard Thai,Unpublished Ph.D. Thesis, Univerity of Edinburge.[17] Klatt, D.H., 1987, Review of text to speech synthesisconversion for English, Journal of Acoustic SocietyAmerica, Vol 82, pp.737-793.[18] t’Hart, J., and Cohen, A., 1973, Intonation by rule: aperceptual quest., Journal of Phonetics, 1:309:327.[19] t’Hart, J., and Collier, R., 1975, Integrating differentlevels of intonation analysis, Journal of Phonetics, 3:235-255.[20] Pierrehumbert, J. B., 1980, The phonology andphonetics of English intonation., PhD Thesis, Publishedby University of Edinburgh.[21] Cooper, W.E. and Sorensen,J.M., 1981, FundamentalFrequency in Sentence Production., Springer-Verlag.,1981.[22] Liberman, M. and Pierrehumbert, J., 1984, Intonationalinvariance under changes in pitch range and length., InAronoff, M. and Oehrle, R T., editors, Language SoundStructure., MIT Press.[23] Fujisaki, H. and Kawai, H., 1988, Realization oflinguistic information in the voice fundamental frequencycontour of the spoken Japanese, In InternationalConference on Speech and Signal Processing. IEEE.[24] Taylor, P.A., 1992, A Phonetic Model of EnglishIntonation, PhD Thesis, Edinburgh.[25] Luksaneeyanawin, S., 1983, Intanation in Thai,Unpublished PhD Thesis, University of Edinburgh.[26] Gandour, J. T., Potisuk, S., and Dechongkit, S., 1994,Tonal Coarticulation in Thai, Journal of Phonetics, vol22, pp.477-492.[27] Khanitthanan, W., 1990, Phasa lae Phasasart,Thammasat University Press. (in Thai)[28] Charpentier, F. and Moulines, E., 1989, Pitchsynchronous waveform processing techniques for text-tospeechsynthesis using diphones, European Conferenceon Speech Communication and Technology, vol. I, pp.013-019.[29] Klejin W.B. and Paliwal, K.K., 1995, Speech codingand synthesis, Elsevier Science.Virach Sornlertlamvanich is the actingdirector of Information Research andDevelopment Division of the NationalElectronics and Computer Technology(NECTEC) of Thailand since 1992. Hereceived the B.Eng. and M.Eng. degreesfrom Kyoto University, in 1984 and1986, respectively. From 1988 to 1992,he joined NEC Corporation and involved in the Multi-lingualMachine Translation Project supported by MITI. He receivedthe D.Eng. degree from Tokyo Institute of Technology in1998. His research interests are natural language processing,lexical acquisition and information retrieval.Pradit Mittrapiyanuruk received bachelordegree in electrical engineering from KingMongkut’s University of TechnologyThonburi (KMUTT) in 1994 and masterdegree in electrical engineeringChulalongkorn University in 1996. Then hejoined NECTEC in August 1996. He hadinvolved in the projects i.e. IntegratedReceiver&Decoder (IRD), Text Retrieval Database, andspeech synthesis. Currently, he mainly works for theNECTEC’s Thai text-to-speech synthesis project. Hisresearch interests are speech synthesis, speech recognitionand multimedia signal processing.Chatchawarn Hansakunbuntheung receivedhis Bachelor degree and Master degree inelectrical engineering from ChulalongkornUniversity in 1998 and <strong>2000</strong> respectively.He has joined the NECTEC at the Softwareand Language Engineering Laboratory(SLL) since <strong>2000</strong>. He started his work in theresearch and development group of the Thai Text-to-Speechproject since. At the present, he isinvolved in Thai Text-to-speech projectand Thai speech corpus project. Hisresearch interests are speech technologyand Natural Language processing.Virongrong Tesprasit has joinedNECTEC in April 1996 after receivingher BA.(Linguistics) degree from Thammasat University.She had joined both Royal Institute Dictionary DevelopmentNetwork Project and Development of Thai Corpus BaseProject. At present, she researches on Thai Text-to-Speechsynthesis Project. Her research interests are Phonetics andSpeech Technology.


46Thai LetterTable 1. Phonetic symbol of Thai consonantPhonetic SymbolInitialFinal (includingopen syllable)ก /k/ /k/ข, ฃ, ค, ฅ, ฆ /kh/ง /ng/ /ng/จ/c/ฉ, ช, ฌ /ch/ซ, ศ, ษ, ส /s/ญ, ย /j/ /j/ฎ, ด /d/ /t/ฏ, ต /t/ฐ, ฑ, ฒ, ถ, ท, ธ /th/ณ, น /n/ /n/บ /b/ /p/ป/p/พ, ภ, ผ /ph/ฟ, ฝ /f/ม /m/ /m/ร/r/ล, ฬ /l/ว /w/ /w/ห, ฮ /h/ -อ /?/ -Table 2. Consonant ClusterThai Letter Phonetic Symbol of ConsonantClusterEnglish Letter Phonetic Symbol of ConsonantClusterInitial Final Initial Finalปร- /pr/ - br- /br/ -ปล- /pl/ - bl- /bl/ -ตร- /tr/ - fr- /fr/ -กร- /kr/ - fl- /fl/ -กล- /kl/ - dr- /dr/ -กว- /kw/ - f- - /f/พร-, ผร- /phr/ - l- - /l/พล-, ผล- /phl/ - s- - /s/ทร- /thr/ - ch- - /ch/คร-, ขร- /khr/ - - - -คล-, ขล- /khl/ - - - -คว- /khw/ - - - -


47Table 3. Phonetic Symbol of Thai VowelMonophthong Diphthong Vowel LetterShort Vowel Long Vowel Short Vowel Long Vowel Short Vowel Long Vowel-ะ /a/ -า /a;/ เ -ียะ /ia/ เ -ีย /i;a/ -ํ า /am/ - --ิ /i/ -ี /i;/ เ -ือะ /va/ เ -อ /v;a/ ไ-, ใ- /aj/ - --ึ /v/ -ื /v;/ -ัวะ /ua/ -ัว /u;a/ เ-า /aw/ - --ุ /u/ -ู /u;/เ-ะ /e/ เ- /e;/แ-ะ /x/ แ- /x;/โ-ะ /o/ โ- /o;/เ-าะ /@/ -อ /@;/เ-อะ /#/ เ-อ /#;/Table 4. Combination of Demisyllable based Inventory for Final PartVowelFinal ConsonantDead Syllable (3) Live Syllable (5) Open Syllable (1)MonophthongShort vowels (9) Mid, Low, Falling, High Mid, Low, Falling, High Mid, Low, Falling, HighLong vowels (9) Mid, Low, Falling, High Mid, Low, Falling, High,RisingMid, Low, Falling, High,RisingDiphthongShort vowels (3) - - Low, Falling, HighLong vowels (3) Low, Falling, High Mid, Low, Falling, High,RisingMid, Low, Falling, High,Rising


48Toward an Enhancement of Textual Database RetrievalBy using NLP Techniques *Asanee Kawtrakul 1 , Frederic Andres 2 , Kinji Ono 2 ,Chaiwat Ketsuwan 1 , Nattakan Pengphon 1 ,ak@beethoven.cpe.ku.ac.th , {andres,ono}@rd.nacsis.ac.jp(1) NAiST (1), Computer Engineering Dept, Kasetsart University, Bangkok, Thailand(2) NACSIS (2) , Center of Excellence of the Ministry of Education, Tokyo, JapanABSTRACT : Improvements in hardware, communication technology and database have led to theexplosion of multimedia information repositories. In order to provide the quality of informationretrieval and the quality of services, it is necessary to consider both retrieval techniques and databasearchitecture.This paper presents the project named VLSHDS-Very Large Scale Hypermedia Delivery System. Thequality of textual information search is enhanced by using NLP techniques. The quality of service overa large-scale network is provided by using AHYDS-Active HYpermedia Delivery System-framework.KEY WORDS : Information Retrieval, Textual Database Retrieval, Multi-level indexing, DocumentClassification, Very Large Scale Hypermedia Delivery System, Natural Language Processingบทคัดยอ : การพัฒนาเทคโนโลยีฮารดแวร เทคโนโลยีสื่อสาร และฐานขอมูลไดนํ าไปสูการเติบโตอยางรวดเร็วของการจัดเก็บขอมูลแบบหลายสื่อ เพื่อใหการบริการขอมูลและการสืบคนขอมูลมีคุณภาพและประสิทธิภาพ เราจํ าเปนตองพิจารณาทั้งทางดานเทคนิคการสืบคนขอมูลและสถาปตยกรรมฐานขอมูลบทความฉบับนี้นํ าเสนอผลงานวิจัยภายใตโครงการที่ชื่อวา ระบบจัดสงขอมูลหลายสื่อขนาดใหญ (VLSHDS) ดวยเทคนิคการประมวลภาษาธรรมชาติในระดับคํ า และระดับวลี สามารถยกระดับคุณภาพของการสืบคนขอมูล ดวยเทคโนโลยีของระบบจัดสงขอมูลหลายสื่อแบบแอคตีฟ สามารถเพิ่มคุณภาพการใหบริการขอมูลคํ าสํ าคัญ : การสืบคนขอสนเทศ การสืบคนขอมูลเอกสาร การสรางดัชนีหลายระดับ การแยกประเภทเอกสาร ระบบจัดสงขอมูลหลายสื่อขนาดใหญ• This Project has been granted by Kasetsart University Research and Development Institute (KURDI), Kasetsart University,Thailand and National Center for Science Information Systems (NACSIS), Center of Excellence of the Ministry of Education,JAPAN and National Electronics and Computer Technology Center (NECTEC).• This article is a reprint of the article appeared in the Proceedings of NECTEC Annual Conference <strong>2000</strong> : ECTI Technologies forNew Economies, June <strong>2000</strong>, pp. 280-290. This paper wins a best paper award in category of "the most impact to Thai society".


491. IntroductionImprovements in hardware, communication technologyand database engines had led to the expansion ofchallenging interactive multimedia applications andservices. Typical examples of applications include on-linenews, digital libraries and web-based informationinvolving multi-dimension multimedia documentrepositories. These systems combine various mediacontent with hyperlink structures for user query ornavigation. Most of them store contents inside the databasesystems supporting extenders in order to add applicationdata types with their access methods. Moreover, there is novertical integration between application plug-ins and thedatabase kernel itself. This limitation is an underlyingreason for further improvements [6,8,16,17,18]. AHYDS-The Active HYpermedia Delivery System is one of a newwave of database kernels [4,7,15] that facilitates the accessto multimedia documents according to the user’srequirement and application’s features over a widespectrum of networks and media [1].The VLSHDS-Very Large Scale Hypermedia DeliverySystem is the project between NACSIS and NAiST [2,10]which is aimed to integrate both the quality of datamanagement service and the quality of textual informationretrieval. The VLSHDS platform is , then, based onAHYSD which provides a framework for open datadelivery service, communication service, query executionservice and supervision service. The quality of full textretrieval services has been enhanced in both precision andrecall by integrating NLP techniques for document andquery processing.Section 2 gives an overview of the VLSHDS. Theimplementation of document processing, query processingand retrieving processing are described in section 3, 4 and5 respectively. Section 6 gives the conclusion and briefsthe next step of the project.2. An Overview of the Very LargeScale Hypermedia Delivery SystemsThe key architectural components in the VLSHDSplatform used as textual database platform is shown inFigure 1. The system consists of a client/server three tiersarchitecture. At Client side, queries are sent to the serverby using the AHYDS communication support [11]. At theserver side, there are three main components: DocumentProcessing, Query Processing and Retrieving Processing. TheDocument Processing based on the Extended Binary Graph(EBG) structure provides multilevel indices and documentcategory as document representation. The Query Processingprovides query expansion based on query guide. The RetrievalProcessing computes the similarity between queries anddocuments and returns a set of retrieved documents with thesimilarity scores.3. The Role of NLP in DocumentProcessingTo enhance the performance of full text retrieval service, goodrepresentation of each document should be provided, i.e., multilevelindices and document category. Multi-level indices willincrease the retrieval recall without the degradation of thesystem precision and document category will be used forpruning irrelevant document or increase precision whiledecreasing the searching time.The primary problem in computing multi-level indices andcategory as document representation is a linguistic problem. Theproblems frequently found, especially in Thai documents, arelexical unit extraction including unknown word, phrasevariation, loan words, acronym, synonym and definite anaphora.Accordingly, to be more successful, NLP components, i.e.,morphological analysis and shallow parsing should beintegrated with statistical based indexing and categorizing3.1 The Architecture of NLP based DocumentProcessingFigure 2 shows the overview of Thai document processing.There are two main steps: multilevel indexing and documentcategorizing. Each document will be represented asWhere I p ,I t ,I cCiD i = are the set of indices inphrase, single term and conceptual level,respectivelyis the category of an document i-th


50CLIENT – User Interface(C, JAVA)RetrievedQueryDocumentsNetworkRetrievedDocumentsQueryUNIX SERVERAHYDS platformPHASME Interface(C, JAVA)NLP Technique basedDocument Processing Plug-inDocumentRepresentation- Multi-level indices- Document categoryKnowledge Base- WordNet- NP Rules- Lexicon BaseKnowledgeAcquisitionDocumentsFigure 1: The Architecture of the VLSHDS Platform for TextualDocument RetrievalDocumentsAutomaticIndexingLexical Token Identification- Lexical Token Recognition- Backward Transliteration- Lexibase- CUVOALDCompute WeightPhrasal Identification& ExtractionNP RulesMultilevel IndexGenerationThai Word NetD i = CategorizingD i = Figure 2: Overview of Thai document processing


51list oflexical tokenCandidate IndexSelectionPhrase BoundaryIdentificationRelation Extractionlist of candidateindex NPNP RulesFigure 3: Phrase Identification and Relation ExtractionNP


52whereIIItpiciiD =< I , I , Ii=< W=< Wt1=< Wp1pPhrasal level indices (I p ) consist of set of the phrasesextracted by using noun phrase rules. Single term levelindices (I t ) are the head of each index token in the phrasallevel. Conceptual level indices (I c ) are the semanticconcepts of each single term level index, given in Lexibase[14]. For example, the document concerns about มะนาว(lemon), may keep “มะนาวไข” (A kind of lemon) as phrasallevel and keep “มะนาว” (Lemon) as single term level and“พืช” (Plant) as conceptual level.Figure 6 shows the process of Multilevel Index Generationconsisting of phrase level, single term level and conceptuallevel for each document.Phrase Weighting{D i ,I Pi ,W pi }Defining SingleTerm Indexic1iii, W, Wt2, Witiip2c2ici,..., W>,..., Wt3,..., Wp3ic3ii>>>The parallel processing of the document is providing by theAHYDS engine using the EBG data structure. Each level ofindex of each document is computed dependently butindependently from other document.More details of the algorithm of multilevel index generation isgiven in Annex 2.Figure 7 shows the comparison between multilevel indexing andtraditional indexing systemUsing multilevel indexing, “egg” would not be retrieved, while,in traditional IR, it will be retrieved which degrade theperformance of the system.3.2.4 Document ClassificationEven though multi-level indices can cover a very wide range ofdocument retrieval without degradation of system performance,document clustering for pruning irrelevant documents is stillDi= < I p , I t , I c , C >i i i inecessary in order to increase precision and decrease searchingtime.Text categorization or document clustering consists of twoparts: a prototype learning process to provide prototypes foreach cluster of documents and a clustering process, whichcompute the similarity between input document and prototype(see Figure 8).Finally, document will be represented aswhere{D i ,I Ti ,W Ti }Semantic Conceptof Single TermThesaurusIIItpicii=< W=< W=< Wp1t1ic1ii, W, Wt 2, Wp 2ic 2ii,..., W,..., WThe algorithm C =< of document clustering is > summarized in Annexi Wcat, Wicat ,..., W12icat ni3.tt,..., Wictptii>>>{D i ,I Ci ,W Ci }Figure 6: Multilevel IndexGenerationIn each level of index we use Salton’s Weightnormalization [15] as shown below is used for computingweights.tf k mVmk= ltf∑j=1mktfNdlognkNlognmj= Number of index terms k in document mn k = Number of documents that contain term kN d = Number of documents in the collectionl = Number of index termsdj4. Query processingIn order to obtain those documents, which have the best matchwith a given query, we also need a “query guide”. Query Guideis applied by using the cluster hypothesis and query expansions.Our method apply Word-Net for reconstructing query by addingmore general term/concept. For exampleQuery = “นํ้ าดอกไม.” (proper name: the name of mango) and itsgeneral term (from Word-Net) is “มะมวง” (mango). Afterexpansion, the new query is “มะมวง-นํ้ าดอกไม” (The phrasecontains of mango and its specified name).5. Retrieval ProcessingThe following retrieval process is implemented for enhancingthe performance of the system (see figure 9):


53Multilevel IndexingTraditional Indexing SystemIndex Level Query Query MeaningPhrase level มะนาวไข มะนาวไข A kind of lemon named (“Egg lemon”)Single term level มะนาวDocumentAboutมะนาว Lemonไขมะนาวไข(A kind ofไข Egglemon)Conceptual level พืช พืช PlantFigure 7: Example of how Multi-Level Indexing can enhance performanceInitial learning dataLearning ProcessPrototype class(P c )ith i ht tAB DCNew documentRepresent documentinto weight vectorCompute similarity of documentIF it is not similar THENAdd this document tounknown categoryELSEAdjust weight vector in P cFigure 8: Text Categorization processA = The set of all documentsB = The set of documents by matching theinput queries with the inverted index file.C = The set of documents which have thesame category as the query.D = The documents which come from theintersection of the sets of documents in setB and set CFigure 9. The Retrieved Documents1. Compute a candidate set of documents by matchingthe input queries with the inverted index file.2. Select a candidate set of documents which have thesame category as the query.3. Calculate the similarity between the queries of thedocuments which come from the intersection of thesets of documents in 1 and 2.4. Return a set of retrieved document with the similarityscores.6. Conclusion and Future WorkFigure 10 shows the difference between a set of index withapplying and without applying NLP techniques.At the current state, knowledge acquisition is processedmanually by linguists. Next step it will be provided bysemi-automatically. The domain of documents is limits incomputer area. However, it will be extended to coveragriculture and general news area.References[1] Andres F., “Active Hypermedia Delivery System andPHASEMA Information Engine” in Proc. FirstInternational Symposium on Advanced Informatics,Tokyo, Japan, <strong>2000</strong>.[2] Andres F., Kawtrakul A., Ono K. and al.,“Development of Thai Document Processing Systembased on AHYDS by Network Collaboration”, inProc. 5 th international Workshop of AcademicInformation Networks on Systems(WAINS),Bangkok, Thailand, December 1998.[3] Andres F., and Ono K. “The Active HypermediaDelivery System”, in Proceedings of ICDE98,Orlando, USA, February 1998.[4] Boncz, P.A. and Kerstern, M.L. “Monet: AnImpressionist Sketch of an Advanced DatabaseSystem” In Proc. IEEE BITWIT Workshop, SanSebastian (Spain), July 1995.[5] E. Chaniak, “Statistical Language Learning”, MITPress, 1993.


54Problem Indexing without NLP Technique Indexing with NLP Techniqueการเชื่อมตอเครือขาย 0.0082Phrase การเชื่อมเครือขาย 0.0082 การเชื่อมเครือขาย 0.0836variation การเชื่อมโยงระหวางเครือขาย 0.0373การเชื่อมโยงเครือขาย 0.0299Loan wordอินเตอรเน็ต 0.0073 Internet 0.0165อินเทอรเน็ต 0.0092อีเทอรเน็ต 0.0117 Ethernet 0.0611อีเธอรเน็ต 0.0494Figure 10. Examples of Applying NLP Technique to solving phrasevariation and loan word[6] Geppert, A. Dittrich, K.R. “Constructing the Next 100Database Management Systems: Like the Handymanor Like the Engineer ?” in SIGMOD RECORDVol.23, No 1, March 1994.[7] Geppers A., Scherrer S., and Dittrich K.R. “Kids:Construction of Database Management Systemsbased on Reuse”, Technical report 97.01, InstitutfurInformatik, University of Zurich, Switzerland, 1997.[8] Grosky W.I. “Managing Multimedia Information inDatabase System” in Communication of the ACMDecember 1997, Vol 40., No 12, page 73-80.[9] G. Salton, “Automatic Text Processing. TheTransformation, Analysis, and Retrieval ofInformation by Computer”, Singapore: Addison-Wesley Publishing Company, 1989.[10] Kawtrakul A., Andres F., et.al.,. “A Prototype ofGlobalize Digital libraries: The VLSDHSArchitecture for Thai Document processing.” 1999.(on the process of submission)[11] Kawtrakul A., Andres F., Ono K. and al., “TheImplementation of VLSHDS Project for ThaiDocument Retrieval” in Proc. First InternationalSymposium on Advanced Informatics, Tokyo, Japan,<strong>2000</strong>.[12] Kawtrakul A., et.al., “Automatic Thai UnknownWord Recognition”, In Proceedings of the NaturalLanguage Processing Pacific Rim Symposium,Phuket, pp.341-346, 1997.[13] Kawtrakul A., et.al., “Backward Transliteration forThai Document Retrieval”, In Proceedings of The1998 IEEE Asia-Pacific Conference on Circuits andSystems, Chiangmai, pp. 563-566, 1998.[14] Kawtrakul A., et.al., “A Lexibase Model for WritingProduction Assistant System” In Proceedings of the2 nd Symposium on Natural Language Processing,Bangkok, pp. 226-236, 1995.[15] Seshadri P., Livny M., and Ramakrishnan R. “The Case forEnhanced Abstract Data Types” In Proceedings of 23 rdVLDB Conference, Athens, Greece, 1997, pages 56-65.[16] Subrahmanian V.S. “Principles of Multimedia DatabaseSystems”, Morgan Kaufmann, 1997.[17] Teeuw W.B., Rich C., Scholl M.H. and Blaken H.M. “AnEvaluation of Physical Disk I/Os for Complex ObjectProcessing” in Proc. IDCE, Vienna, Austria, 1993, pp 363-372.[18] Valduriez P., Khoshafian S., and Copeland G.“Implementations techniques of Complex Objects” inProc. Of the International Conference of VLDB, Kyoto,Japan, 1986, pp 101-110.BiographyAssoc. Prof. Asanee Kawtrakul,Ph.D.,researcher, received bachelor degree(honor) and master degree in electricalengineering from Kasetsart University in1976 and 1986, respectively. She receivedPh.D in Information Engineering fromNagoya University in 1991. She has beenthe lecturer for Faculty of Engineering since1983. She had been the project leader in several projects in thefields of Natural Language Processing, Text Retrieval Database,Speech Synthesis, Database Management System, andGeographical Information System.


55Annex 1Algorithm Phrase Identification and Relation ExtractionInput: a list of lexical token w 1 , w 2 , …, w nwith set of POS tag information T i = {t 1 , t 2 , t 3 , …, t m },frequency f i and weight W i for each wordOutput: set of candidate index NPs with head-modifier relationor compound relationCandidate Index Selection:Selecting candidate index by selecting term which have weight w i > θ(θ is an index threshold)Phrase boundary identification:FOR each candidate term DOApply NP rule to find boundaryIF can not apply rule directlyConsider weight of adjacent term w adj THENIF adjacent term has weight w adj > φ(φ is a boundary threshold) THENExtend boundary to this termELSEIF this adjacent term in the preference listExtend boundary to this term THENRelation Extraction:FOR each candidate index phrase DOTo find internal relation we consider term frequencyin each phraseIF the frequency of each word of candidate NPhas the same frequencyTHENRelation of this NP is compound nounELSERelation of this NP is head-modifier pair :Head is the term(s) with highest frequency.Modifier is the term(s) with lower frequency.


56Annex 2Algorithm Multilevel Index GenerationInput:1. A list of lexicon token provided by Lexicon Token Identificationand Extraction process w1, w 2 ,…., w j with its frequency f wi andweight w wi .2. A list of candidate Phrasal indices withhead-modifier relation or compound relation.Output: Index weight vector as document representationWhereD i = {I pi , I ti , I ci }I pj = {w p1 , w p2 , …, w pj }I tj = {w t1 , w t2 , …, w tj }I cj = {w c1 , w c2 , …, w cj }Phrasal Level Indexing:FOR each candidate Index NP DORecompute Phrase weights in whole documentsIF phrase weight > θ (θ is index threshold)Keep sorted Phrase index token THENSingle Term Level Indexing:FOR each candidate phrase index NP OR each single term DOIF tokens of candidate phrasal indexExtract the head of the token THENRecompute weightELSEFOR each lexicon token that not appear in phrasal level DORecompute weightKeep sorted Single term indicesConceptual Level Index:FOR each single term index DOFind Semantic Concept of each single termsRecompute weightKeep Sorted Conceptual Level Index


57Annex 3Algorithm Document ClusteringInput:single term indices and phrase indices with their frequenciesOutput: Document representation in Learning Process:Define prototype class e.g. Computer, Agriculture, News etc.FOR each documents DOCompute weight vector of single term/phrasal indices by usingWmx = ltf∑ tfj=1mxN dlognxNlognmjdjW m x= Weight Vector of phrase indices x in document m thx = k mean Single term indexx = p mean Phrasal indextf mx= {0 if f m x= 0, log(f m x) + 1 otherwise}n k = Number of documents that contain term kN d = Number of documents in the collectionl = Number of index termsFOR each prototype class DOCompute weight vector of single term indices by using Rocchio’s algorithm is used [3, 5]:WWck'cx⎪⎧0= ⎨⎪⎩ W'ck1= βROtherwiseIf∑c i∈Rc'W ck > 0Wmx1−γRClassification:FOR new document input DOCompute weight of phrase index and weight of single term index by using formula:Wmx = ltf∑ tfj=1mxN dlognxNlognmjdj−c∑i∈RCompare weight with each Prototype Class by using the dot product formula−cWmxW cx = weight of term k in the prototype P c for class.x = k = Single Term indexx = p = Phrasal indexW x m = weight of term k indexing for each documentx = k = Single Term indexx = p = Phrasal indexR c = set of training documents belonging to class cR c = set of documents not belonging to class c(Note: β = 16, γ = 4 [Buckley et al., 1994])W m x= Weight Vector of phrase indices x in document m thx = k mean Single term indexx = p mean Phrasal indextf mx= {0 if f m x= 0, log(f m x) + 1 otherwise}n k = Number of documents that contain term kN d = Number of documents in the collectionl = Number of index termstm∑(Wp* Wcp)k = 1+ttm 22∑(Wp) * ∑(Wcp)k = 1 k = 1S( D , C)= αβit∑x=1( Wmk* W )ttm 2∑(Wk) * ∑x= 1 x=1ck( W )2ckW ck = Weight of Single term k in the Prototype P c for classW m k = Weight of Single term k in document m thW cp = Weight of Phrase p in Prototype P c for classW m i = Weight of Phrase p in document m thα = [0, 1]β = [0, 1]α + β = 1FOR each C, DOIF S(D i , C) > θ t THENStore document into Prototype P c and adjust weight in Prototype Class.


58การพัฒนาชองวางสํ าหรับพิมพขอมูลที่มีระบบการตรวจสอบความถูกตองDevelopment of data entry box with data validity systemรศ. วรชัย ตั้งวรพงศชัย ถวัลย สุขทะเลหนวยรังสีรักษา ภาควิชารังสีวิทยา คณะแพทยศาสตร มหาวิทยาลัยขอนแกนรุจชัย อึ้งอารุณยะวีภาควิชาวิศวกรรมคอมพิวเตอร คณะวิศวกรรมศาสตร มหาวิทยาลัยขอนแกนบทคัดยอ-- การพัฒนาชองวางเพื่อใหผูใชเติมขอมูลลงในแบบบันทึกขอมูล มีความจํ าเปนตองพัฒนาระบบการตรวจสอบความถูกตองของขอมูลที่พิมพลงในชองวาง วิธีการตรวจสอบที่นํ าเสนอในบทความนี้ อาศัยจากแนวคิดที่วา ชองวางที่พัฒนาขึ้นจะมีพฤติกรรมในการทํ างานเหมือนชองวางทั่วไป เมื่อผูใชพิมพคํ าหรือขอความไมตรงกับที่ผูพัฒนากํ าหนดไว ระบบก็จะเตือนพรอมกับแสดงรายการของขอความที่ผูใชควรจะเติมกรณีที่ผูใชพิมพไมสมบูรณ ระบบก็จะจัดหาขอความที่สมบูรณและมีความเปนไปไดมากที่สุดเติมลงในชองวางให ดวยวิธีการนี้จะไมสงผลกระทบตอการทํ างานของผูใช แตจะมั่นใจไดวาระบบจะไดขอมูลที่นาเชื่อถือที่สุดโมดิฟายดอิเลกโทรดสํ าหรับวิเคราะหปริมาณกลูตาเมทModified Electrode for the Determination of Glutamateนางพรพิมล ศรีทองคํ า : สถาบันพัฒนาและฝกอบรมโรงงานตนแบบรศ. บุษยา บุนนาค, รศ.ดร. มรกต ตันติเจริญ : คณะทรัพยากรชีวภาพและเทคโนโลยีผศ.ดร.โสฬส สุวรรณยืน : ภาควิชาวิศวกรรมเคมี คณะวิศวกรรมศาสตรมหาวิทยาลัยเทคโนโลยีพระจอมเกลาธนบุรีบทคัดยอ--โมดิฟายดอิเลกโทรดสํ าหรับวิเคราะหปริมาณกลูตาเมทสรางขึ้นจากสวนผสมของผงคารบอน,อนุภาคขนาดเล็กของรูทีเนียม,เอนไซม glutamate dehydrogenase, (GLDH) และ โคเอนไซม NAD+ สภาวะที่เหมาะสมตอการเตรียมอิเลกโทรดคือการผสมคารบอนที่มีโลหะรูทีเนียมรอยละ 1 (นํ้ าหนัก/นํ้ าหนัก) ปริมาณ 12.5 มิลลิกรัมกับสารละลายเอนไซม GLDH และ NAD+ ในฟอสเฟตบัฟเฟอรนํ้ าหนัก 5 และ 3.8มิลลิกรัมตามลํ าดับ จากนั้นสรางฟลมบางของ poly(1,3-diaminobenzene)บนผิวหนาของอิเลกโทรดดังกลาวดวยวิธีอิเลกโตรเคมิคอลโพลีเมอไรเซชัน ศักยไฟฟาที่ใชในการวัดกลูตาเมทโดยโมดิฟายดคารบอนเพสอิเลกโทรดคือ 400 มิลลิโวลต เทียบกับขั้วอางอิง Ag/AgCl อิเลกโทรดมีกิจกรรมคงเหลือ 80% หลังการใชงาน 100 ครั้ง เวลาในการตอบสนองประมาณ 2-3 นาที พิสัยเชิงเสนของการวัดกลูตาเมทอยูในชวง 0.01-0.9มิลลิโมลาร


59การตรวจวินิจฉัยสัญญาณไฟฟากลามเนื้อลิ้นและคอขณะกลืนดวยอิเล็กโตรดชนิดปดผิวหนังSurface Electromyography in Dysphagiaวิทูร ลีลามานิตย, แอนดรูว ซีการ , อลัน กีเตอรสถาบันวิศวกรรมชีวการแพทย มหาวิทยาลัยสงขลานครินทรเครือขายศูนยเทคโนโลยีอิเล็กทรอนิกสและคอมพิวเตอรแหงชาติบทคัดยอ-- วัตถุประสงคของโครงการวิจัยปที่ 1 ระยะที่ 2 คือศึกษาลักษณะจํ าเพาะของ surface electromyo- graphy (sEMG) ของกลามเนื้อลิ้นและคอ (tongue and thyrohyoid muscle) ขณะอาสาสมัครกลืนนํ้ าลายและอาหารชนิดตางๆ วิธีวิจัย ทํ าการบันทึก sEMG ของกลามเนื้อลิ้นและคอในอาสาสมัครจํ านวน 61 คน ขณะอาสาสมัครกลืนนํ้ าลาย นํ้ า 5 มิลลิลิตร เยลลี่ 5 มิลลิลิตร ขนมปง (biscuit) ขนาด 5 มิลลิลิตร อยางละ 3ครั้ง และทํ าการบันทึก sEMG ของกลามเนื้อลิ้นและคอในอาสาสมัครอีก 2 คน คนละ 3 ครั้งหางกันครั้งละ 1 สัปดาห ขณะอาสาสมัครกลืนนํ้ าลาย นํ้ า 5 มิลลิลิตร และ 10 มิลลิลิตร อยางละ 6 ครั้ง เพื่อทดสอบ reproducibility ของวิธีตรวจวัด และ intrasubject and intersubject variationทํ าการประมวลผลของ sEMG ทั้งหมดดวย algorithm ที่ใชในระยะแรกของโครงการวิจัย แลววิเคราะหลักษณะจํ าเพาะของ sEMG ดวยวิธี 1.หาคารากที่สองของผลคูณคาเฉลี่ยพื้นที่ใต curve (SRMAUC) ของ sEMG กลามเนื้อลิ้นและคอขณะกลืน 2.หาผลรวม vector (CV) ของ sEMGกลามเนื้อลิ้นและคอขณะกลืน 3.นํ าคาSRMAUC และ CV ของ sEMG ในขอ 1 และ 2 มาหาความสัมพันธ ผลการวิจัยพบวา 1.SRMAUC ของsEMG กลามเนื้อลิ้นและคอขณะกลืนขนมปงจะแตกตางอยางมีนัยสํ าคัญจากการกลืนนํ้ าลาย กลืนนํ้ า และเยลลี่ (p


60พีโซอิเลกตริกคริสตัลไบโอเซนเซอรสํ าหรับวิเคราะหยาปราบศัตรูพืชกลุมออรกาโนฟอสฟอรัส :การโมดิฟายดผิวหนาอิเลกโทรดดวย poly (1,3-diaminobenzene) โดยเทคนิค ElectrochemicalPolymerisationPiezoelectric Crystal Biosensor for the Detection of OrganophosphorusPesticides : Modification of Electrode Surface with Poly (1,3-diaminobenzene) by Electrochemical Polymerisation Techniqueนางพรพิมล ศรีทองคํ า, นายธวัชชัย สุวรรณ : สถาบันพัฒนาและฝกอบรมโรงงานตนแบบรศ.ดร. มรกต ตันติเจริญ : คณะทรัพยากรชีวภาพและเทคโนโลยีดร.กฤษณพงศ กีรติกร : สายวิชาเทคโนโลยีวัสดุ คณะพลังงานและวัสดุมหาวิทยาลัยเทคโนโลยีพระจอมเกลาธนบุรีบทคัดยอ-- งานวิจัยนี้กลาวถึงวิธีการโมดิฟายดขั้วอิเลกโทรดทองของพีโซอิเลกตริกคริสตัลดวยโพลีเมอร poly (1,3-diamonobenzene) โดยเทคนิค electrochemical poly-merisation อิเลกโทรดที่ผานการโมดิฟายดจะถูกตรึงดวยเอนไซม acetylcholinesterase และนํ าไปทดสอบการตอบสนองตอสารประกอบออรกาโนฟอสฟอรัสในตัวอยางนํ้ าประเภทตางๆ ไบโอเซนเซอรที่สรางขึ้นจากสภาวะที่เหมาะสมสามารถตอบสนองตอไดคลอวอสดวยความสัมพันธอยางเชิงเสนในชวงความเขมขน 0.05-2.0 พีพีเอ็ม และพบวาไบโอเซนเซอรสามารถตอบสนองตอคารบาเมทได แตไมพบการตอบสนองตอสารประกอบกลุมอื่นเชน ออรกาโนคลอรีน ยาปราบวัชพืชหรือไอออน นอกจากนี้ไดศึกษาถึงการฟนฟูกิจกรรมของไบโอเซนเซอรโดยสารประกอบ 2-PAM เพื่อศึกษาความเปนไปไดในการนํ าไบโอเซนเซอรกลับมาใชใหม


VLSI Implementation of a Symmetric Cipher Using Cellular AutomataBanlue Srisuchinwong, Thitiporn Lertrusdachakul,Orapin Watcharawetsaringkan and Kittipong MeesawatDepartment of Electrical Engineering, Sirindhorn International Institute of TechnologyThammasat University, Rangsit Campus, Pathumthani, 12121, Thailand61บทคัดยอ-- บทความนี้เสนอการสรางวงจรรวมขนาดใหญสํ าหรับวงจรปองกันการดักฟง (Cipher) แบบสมมาตร โดยใช เซลลูลา ออโตเมตาแบบ non-autonomous และแบบ autonomous โดยการใชขอมูลทุก ๆ 16 บิท ผานเขาไปใน เซลลูลา ออโตเมตาแบบ non-autonomous ขอมูลสามารถไหลทางเดียวไดโดยการใช involutions การใชเซลลูลา ออโตเมตาแบบ autonomous จะเปลี่ยนรหัสกุญแจขนาด 96 บิทไปตลอดเวลาในขณะที่ขอมูลผานเขามา โครงการนี้ ไดออกแบบวงจรโดยใชหลักการ "บนลงสูลาง (Top-Down Design)" ใน 3 ขั้นตอนคือ behavioural level (Clanguage and logic simulations) และ structural level (transistors and spice simulations) สํ าหรับขั้นตอนที่ 3 คือ physical level (layout) นั้น ยังมิไดนํ าเสนอในบทความนี้ การออกแบบ "ลางขึ้นบน (Bottom-Up Design)" ไดนํ ามาใชดวย ทํ าใหไดขอสรุปวา วงจรสามารถทํ างานไดถึง 21 เมกกะเฮิรซ โดยมีความเร็ว 336 เมกกะบิทตอวินาที คุณสมบัติที่สํ าคัญของเซลลูลา ออโตเมตา ไดแก ความเรียบงาย ความเปนมอดุลาร และการติดตอสื่อสารภายในที่ใชระยะทางเพียงสั้นๆกับเซลขางเคียง คุณสมบัติเหลานี้ลวนเหมาะสมอยางยิ่งสํ าหรับการสรางวงจรไฟฟารวมขนาดใหญมากA High-Speed Multiplier-Free Realization ofIIR Filter Using ROM'SThanyapat Sakunkonchak and Sawasd TantaratanaDepartment of Electrical Engineering, Sirindhorn International Institute of TechnologyThammasat University, Rangsit Campus, Pathumthani, 12121, ThailandE-mail: thong@siit.tu.ac.th, sawasd@siit.tu.ac.thบทคัดยอ-- ในบทความนี้ ผูเขียนไดนํ าเสนอไอไออารฟลเตอรความเร็วสูงแบบไรตัวคูณโดยการใชรอม เพื่อเก็บผลคูณกับสัมประสิทธิ์การคูณ ควบคูไปกับสัญญาณความถี่สูงและการทํ าไปปไลน ดวยการปรับคาของตัวแปรบางตัวทํ าใหโครงสรางที่นํ าเสนอนี้ไดคาของฮารดแวรและความเร็วที่แตกตางกัน ดังตัวอยางซึ่งไดทํ าการเปรียบเทียบโครงสรางที่นํ าเสนอกับ Distributed Arithmetic ผลลัพธที่ไดแสดงใหเห็นวาถาเลือกตัวแปรที่เหมาะสมแลว โครงสรางที่นํ าเสนอนี้จะใหความเร็วที่สูงกวาและใชฮารดแวรนอยกวาเมื่อเทียบกับ DA realization


62วิธีการปกปดขอผิดพลาดในการถอดรหัสวิดีโอภาพระบบ H.261 โดยการใชวิธีการประมาณคาของเวคเตอรการเคลื่อนที่An Error Concealment Method for the H.261Video DecodingUsing Estimation of the Motion Vectors* เทอดศักดิ์ ธนกิจประภา * นงนุช สุขตั้งมั่น **ไกรสิน สงวัฒนา **อิทธิชัย อรุณศรีแสงไชย*นักศึกษาปริญญาโท คณะวิศวกรรมศาสตร **อาจารย คณะวิศวกรรมศาสตรสถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหาร ลาดกระบังABSTRACT - The detection and concealment of error in the H.261 standard video stream is important in any video conferencing session as error in thebitstream can affect not only its corresponding picture element but also other neighbouring elements in the same frame and also other frames that references theerrornous element. The error can propagate until the starting of a new Group of Block (GOB) if it is not detected.This paper presents a method for concealment of error in macroblock upon detection of error while decodingthe H.261 bitstream. Temporal error concealment using motion vector from current and previous frames is applied.An array of macroblocks for concealment which formulated from motion vectors in current and previous P-frames byaverage, interpolate and extrapolate. Then, the best macroblock to conceal the error macroblock is selected.KEYWORDS – GOB , MacroblockApplication of Inclusion Scheduling to Resource Estimation inArchitectural Synthesis With Imprecise SpecificationChantana ChantrapornchaiDept. of Mathematics Silpakorn UniversitySissades TongsimaHPCC, NECTECABSTRACT – In this paper, we apply inclusion scheduling to estimate resource bounds in architectural synthesisfor VLSI systems. The inclusion scheduling algorithm takes an application which may consist of imprecise informationand generates a good schedule on average. The framework for resource estimation considers the design goal, and firstcreates the initial bound. Then inclusion scheduling is used as a tool to adjust the bound while considering impreciseinformation.KEY WORDS – architectural synthesis, resource estimation, scheduling, allocation, imprecise information


63ระบบควบคุมสภาพแวดลอมระยะไกลสํ าหรับเครือขายอภิเนตร อูนากูล, มีลาภ โสขุมา, เอกชัย วิวรรธนาภิรักษหองปฏิบัติการ Embedded System (ESL) ภาควิชาวิศวกรรมคอมพิวเตอรคณะวิศวกรรมศาสตร สถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบังABSTRACT – The Remote Environmental Control System is a system that can be used to remotely controlelectronic equipment through various communication media such as telephone, modem, remote control, and computerthrough serial port. This system is intended to control and monitor the status of the network equipment located in therural areas unattended by technical personnel in the Government Information Network (GINET) project. This paperpresents the design of the system in three levels, the physical design, the RS485 protocol design, and the softwaredesign. The software design uses the object-oriented design technique and design pattern to reduce implementationcomplexity which lead to less development time, easier validation, and ease of maintenance.KEY WORDS -- Embedded System, Home Networking, Information ApplianceApplying ATM Network Technology for <strong>IMT</strong>-<strong>2000</strong>(การประยุกตใชเทคโนโลยีเครือขายเอทีเอ็มสํ าหรับ <strong>IMT</strong>-<strong>2000</strong>)ผศ. ดร. สินชัย กมลภิวงศ ธัธชัย เองฉวน อัมพิกา จันทรภักดีสุธน แซหวอง มัลลิกา อุณหวิวรรธณDepartment of Computer Engineering, Faculty of Engineering,Prince of Songkla University, Hatyai, Songkla, Thailand 90112Abstract-- In this paper, we present an investigation of ATM network technologies for <strong>IMT</strong>-<strong>2000</strong>. Our study workwill focus on the ATM deployment in co-operate with <strong>IMT</strong>-<strong>2000</strong>. We first show some limitations of AAL-1 when it isused for carrying low bit rate voice. In contrast, when assessing the use of AAL-2 for carrying low bit rate voice,AAL2 offers a number of advantages when compared with AAL-1. We briefly reviewed network architecture issuesrelated to internetworking model. We have addressed some challenging issues which may be concerned for futureresearch topics.Keywords: ATM, <strong>IMT</strong>-<strong>2000</strong>, Mobile, Wireless, Internetworking


64A High-Speed Multiplier-Free Realization ofIIR Filter Using ROM’SThanyapat Sakunkonchak and Sawasd TantaratanaDepartment of Electrical Engineering, Sirindhorn International Institute of TechnologyThammasat University, Rangsit Campus, Pathumthani, 12121, ThailandE-mail: thong@siit.tu.ac.th, sawasd@siit.tu.ac.thABSTRACT – In this paper, we propose a high-speed multiplier-free realization using ROM’s to store the resultsof coefficients scalings in combination with higher signal rate and pipelined operations. By varying some parameters,the proposed structure provides various combinations of hardware and clock speed (or throughput). An example isgiven comparing the proposed realization with the distributed arithmetic (DA) realization. Results show that withproper choices of the parameters the proposed structure achieves a faster processing speed with less hardware, ascompared to the DA realization.KEY WORDS – IIR filter, multiplier-free realization, pipelined realization.การเขารหัสเสียงพูดแบบอะแด็พทีฟดิฟเฟอรเรนเชียลพัลสโคดมอดูเลชั่นโดยใชเทคนิคออโตคอรีเลชั่นคูSpeech Coding by Adaptive Differential Pulse Code Modulation using DualAutocorrelation Technique*วรการ วงศสายเชื้อ **ไกรสิน สงวัฒนา*นักศึกษาปริญญาโท คณะวิศวกรรมศาสตร สถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบังABSTRACT – This paper presents speech coding by Adaptive Differential Pulse Code Modulation (ADPCM) byusing the dual autocorrelation to predict the signal. Generally, the autocorrelation of adjacent speech sample is greaterthan the autocorrelation of several order time delayed samples. So, the prediction of present sample by using the onepast and next sample is more effective than only using the several order time delayed past samples. This predictionmethod is used in ADPCM encoding and the result compares with the standard ADPCM encoding.KEY WORDS – ADPCM , Dual autocorrelation


65Wavelength Routing Switching using Birefringent FiberBy Coupled Polarization ModesP.P. YupapinLightwave Technology Research Center, Department of Applied Physics, Faculty of Science KingMongkut's Institute of Technology Ladkrabang (KMITL), Bangkok 10520, Thailand Tel: 6627373000 ext.6271, Fax: 3269981, E-mail :Yupapin.Preecha@kmitl.ac.thABSTRACT-- This paper presents the study of an optical signal processing scheme known as a wavelength routingswitching where the selected wavelength channel is routed by stretching a polarization maintaining fiber. The principleof the scheme is that the wavelength channel multiplexing signals are orthogonaly combined then propagated in asingle mode polarization maintaining fiber. The desired wavelength channels could be controlled by stretching, i.e.coupling, the employed fiber length. Results obtained using two multiplexed wavelength channels of 670 and 632.8 nmsources have shown the measured crosstalk of -7 dB, where the signal to noise ratio of 14 dB was achieved.Keywords-- Optical switching, Optical devicesวิธีการมอดูเลทและดีมอดูเลทสัญญาณดิจิตอลในยานความถี่วิทยุผานเครือขายโทรทัศนชนิดใชสายนํ าสัญญาณแบบ BPSK/QPSKBPSK/QPSK Radio Frequency Data Modulation and Demodulation forCable Television Network* ทิษณุ งามเธียรธนา **ไกรสิน สงวัฒนา*นักศึกษาปริญญาโท คณะวิศวกรรมศาสตร **อาจารย คณะวิศวกรรมศาสตรสถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหาร ลาดกระบังABSTRACT--This paper presents radio frequency modulator and demodulator for high speed datacommunication on Hybrid Fiber Coaxial cable television network. Modulation and demodulation uses quadraturephase shift keying, which have changes in carrier phase by multiple of 90 degree.The modulator consists of : digital signal processor, carrier signal processor, signal multiplier andsignal summation. The demodulator consists of : QPSK amplifier, clock generator, carrier recovery signal generator,signal multiplier and digital processor.The resultant modem operates at 10 MHz carrier frequency with data rate 1.28 Mbps/S.KEYWORDS – QPSK , Cable Modem


66การวิเคราะหประสิทธิภาพการสื่อสารขอมูลในโครงขาย HFCภายใตสภาพแวดลอมของสัญญาณรบกวนแบบอิมพัลสบนเสนทางกลับPerformance Analysis of Data Communication in HFC NetworkUnder Impulsive Noise Environment on the Return Paths*ชวลิต ชั้นไพบูลย กัญน สิทธิประเสริฐ * ทิษณุ งามเธียรธณา * ไกรสิน สงวัฒนา ** อิทธิชัย อรุณศรีแสงไชย **นักศึกษาปริญญาโท คณะวิศวกรรมศาสตร ** อาจารย คณะวิศวกรรมศาสตรสถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบังABSTRACT - This paper analyses the performances of data communication on the return path of the HFCNetwork, following the DOCSIS (Data Over Cable Service Interface Specifications) and IEEE 802.14 standards.Three methods of modulation; BPSK QPSK and 16 QAM are analyzed under impulsive noise environment withreference to class-A impulse noise model. The result indicates the relationship of each modulation methods in term ofBER via CNR.KEY WORDS – Hybrid Fiber Coaxial Network , Return Path , Impulsive Noise , Carrier to Noise Ratioการใชภาพสแกน X-ray Film 2 มิติ เพื่อหาตํ าแหนง 3 มิติ ของแทงแรที่ไดรับการรักษาแบบใสแรภายใน3D of Radioisotope source positioning in Radioisotope insertion Treatmentby using an Imaging of X-ray Film scanถวัลย สุขทะเล, รศ.วรชัย ตั้งวรพงศชัยหนวยรังสีรักษา ภาควิชารังสีวิทยา คณะแพทยศาสตร มหาวิทยาลัยขอนแกนABSTRACT – The position of radioisotope source in a patient who was treated by radioisotope insertiontechnique is very important for calculate a dose distribution. The Inputting from keyboard or digitizer is good practicefor source positioning but not enough for source to organ relationship in a patient. Inputting source position on thecomputer screen together with x-ray imaging will be done easier and can be seen the source to organ relationship thatvery helpful in reducing of inputting error. An error may be rise from a measurement on the film by using ruler or thefilm slid while using the digitizer. The inputting on screen will produce an error less than 0.3 mm. (depend on thescreen resolution). The x-ray imaging can be improved the quality by adjust a contrast, brightness, Zoom in/out andPan the image on the screen. It can be show the relationship line between the antero-posterior image with respect to thelateral image as well.KEY WORDS – radioisotope source position, radioisotope insertion.


การตรวจหาเชื้อมาเลเรียในภาพเซลลเม็ดเลือดแดงโดยการเปรียบเทียบมัลติพีคของฮิสโตรแกรมThe Detection of Malaria Parasite in Red Blood Cells Image by Multi-PeakHistogram Comparisonกริช สมกันธา* สัญญา คลองในวัย* สมชัย เอี่ยวสานุรักษ* บุญธีร เครือตราชู**นักศึกษาบัณฑิตศึกษา* อาจารยภาควิชาวิศวกรรมคอมพิวเตอร**คณะวิศวกรรมศาสตร สถาบันเทคโนโลยีพระจอมเกลาคุณทหารลาดกระบัง67Abstract-- This research present the detection of malaria parasite in red blood cells image by using computer. Inthe detection of malaria parasite in red blood cells, the blood film must be dyed. Then scan the desired color. Themalaria parasite is indicated by the color. The intense level of malaria parasite which it is different from red bloodcells. So the research present the detection of malaria parasite in red blood cells image by Multi-Peak histogramcomparison. The Multi-Peak histogram comparison can be create software computer for the detection of malariaparasite. In the experiment uses 30 image of red blood cells. From the experiment result, the Multi-Peak histogramcomparison can be used to detect malaria parasite with 100 percent accuracy.KEY WORDS – Medical Image ,Enhancement and Segmentationเทคนิคการสกัดลักษณะเดนโครงรางแบบเวกเตอรของอักษรภาษาไทยโดยวิธีสุมแบบเปนลํ าดับตามเสนอักษรวิทยากร แชมกัน, อัศนีย กอตระกูลหองปฏิบัติการวิจัยสารสนเทศอัจฉริยะ ภาควิชาวิศวกรรมคอมพิวเตอร มหาวิทยาลัยเกษตรศาสตรABSTRACT-- This paper presents a method for extract skeleton vector from Thai print characters base oncontinuous sampling on character lines. The major techniques for skeleton vector is calculate point's direction oncharacter lines [1]. But the recognition is not good enough because it still keep noises to be the feature. We correct thisproblem with continuously sampling on character line with junctions and then delete sample points that is not essential(not represent the sharp curve or sharp angle of line) after that calculate the direction of vectors. Data structure supportmulti objects character.KEY WORDS -- vector feature, sampling and skeleton


68Toward an Enhancement of Textual Database RetrievalBy using NLP TechniquesAsanee Kawtrakul 1 , Frederic Andres 2 , Kinji Ono 2 ,Chaiwat Ketsuwan 1 , Nattakan Pengphon 1 ,ak@beethoven.cpe.ku.ac.th , {andres,ono}@rd.nacsis.ac.jp(1) NAiST (1), Computer Engineering Dept, Kasetsart University, Bangkok, Thailand(2) NACSIS (2) , Center of Excellence of the Ministry of Education, Tokyo, JapanABSTRACT-- Improvements in hardware, communication technology and database have led to the explosion of multimedia information repositories. Inorder to provide the quality of information retrieval and the quality of services, it is necessary to consider both retrieval techniques and database architecture.This paper presents the project named VLSHDS-Very Large Scale Hypermedia Delivery System. Thequality of textual information search is enhanced by using NLP techniques. The quality of service over a large-scalenetwork is provided by using AHYDS-Active HYpermedia Delivery System-framework.การควบคุมแขนหุนยนตขอตอเดียวแบบออนตัวดวยการควบคุมขั้นสูงAdvanced Control of One-Link Flexible Robot Armsผศ.ดร. วัชรพงษ โขวิฑูรกิจ ดร. มานพ วงศสายสุวรรณ และ ดร. เดวิด บรรเจิดพงศชัยภาควิชาวิศวกรรมไฟฟา คณะวิศวกรรมศาสตร จุฬาลงกรณมหาวิทยาลัยABSTRACT -- This work deals with the application of advanced control techniques, namely, adaptive, robust and intelligent control, in the control of one-linkflexible robot arms so as to force it to move to the desired positions and to reduce the vibration that occurs during the motion due to its flexible nature. Theobjectives are (i) to determine the feasibility, performance, advantages and disadvantages of various techniques mentioned above and (ii) to develop advancedcontrol softwareKEY WORDS – one-link flexible robot arm, adaptive control, robust control, intelligent control


69การวิเคราะหโครงสรางทางกลและเสถียรภาพของหุนยนตเดินสองขาฐิติศักดิ์ จันทรพรหม, ไพศาล สุวรรณเทพ, ชิต เหลาวัฒนาศูนยปฏิบัติการพัฒนาหุนยนตภาคสนาม มหาวิทยาลัยเทคโนโลยีพระจอมเกลาธนบุรี91 ถ.ประชาอุทิศ แขวงบางมด เขตทุงครุ กรุงเทพ 10140โทร 66(2)470-9335 โทรสาร 66(2)470-9339, E-Mail: s1400172@cc.kmutt.ac.thABSTRACT-- This paper describes our preliminary research in analyzing mechanical structure and its stability of ahumanoid robot, to be designed and built at FIBO. Mobility and gaits of such a robot are governed by only two legs,leading to high complexity in dynamic control. We have thoroughly measured positions, velocities and accelerationsof each joint of human legs in order to understand their profiles. We are in a process of designing geometry of therobot legs, based on such measured profiles. In addition, we have proposed the robot gaits with related analysis onkinematic and dynamic stability. Finally, a planar two degree of freedom inverted pendulum (PTIP) has been built as atestbed to implement our controller for balancing one leg. Simulation results and discussion are included herein.KEY WORDS -- Humanoid robot, Stability, GaitการพิมพภาพกราฟฟกสโดยใชเลเซอรพลอตเตอรUsing Laser Plotter to Draw Graphic Pictureผศ. พิพัฒน โชคสุวัฒนสกุลเสมียน พรหมงาม ธาตรี นิกรรัมย จิระนาถ ขาวเมืองนอย อวิรุทธิ์ โพธิชัยภาควิชาฟสิกส คณะวิทยาศาสตร มหาวิทยาลัยขอนแกนABSTRACT-- There are many applications using laser as a tool for cutting, drilling or marking many kinds of nonmetallicmaterials such as cloth, leather, acryric, wood and etc. We are now developing our software and hardware tocontrol plotter as a laser marking tool. This laser plotter can not only use as an ordinary plotter but also can use to cut,draw or mark any pictures appear on the monitor screen. The quality of the marking picture is the same as the pictureshowing on the screen. Most of the processes are controlled by software instead of hardware. This laser plotter canmark with difference depth of any parts of a picture file by controlling plotter speed and/or laser power. The power oflaser can be controlled by software with 256 levels. Of cause, our software and hardware must be used together to dothese jobs.KEY WORDS -- Laser, Plotter


70ระบบวัดโฟโตรีเฟลกแตนทสเปกโทรสโคปPhotoreflectance spectroscopy measurement systemดร.จิติ หนูแกว, นางสาวทุติยภรณ ทิวาวงศ, นายอภิชาติ สังขทอง, รศ. สุวรรณ คูสํ าราญภาควิชาฟสิกสประยุกต สถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบัง และหนวยปฏิบัติการวิจัยและพัฒนาเทคโนโลยีอิเล็กโทรออปติกสศูนยเทคโนโลยีอิเล็กทรอนิกสและคอมพิวเตอรแหงชาติABSTRACT-- The objective of this research is to construct the prototype of room-temperature photoreflectance(PR) spectroscopy measurement system for studying the energy band structures of semiconductor and semiconductorheterostructures. The system is set up on an optical table and modulation light is provided by a 3 mW He-Ne laser.The chopped laser light is irradiated onto the thin film sample. Light from a 100 W tungsten lamp passed through a 7cm monochromator, acts as a probe light. The reflected probe light from the sample is detected for each wavelengthfrom 500 nm to 2200 nm. The detected signal has two parts: The ac part measured by the lock-in amplifiersynchronize to the modulating frequency is related to the change in reflectivity, dR, while its dc part is related to thereflectivity, R. Using a computer for control system and data acquisition, a spectrum of dR/R versus photon energy canbe obtained.KEYWORDS: photoreflectance, spectroscopy, energy band structures, semiconductorพัฒนาโปรแกรมสํ าเร็จรูปสรางสารานุกรมEncyclopedia Building Software Developmentผศ. กลชาญ อนันตสมบูรณ นางสาวกาลัญู ปยะสันติ์ นางสาวศรีนวล ฟองมณีอาจารย สถาบันราชภัฏเชียงรายABSTRACT-- Nowadays, there are a small number of Computer-Aided Instruction (CAI) software in Thailand.Besides, most software was developed for specific purposes. The Encyclopedia Building software is a CAI, which canbe created by the users themselves. Users can define key words, contents, and images used to illustrate the contents sothat the students can use them as a referenced encyclopedia. User, moreover, can also define secondary key wordsappeared in any contents of the primary key words.


Total International bandwidth :228.25 Mbps (into Thailand) and161.25 Mbps (out from Thailand)45MAS5727AT&T(US)AS4774Abone(JP)512kAS9505CHT-I(TW)Internet Connectivities in Thailand (September<strong>2000</strong>)AS9834RoyNet2MInternationalInternetGateway (IIG)AS4651[CAT]512kAS4766KIX(KR)DISCLAIMERChart Date: <strong>2000</strong>-09-01512k 2M4M2M512kAS2516KDD(JP)AS9315CWN768k1M8M512kAS4788TMNET(MY)4M512k128k2MAS4722ITJ(JP)AS7616JI-NET192k1M1.75M2M128kAS4694IDC(JP)512kAS4765WorldNethttp://www.nectec.or.th/internet/map/AS7487Idea Net512kAS7473SingTel(SG)2MAS3561C&W(US)AS7613DataLineThai128k64kNational InternetExchange (NIX)AS4652[CAT]AS4750LoxinfoAS11919OrionUS2M8MAS7654SGA8M 256k2M1.5MAS4000GlobalOne(US)AS7636Far EastInternet2M512kreserve the rights to verify the accuracy of the given information. Please contact us at netadmin@ntl.nectec.or.th . For authoritativeinformation please contact Communications Authority of Thailand.256kAS10025CWT2MAS4637C&W(HK)34M256kAS7568CS Com1M512k3M4M15MA9881ThaiCom(HK)AS9744EZNet512kAS8961EMIX(AE)2M8MAT&T(US)AS7715SchoolNet10 M6M8M34M34M100M4M2MInternet InformationResearch (IIR)AS7596[NECTEC]AS4776A-NETAS4274KSCAS9835 AS4621GITS UniNetAS7470AsiaInfoNet4M512k100M8M8M2MAS4741SamartAS6453TeleGlobe(US)AS7588PubNet10M100M2M 1M512kAS4803AsiaAccess8M100MAcademic/Research/GovernmentCommercialDomesticExchangeInternationalGatewayInternationalProviderAS3836ThaiSarn2.5MAS4618InternetThailand34MAS8297TeleGlobe(Europe)2MAS2907NACSIS(JP)This chart is designed, maintained and copyrighted by Primas Taechashong, Kittiya Sringamphong and Thaweesak Koanantakool NTL, NECTEC.All rights reserved. The information contained in this chart is based on actual measurements and estimation. We welcome update information, but100M 2M 100M12M8M 8M 16M 2.5M18M8M 8M 2M 1M512k 2M 8MAS70182M 10M

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!