Theppitak's blog: Thai Languages & Scripts

สิ่งหนึ่งที่ต้องทำใน โครงการอักษรอีสาน คือการขอรหัสยูนิโค้ดให้กับอักษรไทยน้อยและอักษรธรรมอีสาน ซึ่งในส่วนของอักษรธรรมนั้นถือว่าเสร็จไปแล้ว โดยสามารถใช้รหัสอักขระ อักษรธรรมไท (Tai Tham) ร่วมกับอักษรธรรมล้านนา ไทลื้อ ไทเขินได้ ส่วนอักษรไทยน้อยนั้น สามารถใช้รหัสอักขระของ อักษรลาว ได้ เพียงแต่ต้องขอรหัสอักขระเพิ่มให้กับตัวอักษรบางตัว

โดยที่ไม่ทราบว่าราชบัณฑิตยสถานก็ได้ตั้งคณะทำงานเพื่อกำหนดหลักการถ่ายอักษรไทยน้อยเป็นอักษรโรมัน ผมจึงไม่ได้คิดติดต่อไปที่นั่น จนกระทั่งคุณ Martin Hosken ได้แนะนำตัวผมกับกรรมการของราชบัณฑิตยสถาน และได้เข้าร่วมประชุมกับคณะกรรมการชุดนี้ จึงมีโอกาสได้ร่วมแสดงความเห็นในการกำหนดรหัสยูนิโค้ดสำหรับอักษรไทยน้อยด้วย

คณะกรรมการประกอบด้วยผู้ทรงคุณวุฒิที่เชื่อถือได้ โดยเฉพาะ อ.ธวัช ปุณโณทก หนึ่งในผู้บุกเบิกการศึกษาประวัติศาสตร์อีสานจากบันทึกโบราณ และเป็นผู้เชี่ยวชาญอักษรอีสานมากที่สุดท่านหนึ่ง ฉะนั้น ก็เชื่อได้ว่ามาตรฐานนี้คงได้ข้อมูลที่ถูกต้องครบถ้วนแน่นอน

อย่างไรก็ดี ในบรรยากาศที่เจ้าตำรามาเองเช่นนี้ การยอมรับหลักฐานอื่นย่อมต้องมีน้ำหนักที่มากพอ อย่าว่าแต่ผมซึ่งเพิ่งเริ่มศึกษาได้ไม่นาน แต่จากหัวข้อการประชุมเรื่อง romanization ก็ทำให้ผมไม่ได้คิดเตรียมเอกสารประกอบอะไรไป เมื่อไปพบประเด็นที่ร่างปัจจุบันยังไม่ครอบคลุม ก็ทำให้ไม่สามารถเสนอเพิ่มได้ คือเรื่องตัว ด สะกด และ บ สะกด ในอักษรไทยน้อย แต่ อ.ธวัช ก็ได้อธิบายให้ฟังว่า นี่เป็นการยืม ส สะกด และ ป สะกด ของอักษรธรรมมาใช้สำหรับบางคนเท่านั้น และไม่มีความจำเป็นต้อง encode ส่วน เอกสารของครูวัฒน์ นั้น ยังถือว่าอ่อนเกินไป จนกว่าจะมีหลักฐานมารองรับ

เพราะฉะนั้น จึงมีอักขระที่ต้อง encode เพิ่มอีก 4 ตัวเท่านั้น คือ น เฟื้อง, ม เฟื้อง, ล เฟื้องแบบหางยาว และสระออย ส่วน ด สะกด และ บ สะกด นั้น ถือว่าหลักฐานอ่อน ตกไป

ในวันเดียวกันนั้น ก็ได้มีการประชุมอีกนัดหนึ่ง เกี่ยวกับเรื่องการใช้อักษรไทยเขียนภาษามลายูปาตานี ซึ่งถือว่าอยู่คนละมิติกับการประชุมเรื่องอักษรไทยน้อย ในขณะที่การใช้อักษรไทยน้อยเป็นเรื่องของอักษรภาษาเขียนอีกชุดหนึ่งที่ใช้เขียนภาษาไทย-ลาว แต่การประชุมนี้จะพูดถึงการใช้อักษรไทยในการเขียนภาษาอื่นที่ไม่ใช่ภาษาไทย ซึ่งจะต้องมีการประดิษฐ์อักขรวิธีเพิ่มเติมเพื่อเขียนเสียงที่ไม่มีในภาษาไทย ซึ่งคณะกรรมการชุดหลังนี้ มีสถาบันวิจัยภาษาและวัฒนธรรมเอเชีย ม.มหิดล เป็นแม่งาน

การทำงานกับภาษาเช่นนี้ ทำให้เห็นภาพที่ชัดเจนของการแบ่งแยกออกจากกันระหว่างภาษา (language) กับอักษร (script)

ภาษาหนึ่ง ๆ สามารถเขียนได้ด้วยอักษรหลายแบบ ตัวอย่างที่ชัดเจนก็คือภาษาบาลี ซึ่งสามารถเขียนได้ด้วยอักษรอินเดีย (เทวนาครี, ทมิฬ, คฤณถ์/ปัลลวะ ฯลฯ) สิงหล ทิเบต พม่า เขมร อักษรธรรม โรมัน และอักษรไทย และในขณะนี้ ภาษาไทยก็สามารถเขียนได้ด้วยอักษรไทย อักษรล้านนา รวมทั้งอักษรธรรมอีสาน
อักษรหนึ่ง ๆ สามารถใช้เขียนภาษาได้หลายภาษา ตัวอย่างที่ชัดเจนก็คืออักษรโรมันที่สามารถใช้เขียนภาษาอังกฤษ ฝรั่งเศส เยอรมัน อิตาลี สเปน โปรตุเกส เวียดนาม มลายู อินโดนีเซีย ฯลฯ และอักษรจีนที่สามารถใช้เขียนภาษาอันหลากหลายของจีนได้ทั่วทั้งประเทศ และยังข้ามไปใช้ในญี่ปุ่น เกาหลี และเวียดนามอีกด้วย และในขณะนี้ อักษรไทยก็กำลังถูกใช้เขียนภาษาอื่นที่ไม่ใช่ภาษาไทย เช่น ภาษามลายู ภาษากูย/ส่วย ภาษาขมุ ภาษามอญ ภาษาม้ง และภาษาอื่น ๆ ที่ชื่อไม่คุ้นหู แต่มีใช้ในประเทศไทยอีกมากมาย

วันถัดมา อ. Kirk Person จาก SIL ได้ชวนผมไปเยี่ยม สถาบันวิจัยภาษาและวัฒนธรรมเอเชีย ด้วยกัน ซึ่ง อ. เองเป็นแขกของสถาบันอยู่แล้ว ทำให้ผมมีโอกาสได้เรียนรู้จาก ดร.มยุรี ถาวรพัฒน์ เกี่ยวกับ ศูนย์การศึกษาและฟื้นฟูภาษาและวัฒนธรรมในภาวะวิกฤติ ซึ่งได้ทำงานกับภาษาชาติพันธุ์ต่าง ๆ ในประเทศไทย และทำเป็นแผนที่ภาษาขึ้น ตัวแผนที่ยังไม่ได้เผยแพร่ในอินเทอร์เน็ต แต่มีการจัดพิมพ์เป็นรูปเล่ม ซึ่งผมได้ดูแล้วก็ตื่นตาตื่นใจมากที่ได้ทราบว่า ประเทศไทยที่เราเคยทึกทักเอาว่าประชากรพูดภาษาไทยทั้งประเทศ หรือจะมีภาษาอื่นมาแซมบ้างก็เป็นแค่ภาษาจีน เขมร และมลายู กลับมีความหลากหลายของภาษาชาติพันธุ์ต่าง ๆ ถึงกว่า 70 ภาษากระจายตัวอยู่ทั่วประเทศ!

ภาษาพูดในประเทศไทยสามารถจำแนกได้เป็น 5 กลุ่มใหญ่ ๆ

ภาษาตระกูลไท ได้แก่ ภาษาไทย ลาว ไทดำ คำเมือง ผู้ไท เป็นต้น
ภาษาตระกูลออสโตรเอเชียติก (มอญ-เขมร) ได้แก่ ภาษากูย/ส่วย ขมุ เขมร ชอง ซาไก ญัฮกุร บรู/ข่า ปะหล่อง มอญ ละเวือะ/ละว้า/ลัวะ เวียดนาม เป็นต้น
ภาษาตระกูลจีน-ทิเบต ได้แก่ ภาษาก๋อง กะเหรี่ยง คะฉิ่น จีน จีนฮ่อ (ยูนนาน) บิซู พม่า มูเซอ ลีซอ อาข่า อึมปี เป็นต้น
ภาษาตระกูลออสโตรเนเชียน (มาลาโยโพลิเนเซียน) ได้แก่ ภาษามลายู มอเก็น อูรักละโว้ย เป็นต้น
ภาษาตระกูลม้ง-เมี่ยน ได้แก่ ภาษาม้ง เมี่ยน (เย้า)

ภาษาเหล่านี้ มีหลายภาษาที่กำลังจะตายถ้าไม่รักษาไว้ ที่สำคัญคือขาดการจดบันทึก ทำให้นิทานพื้นบ้านและภูมิปัญญาต่าง ๆ อยู่ในภาวะไร้ผู้สืบทอด และมีแต่จะสูญหายไปพร้อมกับผู้เฒ่าผู้แก่ที่ลาลับไป ศูนย์ฯ จึงได้ทำโครงการฟื้นฟูสำหรับภาษาเหล่านี้ โดยพยายามช่วยสร้างระบบการเขียน ซึ่งโดยส่วนใหญ่มักจะลงเอยที่การใช้อักษรไทย เพราะเรียนรู้ได้ง่าย และสามารถโน้มนำมาสู่ภาษาไทยกลาง เพื่อโอกาสในการติดต่อสื่อสารในอนาคตของเด็ก ๆ

การใช้อักษรไทยเขียนภาษาที่ไม่ใช่ภาษาไทย ก็จำเป็นต้องมีการประดิษฐ์อักขรวิธีเพิ่มเติมเพื่อแทนเสียงที่ไม่มีในภาษาไทย แต่ปัญหาก็คือ มาตรฐานภาษาไทยในคอมพิวเตอร์ปัจจุบัน จะอ้างอิงกับ วทท 2.0 (ต่อมาคือ มอก. 1566-2541) ที่รองรับเฉพาะภาษาไทยเท่านั้น และจะกรองอักขรวิธีที่ไม่ใช่ภาษาไทยออกไป ทำให้แสดงผลภาษาชาติพันธุ์เหล่านี้ไม่ได้ รวมถึงการป้อนข้อความก็จะกรองออกด้วย

ตัวอย่างอักขรวิธีพิเศษที่ วทท 2.0 ไม่รองรับ:

ภาษาเขมรถิ่นไทย (สุรินทร์):
- ปั็วฮฺ (ไม้ไต่คู้เหนือไม้หันอากาศ)
- ทฺ็อง (ไม้ไต่คู้พร้อมพินทุ)
- เปฺิ็ว (สระอิพร้อมพินทุ, ไม้ไต่คู้เหนือสระอิ)
ภาษาช์อง (จันทบุรี):
- ม็่อง (ไม้เอกเหนือไม้ไต่คู้)
- การใช้ทัณฑฆาตเป็นวรรณยุกต์ ซึ่งอาจใช้ไม่ได้กับสระบางตัว
ภาษาไทดำ:
- การใช้ยามักการเป็นวรรณยุกต์ ซึ่งอาจใช้ไม่ได้กับสระบางตัว
ภาษาญัฮกุร [อ่านว่า ญะกุ้น] (ชัยภูมิ):
- เติ็ง (ไม้ไต่คู้เหนือสระอิ)
ภาษาอึมปี้ (บ้านดง):
- การใช้ยามักการเป็นวรรณยุกต์ที่ 6 ซึ่งอาจใช้ไม่ได้กับสระบางตัว
- การใช้สระอาพิเศษ ปัจจุบันใช้ขีดขวางเพิ่ม แต่อาจเปลี่ยนเป็นประพินทุใต้สระอาแทน ซึ่งไม่ว่าวิธีไหน วทท 2.0 ก็ไม่รองรับ
ภาษาละเวือะ:
- การใช้ ' เป็น pre-glottalized (อาจต้องเลือกอักขระยูนิโค้ดเพื่อการนี้)
ภาษาละว้า (สุพรรณบุรี):
- เฺ (สระเอประพินทุ เป็นเสียง เอย์)
ภาษาขมุ:
- เอิ็- (สระเออะลดรูปแบบเสียงสั้น)
ภาษามลายูปาตานี:
- ประพินทุใต้พยัญชนะเพื่อสร้างเสียงพยัญชนะใหม่
- ขีดเส้นใต้พยัญชนะเพื่อสร้างเสียงพยัญชนะใหม่
- ประพินทุใต้สระเพื่อสร้างเสียงสระใหม่ (รวมถึงสระบน-ล่างด้วย)
- ใช้ tilde (~) บนพยัญชนะเพื่อสร้างสระนาสิก

เห็นได้ว่า หากจะรองรับภาษาเหล่านี้ ก็จำเป็นต้องแก้ไข วทท และเราได้เคยมีการอภิปรายเรื่อง WTT 3.0 กันไปเมื่อปี 2551 แต่ได้เงียบไป และเมื่อไปคุยกับคนยูนิโค้ดเกี่ยวกับอักษรไทยทีไร เขาก็อ้างภาษาชาติพันธุ์เหล่านี้มาโดยตลอด ทำให้เราไม่สามารถอ้าง วทท 2.0 ซึ่งครอบคลุมเฉพาะภาษาไทยได้อีกต่อไปแล้ว เมื่อได้มาเห็นการใช้งานจริงอย่างนี้ ก็ทำให้ผมตระหนักได้ว่า ถึงเวลาปัดฝุ่นโครงการ วทท 3.0 กันแล้วกระมัง?

ป้ายกำกับ: language