Theppitak's blog

My personal blog.

08 มีนาคม 2554

Thai Languages & Scripts

สิ่งหนึ่งที่ต้องทำใน โครงการอักษรอีสาน คือการขอรหัสยูนิโค้ดให้กับอักษรไทยน้อยและอักษรธรรมอีสาน ซึ่งในส่วนของอักษรธรรมนั้นถือว่าเสร็จไปแล้ว โดยสามารถใช้รหัสอักขระ อักษรธรรมไท (Tai Tham) ร่วมกับอักษรธรรมล้านนา ไทลื้อ ไทเขินได้ ส่วนอักษรไทยน้อยนั้น สามารถใช้รหัสอักขระของ อักษรลาว ได้ เพียงแต่ต้องขอรหัสอักขระเพิ่มให้กับตัวอักษรบางตัว

โดยที่ไม่ทราบว่าราชบัณฑิตยสถานก็ได้ตั้งคณะทำงานเพื่อกำหนดหลักการถ่ายอักษรไทยน้อยเป็นอักษรโรมัน ผมจึงไม่ได้คิดติดต่อไปที่นั่น จนกระทั่งคุณ Martin Hosken ได้แนะนำตัวผมกับกรรมการของราชบัณฑิตยสถาน และได้เข้าร่วมประชุมกับคณะกรรมการชุดนี้ จึงมีโอกาสได้ร่วมแสดงความเห็นในการกำหนดรหัสยูนิโค้ดสำหรับอักษรไทยน้อยด้วย

คณะกรรมการประกอบด้วยผู้ทรงคุณวุฒิที่เชื่อถือได้ โดยเฉพาะ อ.ธวัช ปุณโณทก หนึ่งในผู้บุกเบิกการศึกษาประวัติศาสตร์อีสานจากบันทึกโบราณ และเป็นผู้เชี่ยวชาญอักษรอีสานมากที่สุดท่านหนึ่ง ฉะนั้น ก็เชื่อได้ว่ามาตรฐานนี้คงได้ข้อมูลที่ถูกต้องครบถ้วนแน่นอน

อย่างไรก็ดี ในบรรยากาศที่เจ้าตำรามาเองเช่นนี้ การยอมรับหลักฐานอื่นย่อมต้องมีน้ำหนักที่มากพอ อย่าว่าแต่ผมซึ่งเพิ่งเริ่มศึกษาได้ไม่นาน แต่จากหัวข้อการประชุมเรื่อง romanization ก็ทำให้ผมไม่ได้คิดเตรียมเอกสารประกอบอะไรไป เมื่อไปพบประเด็นที่ร่างปัจจุบันยังไม่ครอบคลุม ก็ทำให้ไม่สามารถเสนอเพิ่มได้ คือเรื่องตัว ด สะกด และ บ สะกด ในอักษรไทยน้อย แต่ อ.ธวัช ก็ได้อธิบายให้ฟังว่า นี่เป็นการยืม ส สะกด และ ป สะกด ของอักษรธรรมมาใช้สำหรับบางคนเท่านั้น และไม่มีความจำเป็นต้อง encode ส่วน เอกสารของครูวัฒน์ นั้น ยังถือว่าอ่อนเกินไป จนกว่าจะมีหลักฐานมารองรับ

เพราะฉะนั้น จึงมีอักขระที่ต้อง encode เพิ่มอีก 4 ตัวเท่านั้น คือ น เฟื้อง, ม เฟื้อง, ล เฟื้องแบบหางยาว และสระออย ส่วน ด สะกด และ บ สะกด นั้น ถือว่าหลักฐานอ่อน ตกไป

ในวันเดียวกันนั้น ก็ได้มีการประชุมอีกนัดหนึ่ง เกี่ยวกับเรื่องการใช้อักษรไทยเขียนภาษามลายูปาตานี ซึ่งถือว่าอยู่คนละมิติกับการประชุมเรื่องอักษรไทยน้อย ในขณะที่การใช้อักษรไทยน้อยเป็นเรื่องของอักษรภาษาเขียนอีกชุดหนึ่งที่ใช้เขียนภาษาไทย-ลาว แต่การประชุมนี้จะพูดถึงการใช้อักษรไทยในการเขียนภาษาอื่นที่ไม่ใช่ภาษาไทย ซึ่งจะต้องมีการประดิษฐ์อักขรวิธีเพิ่มเติมเพื่อเขียนเสียงที่ไม่มีในภาษาไทย ซึ่งคณะกรรมการชุดหลังนี้ มีสถาบันวิจัยภาษาและวัฒนธรรมเอเชีย ม.มหิดล เป็นแม่งาน

การทำงานกับภาษาเช่นนี้ ทำให้เห็นภาพที่ชัดเจนของการแบ่งแยกออกจากกันระหว่างภาษา (language) กับอักษร (script)

  • ภาษาหนึ่ง ๆ สามารถเขียนได้ด้วยอักษรหลายแบบ ตัวอย่างที่ชัดเจนก็คือภาษาบาลี ซึ่งสามารถเขียนได้ด้วยอักษรอินเดีย (เทวนาครี, ทมิฬ, คฤณถ์/ปัลลวะ ฯลฯ) สิงหล ทิเบต พม่า เขมร อักษรธรรม โรมัน และอักษรไทย และในขณะนี้ ภาษาไทยก็สามารถเขียนได้ด้วยอักษรไทย อักษรล้านนา รวมทั้งอักษรธรรมอีสาน
  • อักษรหนึ่ง ๆ สามารถใช้เขียนภาษาได้หลายภาษา ตัวอย่างที่ชัดเจนก็คืออักษรโรมันที่สามารถใช้เขียนภาษาอังกฤษ ฝรั่งเศส เยอรมัน อิตาลี สเปน โปรตุเกส เวียดนาม มลายู อินโดนีเซีย ฯลฯ และอักษรจีนที่สามารถใช้เขียนภาษาอันหลากหลายของจีนได้ทั่วทั้งประเทศ และยังข้ามไปใช้ในญี่ปุ่น เกาหลี และเวียดนามอีกด้วย และในขณะนี้ อักษรไทยก็กำลังถูกใช้เขียนภาษาอื่นที่ไม่ใช่ภาษาไทย เช่น ภาษามลายู ภาษากูย/ส่วย ภาษาขมุ ภาษามอญ ภาษาม้ง และภาษาอื่น ๆ ที่ชื่อไม่คุ้นหู แต่มีใช้ในประเทศไทยอีกมากมาย

วันถัดมา อ. Kirk Person จาก SIL ได้ชวนผมไปเยี่ยม สถาบันวิจัยภาษาและวัฒนธรรมเอเชีย ด้วยกัน ซึ่ง อ. เองเป็นแขกของสถาบันอยู่แล้ว ทำให้ผมมีโอกาสได้เรียนรู้จาก ดร.มยุรี ถาวรพัฒน์ เกี่ยวกับ ศูนย์การศึกษาและฟื้นฟูภาษาและวัฒนธรรมในภาวะวิกฤติ ซึ่งได้ทำงานกับภาษาชาติพันธุ์ต่าง ๆ ในประเทศไทย และทำเป็นแผนที่ภาษาขึ้น ตัวแผนที่ยังไม่ได้เผยแพร่ในอินเทอร์เน็ต แต่มีการจัดพิมพ์เป็นรูปเล่ม ซึ่งผมได้ดูแล้วก็ตื่นตาตื่นใจมากที่ได้ทราบว่า ประเทศไทยที่เราเคยทึกทักเอาว่าประชากรพูดภาษาไทยทั้งประเทศ หรือจะมีภาษาอื่นมาแซมบ้างก็เป็นแค่ภาษาจีน เขมร และมลายู กลับมีความหลากหลายของภาษาชาติพันธุ์ต่าง ๆ ถึงกว่า 70 ภาษากระจายตัวอยู่ทั่วประเทศ!

ภาษาพูดในประเทศไทยสามารถจำแนกได้เป็น 5 กลุ่มใหญ่ ๆ

  1. ภาษาตระกูลไท ได้แก่ ภาษาไทย ลาว ไทดำ คำเมือง ผู้ไท เป็นต้น
  2. ภาษาตระกูลออสโตรเอเชียติก (มอญ-เขมร) ได้แก่ ภาษากูย/ส่วย ขมุ เขมร ชอง ซาไก ญัฮกุร บรู/ข่า ปะหล่อง มอญ ละเวือะ/ละว้า/ลัวะ เวียดนาม เป็นต้น
  3. ภาษาตระกูลจีน-ทิเบต ได้แก่ ภาษาก๋อง กะเหรี่ยง คะฉิ่น จีน จีนฮ่อ (ยูนนาน) บิซู พม่า มูเซอ ลีซอ อาข่า อึมปี เป็นต้น
  4. ภาษาตระกูลออสโตรเนเชียน (มาลาโยโพลิเนเซียน) ได้แก่ ภาษามลายู มอเก็น อูรักละโว้ย เป็นต้น
  5. ภาษาตระกูลม้ง-เมี่ยน ได้แก่ ภาษาม้ง เมี่ยน (เย้า)

ภาษาเหล่านี้ มีหลายภาษาที่กำลังจะตายถ้าไม่รักษาไว้ ที่สำคัญคือขาดการจดบันทึก ทำให้นิทานพื้นบ้านและภูมิปัญญาต่าง ๆ อยู่ในภาวะไร้ผู้สืบทอด และมีแต่จะสูญหายไปพร้อมกับผู้เฒ่าผู้แก่ที่ลาลับไป ศูนย์ฯ จึงได้ทำโครงการฟื้นฟูสำหรับภาษาเหล่านี้ โดยพยายามช่วยสร้างระบบการเขียน ซึ่งโดยส่วนใหญ่มักจะลงเอยที่การใช้อักษรไทย เพราะเรียนรู้ได้ง่าย และสามารถโน้มนำมาสู่ภาษาไทยกลาง เพื่อโอกาสในการติดต่อสื่อสารในอนาคตของเด็ก ๆ

การใช้อักษรไทยเขียนภาษาที่ไม่ใช่ภาษาไทย ก็จำเป็นต้องมีการประดิษฐ์อักขรวิธีเพิ่มเติมเพื่อแทนเสียงที่ไม่มีในภาษาไทย แต่ปัญหาก็คือ มาตรฐานภาษาไทยในคอมพิวเตอร์ปัจจุบัน จะอ้างอิงกับ วทท 2.0 (ต่อมาคือ มอก. 1566-2541) ที่รองรับเฉพาะภาษาไทยเท่านั้น และจะกรองอักขรวิธีที่ไม่ใช่ภาษาไทยออกไป ทำให้แสดงผลภาษาชาติพันธุ์เหล่านี้ไม่ได้ รวมถึงการป้อนข้อความก็จะกรองออกด้วย

ตัวอย่างอักขรวิธีพิเศษที่ วทท 2.0 ไม่รองรับ:

  • ภาษาเขมรถิ่นไทย (สุรินทร์):
    • ปั็วฮฺ (ไม้ไต่คู้เหนือไม้หันอากาศ)
    • ทฺ็อง (ไม้ไต่คู้พร้อมพินทุ)
    • เปฺิ็ว (สระอิพร้อมพินทุ, ไม้ไต่คู้เหนือสระอิ)
  • ภาษาช์อง (จันทบุรี):
    • ม็่อง (ไม้เอกเหนือไม้ไต่คู้)
    • การใช้ทัณฑฆาตเป็นวรรณยุกต์ ซึ่งอาจใช้ไม่ได้กับสระบางตัว
  • ภาษาไทดำ:
    • การใช้ยามักการเป็นวรรณยุกต์ ซึ่งอาจใช้ไม่ได้กับสระบางตัว
  • ภาษาญัฮกุร [อ่านว่า ญะกุ้น] (ชัยภูมิ):
    • เติ็ง (ไม้ไต่คู้เหนือสระอิ)
  • ภาษาอึมปี้ (บ้านดง):
    • การใช้ยามักการเป็นวรรณยุกต์ที่ 6 ซึ่งอาจใช้ไม่ได้กับสระบางตัว
    • การใช้สระอาพิเศษ ปัจจุบันใช้ขีดขวางเพิ่ม แต่อาจเปลี่ยนเป็นประพินทุใต้สระอาแทน ซึ่งไม่ว่าวิธีไหน วทท 2.0 ก็ไม่รองรับ
  • ภาษาละเวือะ:
    • การใช้ ' เป็น pre-glottalized (อาจต้องเลือกอักขระยูนิโค้ดเพื่อการนี้)
  • ภาษาละว้า (สุพรรณบุรี):
    • เฺ (สระเอประพินทุ เป็นเสียง เอย์)
  • ภาษาขมุ:
    • เอิ็- (สระเออะลดรูปแบบเสียงสั้น)
  • ภาษามลายูปาตานี:
    • ประพินทุใต้พยัญชนะเพื่อสร้างเสียงพยัญชนะใหม่
    • ขีดเส้นใต้พยัญชนะเพื่อสร้างเสียงพยัญชนะใหม่
    • ประพินทุใต้สระเพื่อสร้างเสียงสระใหม่ (รวมถึงสระบน-ล่างด้วย)
    • ใช้ tilde (~) บนพยัญชนะเพื่อสร้างสระนาสิก

เห็นได้ว่า หากจะรองรับภาษาเหล่านี้ ก็จำเป็นต้องแก้ไข วทท และเราได้เคยมีการอภิปรายเรื่อง WTT 3.0 กันไปเมื่อปี 2551 แต่ได้เงียบไป และเมื่อไปคุยกับคนยูนิโค้ดเกี่ยวกับอักษรไทยทีไร เขาก็อ้างภาษาชาติพันธุ์เหล่านี้มาโดยตลอด ทำให้เราไม่สามารถอ้าง วทท 2.0 ซึ่งครอบคลุมเฉพาะภาษาไทยได้อีกต่อไปแล้ว เมื่อได้มาเห็นการใช้งานจริงอย่างนี้ ก็ทำให้ผมตระหนักได้ว่า ถึงเวลาปัดฝุ่นโครงการ วทท 3.0 กันแล้วกระมัง?

ป้ายกำกับ:

0 ความเห็น:

แสดงความเห็น (มีการกลั่นกรองสำหรับ blog ที่เก่ากว่า 14 วัน)

<< กลับหน้าแรก

hacker emblem