Theppitak's blog

My personal blog.

25 มีนาคม 2554

LibThai 0.1.15

LibThai 0.1.15 ออกไปแล้วเมื่อวานนี้ รุ่นนี้ไม่มีการเปลี่ยนแปลงในส่วนโค้ด มีแต่การปรับข้อมูลพจนานุกรมที่ใช้ตัดคำตามปกติ

พูดถึงการปรับพจนานุกรมตัดคำ โดยปกติจะมีทั้งการเพิ่มคำใหม่และตัดคำประสมที่ก่อให้เกิดความกำกวมออก โดยในรุ่นนี้ได้รับ feedback จากคุณวิทยา เกี่ยวกับกรณีต่าง ๆ ที่พบ ช่วยให้ปรับพจนานุกรมเพื่อรองรับกรณีต่าง ๆ เหล่านั้น

ส่วนเรื่องการเพิ่มคำใหม่ ผมจะคอยสังเกตคำใหม่จากแหล่งต่าง ๆ แล้วเพิ่มคำเข้าในพจนานุกรมอยู่เรื่อย ๆ เพื่อให้ libthai รู้จักคำกว้างขวางขึ้น หาขอบเขตของคำได้ถูกต้องยิ่งขึ้น รวมทั้งลดจำนวนการ recover เมื่อพบคำที่ไม่อยู่ในพจนานุกรม ทำให้ใช้เวลาตัดคำน้อยลงด้วย

แหล่งข้อมูลที่ผมได้มาก็เช่น:

  • ข่าวประจำวันในหนังสือพิมพ์ ทั้งออนไลน์และออฟไลน์ (ส่วนใหญ่จะออนไลน์) ทำให้ได้ศัพท์การเมือง ชื่อเมืองในข่าวต่างประเทศ ศัพท์ธุรกิจ ชื่อยี่ห้อสินค้า ศัพท์แฟชั่น วงการบันเทิง ไลฟ์สไตล์
  • เว็บต่าง ๆ ในอินเทอร์เน็ต
  • หัวข้อสนทนาใน social network จะพบคำในสาขาต่าง ๆ ที่หลากหลาย และจากคำเสนอแนะเพิ่มเติมของเพื่อน ๆ
  • อีเมลส่วนตัว เช่น เพื่อนบางคนเปิดเบเกอรี่ ก็จะพูดถึงรายการขนมต่าง ๆ ทำให้ได้ชื่อขนมใหม่ ๆ มาเรื่อย ๆ แม้เจ้าตัวก็ยังไม่รู้ ว่ากำลังช่วยพัฒนา libthai อยู่ :-)
  • ป้ายสินค้า ฉลากสินค้า ป้ายร้าน ป้ายโฆษณา ฯลฯ

พูดง่าย ๆ คือ แทบทุกอย่างรอบตัวสามารถเป็นแหล่งข้อมูลให้ libthai ได้ แต่การจะเพิ่มคำเข้าในพจนานุกรม ก็จะต้องมีการกลั่นกรองเสียก่อนว่าคุ้มหรือไม่ บางคำเป็นคำที่ใช้เฉพาะกลุ่มมาก ๆ ก็ยังไม่เพิ่ม คำที่มีตัวสะกดหลากหลายก็จะพยายามเพิ่มคำที่เป็นมาตรฐานไว้ก่อน โดยมีสมมุติฐานว่าโอกาสที่ผู้คนจะสะกดตรงตามมาตรฐานมีมากกว่าแบบย่อย ๆ ที่แต่ละคนสะกดแบบของตัวเอง แต่ถ้ามีการสะกดผิดจากมาตรฐานไปในทางเดียวกันมากพอก็จะเพิ่มแบบย่อยที่มีความถี่สูงสุดอันดับต้น ๆ ไว้ โดยตัดสินจากการใช้ search engine ตรวจสอบจำนวนเอกสารที่พบ

หลักเกณฑ์ต่าง ๆ เหล่านี้ก็เพื่อให้การเพิ่มคำแต่ละรายการมีผลต่อเอกสารให้กว้างที่สุด ไม่ให้เปลืองหน่วยความจำโดยเปล่าประโยชน์

ความจริงยังมีแผนบางอย่างในการปรับโครงสร้างโค้ดของ libthai เหมือนกัน แต่ต้องหาเวลาว่างให้ได้ก่อน ที่ผ่านมาก็มีงานอื่นมากแทรกมากมายนับตั้งแต่ MiniDebCamp 2010 เป็นต้นมา ทำให้ร้างราจากการทำงานกับซอฟต์แวร์ที่ LTN มาเป็นแรมปี รวมถึงกับ Debian เองด้วย blog ก็เขียนน้อยลงมาก นี่เดี๋ยวก็ต้องกลับไปเร่งงานที่รับมาแบบกึ่ง full-time ต่อ แต่ขอออก thaifonts-arundina อีกตัวให้เสร็จก่อน

ป้ายกำกับ:

0 ความเห็น:

แสดงความเห็น (มีการกลั่นกรองสำหรับ blog ที่เก่ากว่า 14 วัน)

<< กลับหน้าแรก

hacker emblem