ตัดคำภาษาไทย#2

posted on 14 Oct 2005 02:14 by lewcpe in Geek
ต่อจากตอนแรกเมื่อชาติที่แล้ว


เนื่องจากโครงการเขียนหนังสือที่ผมยังทำต่อมาเรื่อยๆ จนวันนี้ เริ่มมีแนวคิดว่า้าจะทำ Layout ให้มันกลายเป็นหนังสือจริงๆ จะทำยังไง

ผมอยากให้หนังสือเล่มนี้เป็นตัวอย่างของการใช้แอปพลิเคชั่นแบบโอเพ่นเต็มรูปแบบ แน่นอนผมรู้ดีว่าแอปพลิเคชั่นพวกนั้นจำนวนมากยังไม่พร้อมในระดับการใช้งานจริง เช่น Scribus ที่ยังไม่กว้างขวางเพราะไม่ลง Win32 หรือ Inkscape ที่มีแนวโน้มรุ่งโรจน์ แต่ยังขาดเสถียรภาพอีกมาก กระทั่ง Gimp ที่ดีมากแล้ว แต่ UI ยังล้าหลังไปสามสี่ปี แต่ของพวกนี้ก็ไม่ได้เกินความสามารถผมไปมากนัก ยกเว้นเรื่องของภาษาไทยที่ช่างเป็นอุปสรรค์ ขวางกั้นผมกับการใช้โปรแกรมเหล่านั้นเอาเสียจริงๆ

ตอนที่แล้วผมเคยคุยไปว่า การตัดคำนั้นควรอยู่ที่เว็บเซิร์ฟเวอร์ เพื่อให้ตัวหน้าเว็บมัน Portable

mk ตอบมา "ทุกวันนี้เค้ากำลังพยายามแยก Style ออกจาก Content (คือเป็น XML + CSS/XSLT แทน HTML) การจะเอา <wbr> ซึ่งเป็น Style ไปรวมใน Content มันก็คงไม่สวยนะ"

ผมคิดว่าเออ จริง เราไม่ควรใช้ <wbr /> จริงๆ นั่นล่ะ โดยเฉพาะอย่างยิ่งช่วงนี้ที่ผมอ่าน CSS เข้า ก็เห็นดีเห็นงามไปกับ mk อย่างเต็มตัวในเรื่องที่ไม่ใช้ <wbr />

แต่ผมถอยกลับไปจากมันหนักไปกว่าเดิมอีก คือ ตัวตัดคำนั้นควรเป็นส่วนหนึ่งของ Content ไปเลย เพราะ XML นั้นก็รองรับ Entity อย่าง ZWSP อยู่แล้ว ซึ่งผมเชื่อว่ามันก็เป็นนัยอยู่แล้วว่าการตัดคำนั้นเป็นส่วนหนึ่งของข้อมูล

ถ้าผมต้องการตัดคำอย่าง ตากลม ว่าเป็น ตา-กลม ทำไมผมต้องไปนั่งลุ้นว่าฝั่งแสดงผลมันจะตัดคำอย่างไร ถ้าผมบอกมันได้ว่า เออ คำที่ว่านี้มันคือ ตา&zwsp;กลม แน่นอนขนาดข้อมูลจะใหญ่ขึ้นมาก แต่มันก็น่าจะคุ้มถ้าคิดในแง่ที่ว่าโปรแกรมที่รับ Unicode ก็จะแสดงผลข้อมูลนี้ได้ถูกต้องทุกโปรแกรม โดยไม่ต้องรอโปรแกรมเพิ่มส่วนของการตัดคำภาษาไทยแต่อย่างใด

ตอนนี้กำลังหาทางให้สามารถใส่ ZWSP ได้ง่ายๆ อยู่ แล้วจะมาทดสอบกันต่อไป
mk - มันไม่ใช่แค่ Special Case อ่ะดิ ปัญหาในตอนนี้คือเราไป Rely สิ่งที่เราต้องการจะสื่้อสารให้กับอัลกอร์ฯ ของฝั่งแสดงผล ซึ่งมันไม่ Reliable

มันไม่ใช่เรื่องแค่ว่า ตา-กลม หรือ ตาก-ลม มันคือทั้งหมดที่เราต้องการสื่อสาร อย่างที่คุยกันตอนนี้ คำว่า ภาษาไทย ก็ไม่ควรถูกแยกเป็น ภาษา-ไทย อะไรอย่้างนั้น

การอนุญาติให้ผู้ใช้บังคับได้ "บางอย่าง" ที่จะแสดงผลได้กูมองว่าเป็นการสปอยผู้ใช้ที่ผิด เช่นการทำงานทุกวันนี้

มันโอเคนะ ที่ทางฝั่้ง Editor จะมีฟังก์ชั่นการตัดคำอัตโนมัติให้ เวลาแก้ไขจะได้ไม่วุ่นวาย แต่การส่งข้อมูลไปแล้วหวังว่า ฝั่งแสดงผลจะตัดคำได้เหมือนกัน ดูจะเป็นการคาดหวังที่ไม่ดีเท่าใหร่

#2 By ลิ่ว on 2005-10-14 13:54

>ถ้าผมต้องการตัดคำอย่าง ตากลม ว่าเป็น ตา-กลม ทำไมผมต้องไปนั่งลุ้นว่าฝั่งแสดงผลมันจะตัดคำอย่างไร ถ้าผมบอกมันได้ว่า เออ คำที่ว่านี้มันคือ ตา&zwsp;กลม แน่นอนขนาดข้อมูลจะใหญ่ขึ้นมาก แต่มันก็น่าจะคุ้มถ้าคิดในแง่ที่ว่าโปรแกรมที่รับ Unicode ก็จะแสดงผลข้อมูลนี้ได้ถูกต้องทุกโปรแกรม โดยไม่ต้องรอโปรแกรมเพิ่มส่วนของการตัดคำภาษาไทยแต่อย่างใด

อย่างนี้มันเหมือนเป็น special case มากกว่า คือ ส่วนแสดงผลยังทำหน้าที่หลักในการตัดคำ เพียงแต่อนุญาตให้ผู้ใช้สามารถบังคับการแสดงผลบางอย่าง (ในที่นี้คือตัดคำ) ใน content ได้

#1 By markpeak on 2005-10-14 10:40