ตัดคำภาษาไทย#2
posted on 14 Oct 2005 02:14 by lewcpe in Geek
ต่อจากตอนแรกเมื่อชาติที่แล้ว
เนื่องจากโครงการเขียนหนังสือที่ผมยังทำต่อมาเรื่อยๆ จนวันนี้ เริ่มมีแนวคิดว่า้าจะทำ Layout ให้มันกลายเป็นหนังสือจริงๆ จะทำยังไง
ผมอยากให้หนังสือเล่มนี้เป็นตัวอย่างของการใช้แอปพลิเคชั่นแบบโอเพ่นเต็มรูปแบบ แน่นอนผมรู้ดีว่าแอปพลิเคชั่นพวกนั้นจำนวนมากยังไม่พร้อมในระดับการใช้งานจริง เช่น Scribus ที่ยังไม่กว้างขวางเพราะไม่ลง Win32 หรือ Inkscape ที่มีแนวโน้มรุ่งโรจน์ แต่ยังขาดเสถียรภาพอีกมาก กระทั่ง Gimp ที่ดีมากแล้ว แต่ UI ยังล้าหลังไปสามสี่ปี แต่ของพวกนี้ก็ไม่ได้เกินความสามารถผมไปมากนัก ยกเว้นเรื่องของภาษาไทยที่ช่างเป็นอุปสรรค์ ขวางกั้นผมกับการใช้โปรแกรมเหล่านั้นเอาเสียจริงๆ
ตอนที่แล้วผมเคยคุยไปว่า การตัดคำนั้นควรอยู่ที่เว็บเซิร์ฟเวอร์ เพื่อให้ตัวหน้าเว็บมัน Portable
mk ตอบมา "ทุกวันนี้เค้ากำลังพยายามแยก Style ออกจาก Content (คือเป็น XML + CSS/XSLT แทน HTML) การจะเอา <wbr> ซึ่งเป็น Style ไปรวมใน Content มันก็คงไม่สวยนะ"
ผมคิดว่าเออ จริง เราไม่ควรใช้ <wbr /> จริงๆ นั่นล่ะ โดยเฉพาะอย่างยิ่งช่วงนี้ที่ผมอ่าน CSS เข้า ก็เห็นดีเห็นงามไปกับ mk อย่างเต็มตัวในเรื่องที่ไม่ใช้ <wbr />
แต่ผมถอยกลับไปจากมันหนักไปกว่าเดิมอีก คือ ตัวตัดคำนั้นควรเป็นส่วนหนึ่งของ Content ไปเลย เพราะ XML นั้นก็รองรับ Entity อย่าง ZWSP อยู่แล้ว ซึ่งผมเชื่อว่ามันก็เป็นนัยอยู่แล้วว่าการตัดคำนั้นเป็นส่วนหนึ่งของข้อมูล
ถ้าผมต้องการตัดคำอย่าง ตากลม ว่าเป็น ตา-กลม ทำไมผมต้องไปนั่งลุ้นว่าฝั่งแสดงผลมันจะตัดคำอย่างไร ถ้าผมบอกมันได้ว่า เออ คำที่ว่านี้มันคือ ตา&zwsp;กลม แน่นอนขนาดข้อมูลจะใหญ่ขึ้นมาก แต่มันก็น่าจะคุ้มถ้าคิดในแง่ที่ว่าโปรแกรมที่รับ Unicode ก็จะแสดงผลข้อมูลนี้ได้ถูกต้องทุกโปรแกรม โดยไม่ต้องรอโปรแกรมเพิ่มส่วนของการตัดคำภาษาไทยแต่อย่างใด
ตอนนี้กำลังหาทางให้สามารถใส่ ZWSP ได้ง่ายๆ อยู่ แล้วจะมาทดสอบกันต่อไป
เนื่องจากโครงการเขียนหนังสือที่ผมยังทำต่อมาเรื่อยๆ จนวันนี้ เริ่มมีแนวคิดว่า้าจะทำ Layout ให้มันกลายเป็นหนังสือจริงๆ จะทำยังไง
ผมอยากให้หนังสือเล่มนี้เป็นตัวอย่างของการใช้แอปพลิเคชั่นแบบโอเพ่นเต็มรูปแบบ แน่นอนผมรู้ดีว่าแอปพลิเคชั่นพวกนั้นจำนวนมากยังไม่พร้อมในระดับการใช้งานจริง เช่น Scribus ที่ยังไม่กว้างขวางเพราะไม่ลง Win32 หรือ Inkscape ที่มีแนวโน้มรุ่งโรจน์ แต่ยังขาดเสถียรภาพอีกมาก กระทั่ง Gimp ที่ดีมากแล้ว แต่ UI ยังล้าหลังไปสามสี่ปี แต่ของพวกนี้ก็ไม่ได้เกินความสามารถผมไปมากนัก ยกเว้นเรื่องของภาษาไทยที่ช่างเป็นอุปสรรค์ ขวางกั้นผมกับการใช้โปรแกรมเหล่านั้นเอาเสียจริงๆ
ตอนที่แล้วผมเคยคุยไปว่า การตัดคำนั้นควรอยู่ที่เว็บเซิร์ฟเวอร์ เพื่อให้ตัวหน้าเว็บมัน Portable
mk ตอบมา "ทุกวันนี้เค้ากำลังพยายามแยก Style ออกจาก Content (คือเป็น XML + CSS/XSLT แทน HTML) การจะเอา <wbr> ซึ่งเป็น Style ไปรวมใน Content มันก็คงไม่สวยนะ"
ผมคิดว่าเออ จริง เราไม่ควรใช้ <wbr /> จริงๆ นั่นล่ะ โดยเฉพาะอย่างยิ่งช่วงนี้ที่ผมอ่าน CSS เข้า ก็เห็นดีเห็นงามไปกับ mk อย่างเต็มตัวในเรื่องที่ไม่ใช้ <wbr />
แต่ผมถอยกลับไปจากมันหนักไปกว่าเดิมอีก คือ ตัวตัดคำนั้นควรเป็นส่วนหนึ่งของ Content ไปเลย เพราะ XML นั้นก็รองรับ Entity อย่าง ZWSP อยู่แล้ว ซึ่งผมเชื่อว่ามันก็เป็นนัยอยู่แล้วว่าการตัดคำนั้นเป็นส่วนหนึ่งของข้อมูล
ถ้าผมต้องการตัดคำอย่าง ตากลม ว่าเป็น ตา-กลม ทำไมผมต้องไปนั่งลุ้นว่าฝั่งแสดงผลมันจะตัดคำอย่างไร ถ้าผมบอกมันได้ว่า เออ คำที่ว่านี้มันคือ ตา&zwsp;กลม แน่นอนขนาดข้อมูลจะใหญ่ขึ้นมาก แต่มันก็น่าจะคุ้มถ้าคิดในแง่ที่ว่าโปรแกรมที่รับ Unicode ก็จะแสดงผลข้อมูลนี้ได้ถูกต้องทุกโปรแกรม โดยไม่ต้องรอโปรแกรมเพิ่มส่วนของการตัดคำภาษาไทยแต่อย่างใด
ตอนนี้กำลังหาทางให้สามารถใส่ ZWSP ได้ง่ายๆ อยู่ แล้วจะมาทดสอบกันต่อไป
อย่างนี้มันเหมือนเป็น special case มากกว่า คือ ส่วนแสดงผลยังทำหน้าที่หลักในการตัดคำ เพียงแต่อนุญาตให้ผู้ใช้สามารถบังคับการแสดงผลบางอย่าง (ในที่นี้คือตัดคำ) ใน content ได้
#1 By markpeak on 2005-10-14 10:40