နိဒါန်း
ကျွန်တော် ယူနီကုဒ်ရဲ့ အကြောင်းကို မနေ့ကဆောင်းပါး မှာ သိသမျှအကုန် အိတ်သွန်ခါမှောက် ပြောပြခဲ့ပါတယ်။ ကွန်ပျူတာသုံး မြန်မာစာစနစ်နဲ့ ပတ်သက်ပြီးတော့ကတော့ ပြောချင်စိတ် သိပ်မရှိတော့ပါဘူး။ ဒါပေမယ့် သိတော်မူကြတဲ့အတိုင်း ပြည်တွင်းမှာနေတဲ့ Web Developer တစ်ယောက်အနေနဲ့ ကွန်ပျူတာသုံး မြန်မာစာကို မထိတွေ့လို့မရပါဘူး။
ကိုယ်က စာစီစာရိုက်လောက် သုံးမယ်ဆိုရင် ဘာသုံးသုံး ဘာပြသနာမှာ မရှိပေမယ့် Web Page တွေအနေနဲ့ သွားမယ်ဆိုရင်တော့ ပြဿနာတွေ ရှိလာပါတယ်။ Web page တွေမှာ စာတွေအဖြစ် တင်တော့မယ်ဆိုရင် ကိုယ့်အနေနဲ့ လိုက်နာသင့်၊ လိုက်နာအပ်တဲ့ စည်းကမ်းတွေ အတော်များများ ရှိလာပါတယ်။ Web Page မှာ တင်လိုက်တဲ့ အချက်အလက်တွေဟာ
- Search Engine စတာတွေမှာ ပြန်သုံးနိုင်ဖို့အတွက် အချက်အလက်တွေ ဖြစ်လာပါတယ်
- Web Archive လို့ခေါ်တဲ့ အချက်အလက်တွေကို နောင်တစ်ချိန်မှာ ပြန်သုံးဖို့၊ ပြန်ညွန်းဖို့ အခြေအနေတွေ ဖြစ်လာစေပါတယ်
- Web Content တွေဆိုတာ အချက်အလက် အရင်းအမြစ်တွေအဖြစ် သက်ဝင်လှုပ်ရှားစေပါတယ်။
အဲဒီလို အချက်တွေ ပြည့်စုံစေဖို့ လိုက်နာသင့်တဲ့ စည်းကမ်းတွေလဲ ရှိပါသေးတယ်။ စည်းကမ်းတွေကလည်း
- အချက်အလက်များ အမည်ပေးစနစ်
- အချက်အလက်များ စုဖွဲ့မှုစနစ်
- အချက်အလက်များ ချိတ်ဆက်မှု စနစ်
ဆိုပြီး သုံးပိုင်းရှိပါတယ်။ အဲဒီ သုံးပိုင်းကို ပြည့်စုံအောင် မှန်ကန်အောင် တည်ဆောက်ပေးနိုင်မှသာ အပေါ်မှာ ပြောခဲ့တဲ့ အချက်တွေကို ရရှိခံစားနိုင်မှာ ဖြစ်ပါတယ်။ အချက်အလက် အမည်ပေးစနစ်ဆိုတာ အချက်အလက်များကို မှန်ကန်တိကျစွာ အမည်ပေးဖို့ ဖြစ်ပါတယ်။ အဲဒီလို အမည်ပေးတဲ့ နေရာမှာလဲ ခွေးကို၊ ခွေးလို့ အမည်ပေးရုံနဲ့ မလုံလောက်ပါဘူး။
ကွန်ပျူတာ စနစ်ဖြစ်တာနဲ့အညီ ကွန်ပျူတာက သူသိမ်းလိုက်တဲ့ နေရာမှာ ခွေးလို့ သိမှာ မဟုတ်ပဲ စာလုံးတွေနဲ့ သက်ဆိုင်တဲ့ Code Point တွေကိုသာ မှတ်သား၊ သိမ်းဆည်းထားမှာ ဖြစ်ပါတယ်။ ကွန်ပျူတာမှာ အချက်အလက် မှန်ကန်ဖို့အတွက် အမည်ပေးစနစ်လဲ မှန်ရမှာ ဖြစ်သလို မှတ်သား၊ သိမ်းဆည်းတဲ့ စနစ်လဲ မှန်ရမှာ ဖြစ်ပါတယ်။
ပထမအဆင့် အဲဒီလို အချက်အလက် အမည်ပေးစနစ် မှန်ကန်ပြီဆိုရင် အချက်အလက်စုဖွဲ့မှုစနစ်ကိုလဲ မှန်ကန်အောင်လုပ်ဖို့ လိုပါတယ်။ စုဖွဲ့မှုစနစ်ဆိုတာ တကယ်တော့ အမည်ပေးစနစ် အပေါ်မှာ အခြေခံပါတယ်။ အမည်ပေးစနစ်မှာ မှားနေရင် စုဖွဲ့မှုစနစ်မှာလဲ မမှန်နိုင်ပါဘူး။ အင်တာနက်စနစ်ထဲကို ဝင်ရောက်သုံးစွဲနေတဲ့ ကွန်ပျူတာ အနေနဲ့ စုဖွဲ့မှုစနစ်ဆိုတဲ့ နေရာမှာ ခွေးတွေ အုပ်စုတူလို့ ခွေးတွေပဲ စုထားတာမျိုးတင်မကပဲ Keyword အစုလို့ ခေါ်တဲ့ စကားလုံး တစ်လုံးခြင်းစီအလို စုထားဖို့လဲ လိုပါတယ်။
Google, Bing စတဲ့ Search Engine တွေဟာ အဲဒီလို စုဖွဲ့ပြီး ရှာဖွေရေး အင်ဂျင်တွေအဖြစ် ရပ်တည်လာနိုင်တာ ဖြစ်ပါတယ်။ အချက်အလက် စုဖွဲ့မှု စနစ်ကို ပုံမှန်အတိုင်းဆိုရင် Website တစ်ခုခြင်းစီ သက်ဆိုင်တယ်လို့ ထင်ရပေမယ့် တကယ်တမ်းမှာတော့ အပေါ်မှာ ပြောခဲ့တဲ့ အရင်းအမြစ်တွေအတွက်ပါ တာဝန်ရှိနေတဲ့ သဘောပါ။
အဲဒီလို နာမည်ပေးစနစ်၊ အချက်အလက်စုဖွဲ့မှုစနစ် စတာတွေ မှန်ကန်မှသာ အချက်အလက် ချိတ်ဆက်မှု အဆင့်ကို မှန်ကန်အောင် တည်ဆောက်နိုင်မှာ ဖြစ်ပါတယ်။ အဲဒီလို ချိတ်ဆက်ထားနိုင်မှလဲ အမှန်တကယ် အသုံးချနိုင်တဲ့ အချက်အလက်တွေ ဖြစ်လာမှာ ဖြစ်ပါတယ်။ ကိုယ်က “ကြေးအိုး” လို့ ရှာလိုက်ရင် ကွန်ပျူတာက သိမှာ ကြေးအိုးမဟုတ်ပါဘူး။ အဲဒီ စာလုံးနဲ့ ပတ်သက်တဲ့ Code Point တွေကိုသာ သိမှာ ဖြစ်ပါတယ်။
အပေါ်ယံအမြင်မှာတော့ ကြေးအိုးလို့သာ မြင်ပြီး နောက်ကွယ်မှာ မှတ်သား သိမ်းဆည်းထားတဲ့ Code Point တွေ မတူရင် အမည်ပေးစနစ် မှားနေတယ်လို့ ဆိုရမှာ ဖြစ်ပါတယ်။ ခု ကျွန်တော်တို့ ကွန်ပျူတာသုံး မြန်မာစာ စနစ်ကြီးမှာလဲ အပေါ်ယံအားဖြင့် ကြေးအိုးဆိုရင် ကြေးအိုးအဖြစ် မြင်နိုင်ကြပေမယ့် နောက်ကွယ်မှာတော့ သိမ်းဆည်းတာတွေ မတူတဲ့ ပြသနာတွေ အများကြီး ဖြစ်ပေါ်နေပါတယ်။
ကွန်ပျူတာသုံး မြန်မာစာစနစ်နဲ့ End-user
ကွန်ပျူတာသုံး မြန်မာစာစနစ်နဲ့ End-user ဆိုတာ တကယ်တမ်းပြောရရင်တော့ အဲဒီလို တိုက်ရိုက်ထိတွေ့ပြီး ပူပန်နေရတာကိုက လုံးဝ မဟုတ်သေးဘူးလို့ ဆိုရမှာ ဖြစ်ပါတယ်။
End-user အနေနဲ့ ဘာဖောင့်သုံးတယ်ဆိုတာ ဘယ်လို ပုံစံပေါ်ချင်လို့ဆိုတာတွေ တွေးနေစရာမလိုပဲ၊ မြန်မာစာ သုံးထားတယ်ဆိုတာလောက် သိရင် အဆင်ပြေပါတယ်။ နောက်ကွယ်မှာ ဘယ်လိုပုံစံ သိမ်းဆည်းထားတယ်ဆိုတာ သိစရာ မလိုပါဘူး။ အဲဒီလို သိစရာလိုတဲ့ သူတွေက Developer တွေပါ။
အဲဒီလို ပြောရင် Font Developer တွေရော၊ Web Developer တွေရော အခြား Application Developer တွေနဲ့ပါ သက်ဆိုင်ပါတယ်။
ကျွန်တော်ကတော့ Web Developer ဆိုတော့ အဲဒီဖက်ကိုသာ အဓိကထား Focus လုပ်လိုပါတယ်။ Website ဆိုတာ ငှက်ပျောသီး အခွံနွာကျွေးတဲ့ အဆင့်မဟုတ်ပါဘူး။ အခွံနွာပေးရပါတယ်။ ခွံ့ကျွေးရပါတယ်။ ဝါးလို့ရအောင် ကူပေးရပါတယ်။ နောက်ဆုံး မျိုချရင်တောင် ချောချောချူချူဖြစ်ဖို့ လည်ပင်းပွတ်ပေးရတဲ့ အဆင့်ပါ။ အဲဒီလို အနေအထားမှာ End-user ကို ဖောင့်အကြောင်း သွားပြောနေတာ "ဒါလေးတောင် မသိဘူးလား" လို့ အပြစ်တင်နေတာ ဟုတ်ကိုမဟုတ်ပါဘူး။
ကွန်ပျူတာသုံး မြန်မာစာနဲ့ Developer
အခု ကျွန်တော်တို့ ကွန်ပျူတာသုံး မြန်မာစာ စနစ်မှာ သိမ်းဆည်းပုံ မတူညီတဲ့ ပြဿနာတွေ ဖြစ်နေပါတယ်။ တစ်ယောက်လာတစ်မျိုး ဖြစ်ချင်တိုင်းကို ဖြစ်နေတယ်လို့ ပြောရင် မမှားပါဘူး။ End-user အနေနဲ့ ရွေးချယ်စရာကလဲ နည်းပါးရတဲ့ ကြားတဲ့ သူမှန်တယ် ထင်တာကို “ကိုယ်လှေ ကိုယ်ထိုး ပဲခူးရောက်ရောက်” လုပ်ချင်ရာ လုပ်နေကြတယ်လို့ ကျွန်တော်ကတော့ ဆိုချင်ပါတယ်။
အခုဖြစ်နေတာက Developer ပြဿနာပါ။ ကွန်ပျူတာသုံး မြန်မာစာစနစ်မှာ အခြား ဘာသာစကားတွေလို သိမ်းဆည်းပုံ တစ်ခုတည်း ဖြစ်ရမယ်ဆိုတာ အားလုံး လက်ခံပြီး ဖြစ်ပါလိမ့်မယ်။ အဲဒီလို သိမ်းဆည်းပုံ မှန်ကန်မှသာ နောင်တစ်ချိန် အလုပ်ဖြစ်မယ်ဆိုတာ အားလုံး လက်ခံထားပြီး ဖြစ်ပါတယ်။
အဲဒီလို လက်ခံထားရဲ့သားနဲ့ အခုထက်ထိ အဆင်မပြေသေးတာ ကျွန်တော့်အမြင်ကို ပွင့်ပွင့်လင်းလင်း ပြောရရင် ကွန်ပျူတာသုံး မြန်မာစာ ဦးဆောင်တီထွင်သူ ပညာရှင်များရဲ့ အတ္တကြီးမှု၊ တစ်ကိုယ်ကောင်းဆန်မှု၊ အမျိုးသားရေး အမြင်မရှိမှု၊ တစ်စားပွဲတည်းထိုင်ပြီး မဆွေးနွေးပဲ ကွယ်ရာမှာ (အထူးသဖြင့် End-user များ ရှေ့မှောက်မှာ) ချပြဆွေးနွေးပြီး ငါ့ဟာ အမှန်၊ ငါနဲ့ ငါသာ နှိုင်းစရာ လုပ်မှု စတဲ့ ဆိုးရွားတဲ့ လုပ်ဆောင်ချက်တွေကြောင့်ပဲ ဖြစ်ပါတယ်။
အဲဒီလို ဆိုးရွားတဲ့ လုပ်ဆောင်ချက်တွေကြောင့် ကျွန်တော်တို့ Developer များအနေနဲ့ အခက်အခဲတွေ ကြုံတွေ့လာကြပြီး မကြာသေးခင်က လွှင့်တင်လိုက်တဲ့ သမ္မတရုံး Website မှာဆိုရင် ဘာသာစကား တစ်မျိုးတည်းကို သိမ်းဆည်းပုံ မတူညီတဲ့အတွက် Website နှစ်ခု လုပ်ရတဲ့ အဆင့်ကို ရောက်သွားပါတော့တယ်။ ဒီလို ကိစ္စမျိုးဆိုတာ ဘယ်လိုမှ မဖြစ်သင့်တဲ့ ကိစ္စပဲ ဖြစ်ပါတယ်။
အမည်ပေးစနစ်မှာလဲ နှစ်ခုဖြစ်တဲ့အတွက် အချက်အလက် မှတ်သား သိမ်းဆည်းရာမှာလဲ ရှုပ်ထွေးမှုတွေ ဖြစ်ပေါ်လာမှာ ဖြစ်သလို Web Archive အတွက်လဲ သုံးလို့ ရမှာ မဟုတ်ပါဘူး။ အဲဒီလိုပဲ ရှာဖွေရေးအင်ဂျင်၊ အချက်အလက်များ အပြန်အလှန် ချိတ်ဆက်ရေး စနစ်တွေအတွက်လဲ သုံးစားလို့ ရမှာ မဟုတ်တော့ပါဘူး။
ကွန်ပျူတာသုံး မြန်မာ စနစ်ကို အကဲဖြတ်ရာမှာ လူသုံးများတာနဲ့လည်း အကဲဖြစ်လို့ မရသလို၊ လှလှပပ ရှိတာတွေနဲ့လဲ အကဲဖြတ်လို့ မရပါဘူး။ ကျွန်တော့် အမြင်အရ ကွန်ပျူတာသုံး မြန်မာစာ စနစ်ကို အကဲဖြတ်ရာမှာ အောက်ပါ အချက်တွေအတိုင်း အကဲဖြတ်သင့်တယ်လို့ ယူဆပါတယ်။
- မြန်မာစာ စနစ်ဖြစ်တာနဲ့အညီ ဗမာစာသာမက၊ အခြားတိုင်းရင်းသား ဘာသာစကားများနှင့်ပါ ဘာသာစကား၏ မူလ အနှစ်သာရအတိုင်း ကိုက်ညီတဲ့ အနေအထားအဖြစ်
- ကွန်ပျူတာ သုံးသည့် စနစ်ဖြစ်သည်နှင့်အညီ ကွန်ပျူတာမှာ မှတ်သား သိမ်းဆည်းမယ်ဆိုရင် စနစ်ကျစွာ သိမ်းဆည်းနိုင်တဲ့ အနေအထားအဖြစ်
- ကွန်ပျူတာသုံး မြန်မာစာစနစ်ဆိုတာ အမှန်တကယ်တော့ နောက်ဆုံး သုံးမယ့်သူဟာ End-user သာဖြစ်ပါတယ်။ အဲဒီအတွက် End-user များအနေနဲ့ အခြား ဘာသာစကားတွေကို သိသလို Font ကို ရွေးတယ်ဆိုတာ ပုံစံအတွက်ဆိုတာလောက် သိတဲ့အထိ လွယ်ကူသွားအောင် လုပ်ပေးနိုင်တဲ့ အနေအထား
စတာတွေကိုမူတည်ပြီး အကဲဖြတ်သင့်ပါတယ်။ အခြား ပညာရှင်ရှုထောင့်ကနေ လိုအပ်တဲ့ အကဲဖြတ်ချက်တွေ ရှိနေဦးမှာ ဖြစ်ပါတယ်။ ကျွန်တော် မြင်တာကတော့ အဲဒီလောက်ပါပဲ။
ကွန်ပျူတာသုံး မြန်မာစာနဲ့ သမိုင်းအကျဉ်း
ကွန်ပျူတာသုံးမြန်မာစာရဲ့ သမိုင်းအကျဉ်းကို ပြောရမယ်ဆိုရင် ANSI Font တွေက ပြောရမယ် ထင်ပါတယ်။ ANSI စနစ်ဆိုတာ အင်္ဂလိပ်စာလုံးတွေ အတွက်သာ သတ်မှတ်ထားတဲ့ အနေအထားဖြစ်ပါတယ်။ အဲဒီလို သတ်မှတ်တယ်ဆိုတာကလဲ စားပွဲတင် ကွန်ပျူတာ ပေါ်ဦးစလဲဖြစ်၊ အင်္ဂလိပ်စာကိုသာ အဓိကထား သုံးနေကြတဲ့ အချိန်လဲ ဖြစ်တာနဲ့အညီ အဂီလိပ်စာကို အခြေခံပြီး သုံးစွဲကြတဲ့ အနေအထားဖြစ်ပါတယ်။
အမေရိကန် စနစ်အဖြစ် ထွက်လာတာဆိုတော့ အမေရိကန်အတွက်ပဲ ကောင်းကောင်းပါတဲ့ သဘောပါ။ အဲဒီလိုအခြေအနေမှာ မြန်မာစာကို သုံးချင်တယ်ဆိုရင် ANSI ရဲ့ Code Point တွေ အပေါ်မှာ အစားထိုးပြီး သုံးရုံမှတစ်ပါး အခြားမရှိလို့ ဆိုနိုင်ပါတယ်။
a ရဲ့ နေရာမှာ သဝေထိုးကို ထားတာမျိုးပေါ့။ အဲဒီလို အစားထိုးတဲ့ နည်းနဲ့ မြန်မာစာဖောင့်ကို ထွင်ခဲ့ကြပါတယ်။ ပထမဦးဆုံး တီထွင်တာက Apple ရဲ့ Macintosh ကွန်ပျူတာမှာ ဖြစ်တယ်လို့ မှတ်သားဖူးပါတယ်။ နောက်ပိုင်း လူသုံးများလာတဲ့ အနေအထားကတော့ ကိုဇော်ထွဋ်တီထွင်လိုက်တဲ့ Win Font အုပ်စုတွေ ဖြစ်ပါတယ်။
အဲဒီလို ANSI Code တွေမှာ အစားထိုးတဲ့ စနစ်နဲ့အတူ မြန်မာစာစနစ်အတွက် အပျက်အစီးတွေ ပါလာခဲ့တယ်လို့ ဆိုရမှာဖြစ်ပါတယ်။ အဲဒီအချိန်က ဖြစ်နိုင်တဲ့ အနေအထားအရ မဖြစ်ဖြစ်အောင် လုပ်ရတဲ့ အနေအထားအရ ပါလာတာတွေ ဖြစ်ပါတယ်။ တမင်မှားပစ်ခဲ့တာ မဟုတ်ပါဘူး။
ဥပမာ – ရရစ်ဆိုတာ မြန်မာစာ စနစ်မှာ တစ်ခုတည်း ရှိပေမယ့် ရိုက်တဲ့အခါမှာ အဆင်ပြေအောင် ပုံစံမျိုးစုံထားရတာ၊ အဲဒီ ပုံစံမျိုးစုံအတွက် Code Point တွေ နေရာယူထားရတာတွေ ရှိလာပါတယ်။ အဲဒီလိုပဲ အချက်အလက် မှတ်သားသိမ်းဆည်းတဲ့ နေရာမှာလဲ အရင်လာ၊ အရင်သိမ်းစနစ်ကိုသာ အသုံးပြုခဲ့ပါတယ်။
နောက်ပိုင်းမှာ Unicode ဆိုတာပေါ်လာပြီး ANSI ဆိုတဲ့ စနစ်ကို သုံးစရာမလိုတော့ပါဘူး။ တကယ်တန်း Website တွေမှာ သုံးမယ်ဆိုရင် အင်္ဂလိပ်စာလုံးက သပ်သပ် မြန်မာစာလုံးက သပ်သပ် ဖြစ်မှသာ အဆင်ပြေမယ့် အနေအထား ဖြစ်ပါတယ်။ အဲဒီလို အနေအထားအတွက် ANSI က ဘယ်လိုမှ အဆင်မပြေတော့ပါဘူး။ Unicode မှာသာ အခြား ဘာသာစကားအတွက် Code Point တွေ ပါလာတဲ့အတွက် Unicode ကိုသာသုံးပြီး Code Point တွေ ယူရမယ့် အနေအထား ဖြစ်လာပါတယ်။
အဲဒီလို အခြေအနေမှာ မြစေတီ၊ ဇော်ဂျီ အစရှိတဲ့ ဖောင့်တွေ ပေါ်လာပြီး Unicode ရဲ့ Code Point တွေကို အသုံးပြု ဖန်တီးထားကြပါတယ်။ ဒါပေမယ့် မြစေတီဖြစ်ဖြစ်၊ ဇော်ဂျီဖြစ်ဖြစ် အရင် ရှိရင်းစွဲ Win-Font တွေရဲ့ အစဉ်အလာကို ဆက်ခံခဲ့ကြတဲ့အတွက် အရင်ရှိရင်းစွဲ ရရစ်လို အမှားတွေ အမွေဆက်ခံလာတယ်လို့ ဆိုနိုင်ပါတယ်။
အခုအချိန်မှာ ကြားနေရတဲ့ ယူနီကုဒ်နဲ့ ဇော်ဂျီပြသနာဆိုတာ တကယ်တော့ အလွန်လွဲမှားနေတဲ့ အယူအဆပဲလို့ ဆိုရမှာ ဖြစ်ပါတယ်။ ဇော်ဂျီကိုယ်တိုင် Unicode အထိုင်ပေါ်မှာ ထိုင်ပြီး Unicode ရဲ့ Code Point တွေကို သုံးထားပါရက်နဲ့ ဇော်ဂျီနဲ့ ယူနီကုဒ် ပြဿနာဆိုတာ တကယ်တော့ End-user တွေကို လှည့်စားတဲ့ လှည့်စားချက်တစ်ခုမျှသာ ဖြစ်တယ်လို့ ကျွန်တော် မြင်ပါတယ်။
တကယ်တမ်း ဖြစ်နေတာက နောက်ကွယ်မှာ မှတ်သား သိမ်းဆည်းတဲ့ ပုံစံ မတူညီတဲ့ ပြဿနာဖြစ်ပါတယ်။ အဲဒါကို ရှေ့ဆက်ပြီး ရေးသွားရင်း ထင်းရှားအောင် ပြောပြပေးပါ့မယ်။
နောက်ပိုင်းမှာ Unicode စနစ်ဆိုတာ နိုင်ငံတကာမှာ ရှိနေတဲ့ ဘာသာစကား၊ သင်္ကေတ အားလုံးအတွက် ဖြစ်တာနဲ့အညီ မြန်မာစာအတွက်လဲ နေရာတွေရဖို့ဖြစ်လာပါတယ်။ အဲဒီလို မြန်မာစာအတွက် နေရာရဖို့ ပထမဦးဆုံး ဆောင်ရွက်သူကတော့ မြန်မာစာဖောင့်ကို အရင်ဆုံး ကွန်ပျူတာမှာ ရအောင် စွမ်းဆောင်ခဲ့တဲ့ Apple ပဲဖြစ်ပါတယ်။
Apple Macintosh မှာ မြန်မာစာ ရအောင် ဘယ်နိုင်ငံခြားသာ လုပ်ခဲ့တယ်ဆိုတာ မသိပေမယ့် Unicode မှာ မြန်မာစာ ပါလာအောင် စွမ်းဆောင်ပေးသူကတော့ Apple ဖြစ်ပါတယ်။ (မှတ်မှတ်ရရ မြန်မာစာကို OS Level မှာ ပထမဦးဆုံး တရားဝင် ထည့်သွင်းပေးသူကလဲ Apple ပဲဖြစ်ပြီး Mac OSX Lion မှာ စပါလာပါတယ်။)
နောက်ပိုင်းမှာ မြန်မာစာ ဖြစ်တာနဲ့အညီ မြန်မာဖက်က ပညာရှင်တွေ ပါဝင်လာခဲ့ကြပြီး မှားယွင်းနေတာကို ထောက်ပြ၊ အမှန်ပြင်ခိုင်း၊ စသည်ဖြင့် အဆင့်ဆင့် လုပ်ဆောင်လာခဲ့ကြတာ အခုဆိုရင် အဆင့် ဘယ်နှစ်ဆင့်လောက် ရောက်သွားပြီဆိုတာ မသိတော့ပါဘူး။
အဲဒီလို Code Point တွေ Unicode မှာ သတ်မှတ်တဲ့ အချိန်တွေဟာ အတော်လေးကို အချိန်ယူခဲ့ရပြီး သူ့ရှေ့မှာ သူသတ်မှတ်ပေးတဲ့ Code Point တွေ မဟုတ်ပဲ ကိုယ့်စိတ်ကြိုက် Code Point တွေ သုံးတဲ့ မြစေတီ၊ ဇော်ဂျီကဲ့သို့သော ဖောင့်တွေ အလုပ်ဖြစ်ခဲ့ပါတယ်။ ဒါပေမယ့် မြစေတီရော ဇော်ဂျီမှာပါ ကကြီးဆိုတဲ့ စာလုံးကို U1000 ဆိုတဲ့နေရာမှာ ထားခဲ့တဲ့အတွက် Unicode Code Point တွေကို အသုံးပြုခဲ့တယ်လို့ ဆိုနိင်ပါတယ်။ အများစုကလဲ Apple ရဲ့ Unicode Code Point တောင်းဆိုမှုနောက်ပိုင်းမှာ ထွက်ပေါ်လာကြတယ်လို့ ကျွန်တော် ယူဆပါတယ်။
အဲဒီလို Unicode ဆိုတဲ့ စံနှုန်း အပေါ်မှာ Code Point တွေ သတ်မှတ်ရင်း၊ အရေးဆိုရင်း ကျန်တဲ့သူတွေကလဲ ကိုယ့်လှေကိုယ်ထိုးရင်း၊ အခုလို ကွန်ပျူတာသုံး မြန်မာစာစနစ် ဖြစ်ချင်ရာ ဖြစ်တဲ့ အနေအထားကို တည့်တည့်ကြီး ဆိုက်ရောက်လာတယ်လို့ ဆိုနိုင်ပါတယ်။ Unicode ဆိုတဲ့ စံနှုန်းဟာ ပြင်လို့ မရတဲ့ စံနှုန်းမဟုတ်ပါဘူး။ အကြောင်းပြချက် အထောက်အထား ခိုင်ခိုင်လုံလုံနဲ့ ပြင်မယ်ဆိုရင် ဗားရှင်းအသစ်ထွက်တဲ့အခါ အပြောင်းအလဲတွေ ပါလာမှာ ဖြစ်ပါတယ်။
ဒါပေမယ့် အဲဒီလို ပြင်ကြ၊ ဆင်ကြတဲ့ နေရာမှာ သဘောထား ကွဲလွဲမှုတွေ အများကြီး ဖြစ်နေတာ ကျွန်တော်တွေ့ရပါတယ်။ Unicode နဲ့ ပတ်သက်ပြီး မြန်မာနိုင်ငံဖက်က တာဝန်ရှိသူတွေ အပေါ်မှာ ပြောဆိုပြစ်တင်မှုတွေကိုလဲ ကျွန်တော်ကြားရသလို၊ အခြား ကိုယ်မှန်တယ်ထင်ရာ လုပ်နေကြသူတွေ အပေါ်မှာလဲ ပြစ်တင် ပြောဆိုမှုတွေကို ကျွန်တော် ကြားနေရပါတယ်။ ဒါပေမယ့် ကျွန်တော် ကြားသမျှ အနေအထားအရ ကွယ်ရာမှာ အတင်းပြောသလို ပြောနေကြတာတွေပါ။ တစ်စားပွဲတည်းထိုင်ပြီး ပြောကြတာမျိုး မဟုတ်ပါဘူး။
Apple ရဲ့ Mac OSX Lion က စပြီး မြန်မာစာ ပါလာပါတယ်။ နောက်ပြီး Windows 8 မှာလဲ မြန်မာစာ ပါလာပြန်ပါတယ်။ အဲဒီမှာ ပါလာတဲ့ မြန်မာစာတွေ အားလုံးဟာ အမှားအယွင်းတွေလဲ ပါလာခဲ့ပြီး သုံးလို့ အဆင်မပြေပါဘူး။ ဒီထက် ရင့်ရင့်သီးသီး ပြောရရင်တော့ သုံးစားလို့ မရပါဘူး။ ဒါပေမယ့် Apple မှာ ဖြစ်ဖြစ် Windows မှာဖြစ်ဖြစ် အခြေခံတာတော့ International Standpoint ဖြစ်တဲ့ Unicode ပဲဖြစ်ပါတယ်။
(မှတ်ချက် - ယခုဆောင်းပါးကို ၂၀၁၂ ခုနှစ်၊ စက်တင်ဘာလ Windows 8 Beta ထွက်ရှိစဉ်က ရေးသားခဲ့ခြင်း ဖြစ်ပါသည်။ ယခုအချိန်မှာ Windows 8 နောက်ပိုင်း Windows Version များတွင်း Myanmar Text Font အနေဖြင့် အားလုံးအဆင်ပြေ မှန်ကန်သွားပြီးဟု သိရပါသည်)
အဲဒီလို သုံးစားမရတဲ့ အကြောင်းကတော့ တီထွင်ဖန်တီးတဲ့သူတွေက နိုင်ငံခြားသားတွေ ဖြစ်နေပြီး မြန်မာနိုင်ငံသား ပညာရှင်တွေ မဟုတ်လို့ပါ။ (ဒါပေမယ့် မြန်မာနိုင်ငံသား ပညာရှင်တွေသာ ပါလို့ကတော့ ရန်ဖြစ်နေတာနဲ့ အခုလောက်အဆင့်တောင် ပါဦးမယ် မထင်ပါဘူး။) ကျွန်တော် ဆိုလိုချင်တာက International Standpoint ဖြစ်တဲ့ Unicode ဆိုတာကတော့ လူတိုင်း လက်ခံထားတဲ့ အနေအထားဖြစ်ပါတယ်။
ဒီနေရာမှာ မြစေတီ၊ ဇော်ဂျီ၊ Official Unicode၊ ဧရာ စတာတွေ အကုန်လုံး Unicode Standpoint မှာ ရပ်တည်ကြတယ်လို့ ပြောနိုင်ပါတယ်။ ဒါပေမယ့် အခုနောက်ပိုင်း စံမြန်မာ ဆိုတာကတော့ Unicode Standpoint ကို လက်မခံဘူးဆိုတဲ့ အနေအထားရှိလာပါတယ်။
အကြမ်းအားဖြင့် သုံးသပ်ရမယ်ဆိုရင် မြစေတီ၊ ဇော်ဂျီ၊ Official Unicode၊ ဧရာ စတဲ့ Unicode Standpoint တစ်ခုအပေါ်မှာ အခြေခံပြီး Code Point ဆိုင်ရာ အငြင်းပွားနေတဲ့ အုပ်စုရယ်၊ Unicode Standpoint ကို လက်မခံပဲ သီးသန့် Standpoint တစ်ခုကို လိုချင်နေတဲ့ စံမြန်မာလို အုပ်စုရယ် စသည်ဖြင့် ရှိမယ်ထင်ပါတယ်။ (တစ်ခြားဟာတွေလဲ ရှိဦးမယ်ထင်ပါတယ်။ ကျွန်တော် မသိနိုင်တာပဲ ဖြစ်ပါလိမ့်မယ်။)
ဒီနေရာမှာ စံမြန်မာနဲ့ ပတ်သက်ပြီး အနည်းငယ် ပြောလိုပါတယ်။ စံမြန်မာဆိုတာကို လေ့လာကြည့်တော့ တရုတ်စာတွေလို Symbolic Character ပုံစံ ချဉ်းကပ်ထားတာ တွေ့ရပါတယ်။ ကကြီးဆိုတာ တစ်လုံး၊ ကကြီး လုံးကြီးတင်ဆိုတာ တစ်လုံး၊ ကကြီးလုံးကြီးတင် တစ်ချောင်းငင် ဆိုတာ တစ်လုံး စသည်ဖြင့် Code Point တွေကို နေရာယူတဲ့ ပုံစံတွေ ဖြစ်ပါတယ်။ အဲဒီလိုသာ နေရာယူမယ်ဆိုရင် Code Point တွေ အများကြီး ဖြစ်လာမှာ ဖြစ်ပါတယ်။ (တော်သေးတာက ANSI ဖက်က မြန်မာစာ စနစ်တွေ တက်မလာလို့)
ကဲ … အဲဒီလောက်ဆို ဇာတ်ရည်လည်လောက်ပြီ ထင်ပါတယ်။ ကျွန်တော် ကြားမိသလောက် ကွယ်ရာမှာ ပြောကြတဲ့ အတင်းတွေကို လူစုံတုန်း ဖောက်သည်ချရမယ်ဆိုရင် …
- သူက သူ့ဟာကို ခိုးထားတယ်၊ သူနဲ့သူက အစက တည့်တယ်၊ နောက်တော့ မတည့်တော့ဘူး၊ အချင်းချင်း တီထွင်ဖန်တီးမှုတွေကို မလေးစားဖူး၊ ပုံစံပြောင်းခိုးကြတယ်။ (ဒီကိစ္စနဲ့ ပတ်သက်ရင်တော့ အော်ကျယ်အော်ကျယ်တွေ အများကြီး ကြားခဲ့ကြပြီး ဖြစ်လို့ အတင်းအဖျင်းတော့ မဟုတ်ဘူးလို့ ဆိုနိုင်ပါတယ်၊ နောက်ပေါက်တွေတော့ သိကြတော့မှာ မဟုတ်ပါဘူး)
- အခု Unicode Consortium နဲ့ ပတ်သက်နေတဲ့ မြန်မာပြည်ဖက်က တာဝန်ရှိသူတွေက သူတို့ လုပ်ချင်ရာ လုပ်နေကြတာ၊ ဘာလုပ်လုပ် ငါတို့ သိတာမဟုတ်ဘူး။ သူတို့ လုပ်ချင်တာ လုပ်တဲ့နောက် ငါတို့ မလိုက်နိုင်ဘူး။
- အခု Cnicode မှာ ရှိနေတဲ့ Code Point တွေက အမှားတွေ အများကြီးပဲ၊ ပြင်ပါဆိုလဲ ပြင်ကြမှာ မဟုတ်ဘူး။
- Unicode ဆိုတာကြီးက အသင့်မဖြစ်သေးပါဘူး။
အဲဒီလို ပြောကြဆိုကြတာတွေကို ကြားဖူးပါတယ်။ ဒါပေမယ့် အကုန်တော့ မဟုတ်သေးပါဘူး။ အကုန်ပြောလို့လဲ မသင့်တော်ဘူးလို့ ထင်လို့ ချန်ထားတာပါ။ End-user နဲ့ ပတ်သက်ပြီး ပြောကြဆိုကြတာတော့ ဘောင်မဝင်တဲ့အတွက် ချန်ထားပါတယ်။
ကဲ ဒီလောက်ဆိုရင် ကျွန်တော်တို့ Unicode အပေါ်မှာ၊ ကွန်ပျူတာသုံး မြန်မာစာ စနစ်အပေါ်မှာ အတိုင်း အတာတစ်ခုအထိ ရိပ်စားမိလောက်ပြီ ထင်ပါတယ်။ "ဇော်ဂျီနဲ့ ယူနီကုဒ် ပြဿနာတို့၊ ဧရာနဲ့ ယူနီကုဒ် ပြဿနာတို့၊ ဇော်ဂျီနဲ့ ဧရာ ပြဿနာတို့ဆိုတာ Unicode အပေါ်မှာ ရှိတဲ့ Code Point ဆိုင်ရာ အငြင်းပွားမှု ပြဿနာတွေသာ ဖြစ်တယ်" ဆိုတာ တွေ့ရမှာ ဖြစ်ပါတယ်။
နောက်တစ်ခု ကျွန်တော် သတိထားမိတာ တစ်ခုက ကွန်ပျူတာသုံး မြန်မာစာ ပညာရှင်တိုင်း တစ်ယောက်နဲ့ တစ်ယောက် အသိအမှတ်မပြုလိုကြတဲ့အပြင်၊ တစ်ယောက်နဲ့ တစ်ယောက် အသိအမှတ်ပြုလာအောင်လဲ ဘယ်အာဏာပိုင် အဖွဲ့အစည်းကမှ ကမ္မကထပြုတာ မရှိပါဘူး။
အရင်က Myanmar NLP လို့ ခေါ်တဲ့ အစိုးရအဖွဲ့ကိုယ်စားပြု မြန်မာစာစနစ် အကောင်အထည်ဖော်ရေး အဖွဲ့က ဆောင်ရွက်ခဲ့ပေမယ့် နောက်ပိုင်းမှာ ဦးဆောင်သူပိုင်းက အကျင့်ပျက်ခြစားမှု၊ ကိုယ့်တစ်ဗို့တည်း ကြည့်မှုတွေကြောင့် ဘာမှမဟုတ်တဲ့၊ ဘာမှ ဖြစ်မလာတဲ့ အဖွဲ့တစ်ခု ဖြစ်သွားပါတယ်။ အခုတော့ အဲဒီလို အစိုးရဝန်ကြီး ဌာနရဲ့ လက်အောက်ကနေ ပြုတ်သွားပြီး ဘယ်ရောက်မယ်တော့ မသိသေးပါဘူး။
ကျွန်တော် ဒီလောက်အထိ ရေးလာပြီဆိုတော့ ရှေ့ဆက်ပြီး ကျွန်တော်တို့ ဘယ်လိုတွေ လုပ်ရင် ကောင်းမယ်ဆိုတဲ့ အပိုင်းကို အကြံပြုဆွေးနွေးလိုပါတယ်။
ကျွန်တော်တို့ Standpoint တစ်ခုကို သတ်မှတ်ရပါလိမ့်မယ်
ဒါကတော့ တစ်နေရာရာကို စမှတ်အဖြစ် အားလုံးသတ်မှတ်မှသာ ပြသနာကို ဖြေရှင်းနိုင်မယ်ဆိုတာ အားလုံ အသိပဲဖြစ်ပါတယ်။ စမှတ်တစ်ခုကို အားလုံး လာဖို့လိုပါတယ်။ အဲဒီ စမှတ်က ဘာဖြစ်မလဲ၊ အုပ်စုနှစ်ခု ကွဲနေတဲ့ အနေအထားမှာ Standpoint ကို ဘယ်ဟာရွေးသင့်သလဲ၊ အဲဒီလို ရွေးတဲ့နေရာမှာလဲ မြန်မာစာ စနစ်နဲ့ ကိုက်ရဲ့လား၊ နိုင်ငံတကာက အသိအမှတ်ပြုရဲ့လား စသည်ဖြင့် နည်းလမ်းမျိုးစုံ သုံးသပ်ဖို့ လိုပါတယ်။ အဲဒီလို သုံးသပ်လိုက်မယ်ဆိုရင် စမှတ်တစ်ခု ရလာပါလိမ့်မယ်။
ကျွန်တော် အမြင်အရတော့ အခုအချိန်မှာ အသင့်တော်ဆုံး စမှတ်က Unicode ပဲဖြစ်တယ်လို့ မြင်ပါတယ်။ မြစေတီ၊ ဇော်ဂျီ၊ Official Unicode၊ ဧရာ၊ နောက် မဂ်လာမြန်မာဖောင့်ဆိုလား အားလုံးက Unicode Standpoint ပေါ် ရပ်နေကြတာပါ။
အခုချိန်မှာမှ စပြီး Myanmar Unicode Code Point ကို မြေလှန်တောင်းဆိုမယ်ဆိုရင် မဖြစ်နိုင်တော့ဘူးလို့ ထင်ပါတယ်။ စံမြန်မာအနေနဲ့ Unicode Consortium ကို သူ့ပုံစံအတိုင်း Code Point တွေ တောင်းတာ မရဘူးလို့ ကြားမိပါတယ်။ အဲဒီတော့ ကျွန်တော်တို့ အားလုံးအတွက် စမှတ်တစ်ခုဟာ Unicode ပဲလို့ အကျဉ်းအားဖြင့် သတ်မှတ်နိုင်ပါတယ်။
ကွန်ပျူတာသုံး မြန်မာစာစနစ်ဆိုင်ရာ ပညာရှင်များ တစ်စားပွဲတည်း ထိုင်ပြီး ဆွေးနွေးကြပါ
အပေါ်မှာ ပြောခဲ့သလို Standpoint တစ်ခုကို ရပြီဆိုရင် တစ်စားပွဲတည်းထိုင်ပြီး ဆွေးနွေးကြဖို့ လိုပါတယ်။ အဲဒီလို ဆွေးနွေးတဲ့နေရာမှာလဲ End-user ဆိုတဲ့ ရှုထောင့်ကို ခဏဖယ်ထားပြီး ဆွေးနွေးကြဖို့ လိုပါတယ်။ အားလုံး တူညီတဲ့ ဘုံရည်မှန်းချက်တစ်ခုကို ထားပြီး ဆွေးနွေးဖို့ လိုပါတယ်။ ကွန်ပျူတာသုံး မြန်မာစာ စနစ်ဆိုတာ တစ်ခုတည်း ရှိရမယ်ဆိုတဲ့ ဘုံရည်မှန်းချက်မျိုးကို ဆိုလိုပါတယ်။
ကွယ်ရာမှာ ပြောနေကြမယ့်အစား၊ ဘာမှမဆိုင်တဲ့ End-user တွေကို မှိုင်းတိုက်နေမယ့်အစား၊ တစ်စားပွဲတည်းမှာ ပညာရှင်အချင်းချင်း ဆွေးနွေးကြပြီး အကောင်းဆုံး အဖြေတွေ ဖြေရှင်းနိုင်မယ့် နည်းလမ်းတွေကို ရှာဖွေသင့်ပါတယ်။ မြန်မာစာစနစ် ဖြစ်တာနဲ့အညီ မြန်မာစာ ပညာရှင်ကြီးများကိုလဲ ဖိတ်ခေါ် အကြံဉာဏ်များ ယူသင့်သလို ရှေ့မှာလုပ်ခဲ့တဲ့ အတွေ့အကြုံရှိတဲ့ ပညာရှင် ပုဂ္ဂိုလ်များကိုလဲ ဖိတ်ခေါ်သင့်ပါတယ်။
စိတ်ပါဝင်စားသူများကိုလဲ တက်ရောက်စေသင့်ပါတယ်။ အဲဒီလို တစ်စားပွဲတည်း ပွင့်ပွင့်လင်းလင်း ဆွေးနွေးဖို့ဆိုတာ မြန်မာပြည် အနေအထားအရ မဖြစ်နိုင်ဘူးဆိုရင်တော့ ကိုယ်မှန်တယ်ထင်တဲ့ ပုံစံနဲ့ ပတ်သက်တဲ့ စာတမ်းတွေ၊ အထောက်အထား သက်သေတွေ ခိုင်ခိုင်လုံလုံနဲ့ ပြောဆိုဆွေးနွေး ကြဖို့လိုပါတယ်။
"ငါက အစကတည်းက ပါလာတာ၊ အံတိုနေပြီ" ဆိုပြီး နောက်လူရဲ့ တင်ပြချက်၊ ထောက်ပြချက်ကို လက်မခံရင်လဲ အလုပ်ဖြစ်မှာမဟုတ်သလို၊ နောက်လူတွေကလဲ ဖြစ်သင့်တဲ့ စံနှုန်းတွေ အပေါ်မှာ မဆွေးနွေးကြရင် အထောက်အထား သက်သေမရှိရင် အလုပ်ဖြစ်မှာ မဟုတ်ပါဘူး။
ကွန်ပျူတာသုံး မြန်မာစာ စနစ်နှင့် အသုံးချ Developer
ကွန်ပျူတာသုံး မြန်မာစာ စနစ်နဲ့ အသုံးချ Developer များကတော့ အတော်လေးကို တိုင်ပတ်တဲ့ အနေအထားလို့ ဆိုရမှာဖြစ်ပါတယ်။ ဘီးကို အသင့်သုံးပြီး ကားကိုထွင်ရမှာ ဖြစ်ပေမယ့် ဘီးက ပုံစံအမျိုးမျိုး ဖြစ်နေတော့ ဘယ်ဘီးကို သုံးရမှန်းမသိဖြစ်နေရတဲ့ အနေအထားပါ။
တစ်ဖက်ကလဲ အွန်လိုင်းဖြစ်တာနဲ့အညီ အသုံးချ အချက်အလက်တွေ ဖြစ်လာမယ်ဆိုတဲ့ အသိကလဲ နှောင့်ယှက်နေပါတယ်။ ဒီဘီးကိုသုံးပြီး ဒီခရီးကိုဆက်ပါမယ်ဆိုမှ "မင့်းဘီးက ချီးနင်းထားတယ်၊ မင့်းဘီးကတော့ တာယာသားမကောင်းဘူး" စသည်ဖြင့် အဖက်ဖက်ကလဲ ဝေဖန်ကြပါသေးတယ်။ တော်တော်လေးကို စိတ်အချဉ်ပေါက်စရာ ကောင်းတဲ့ အနေအထားလို့ ဆိုနိုင်ပါတယ်။
မြန်မာပြည်တွင်းမှာနေပြီး မြန်မာစာနဲ့ မကင်းနိုင်တဲ့ အသုံးချ Developer များရဲ့ ဒုက္ခကတော့ မသေးလှပါဘူး။ ကြာလေ ပိုဆိုးလေ၊ ကြာလေ ပိုဆိုးလေ ဖြစ်လာတော့ စိတ်ထဲမှာ သပိတ်မှောက်ချင်စိတ်တွေ အကုန်ပတ်ဆဲချင်စိတ်တွေ ဖြစ်လာပါတယ်။
တကယ်တော့ အသုံးချ Developer ဆိုတာ ကွန်ပျူတာသုံး မြန်မာစာ ပညာရှင်များအတွက် ပေါင်းကူးများ ဖြစ်ပါတယ်။ အမှန်တကယ် တိုက်ရိုက်ထိတွေ့ အသုံးချမယ့် End-user များလက်ထဲကို ထည့်ပေးမယ့်သူများ ဖြစ်ပါတယ်။ အဲဒီလို အရေးပါတဲ့ အခန်းကဏ္ဍကို လစ်လျူရှုထားမယ်ဆိုရင် ကွန်ပျူတာသုံး မြန်မာစာစနစ်လဲ တိုးတက်လာစရာ အကြောင်း မမြင်ပါဘူး။
ဒီတော့ “အမျိုးပျောက်မှာ စိုးကြောက်လှပါသည်” ဆိုတဲ့ အစား “မြန်မာစာ ပျောက်မှာ စိုးကြောက်လှပါသည်”၊ "ငါတစ်ကောကော ကွန်ပျူတာသုံး မြန်မာစာစနစ် ပညာရှင်များ" ဟုသာ ဟစ်ကာ ဟစ်ကာ အော်လိုက်ချင်ပါတော့သည်။
(မှတ်ချက် - ယခုဆောင်းပါးကို ၂၀၁၂ ခုနှစ် စက်တင်ဘာလခန့်က ရေးသားခဲ့ခြင်း ဖြစ်ပါသည်)