Uni Code

May 06, 2019

  Uni Code

Uni-code (යුනි කේත) යනු ඇස්කි නොවන(non-ASCII scripts)අක්‍ෂර සඳහා භාවිතාවන universal standard එකකි. යුනිකෝඩ් ලොව වටා භාෂා සඳහා සහ ඒ ඒ රටවල අක්‍ෂරමාලා සඳහා සහාය ලබා දෙයි. ලොවපුරා මිලියන එකකටත් අධික අක්‍ෂර සඳහා සහාය වීමට යුනිකෝඩ්වලට හැකියාව ඇත.අන්තර්ජාලය ආරම්භ කර ඇත්තේ ASCII(American Standard Code for Information Interchange) පදනම් කරගෙන වෙන අතර ඒ සඳහා යොදාගෙන ඇත්තේ ඉංග්‍රිසි අකාරදිය මත පදනම් වූ අක්‍ෂර 128ක් පමණි.
ASCII අක්ෂර සඳහා බිටු 7 (7 bits)ක් පමණක් අවශ්‍ය වන අතර යුනිකෝඩ් සඳහා බිටු 16 (16 bits) භාවිතා කරයි. චීන, අරාබි සහ රුසියානු වැනි භාෂා සකස් කිරීම සඳහා මෙය වැදගත් වේ.
යුනිකෝඩ් අක්ෂර සැකැස්ම ලෝකයේ භාවිතාවන සෑම character එකක් සඳහාම වූ සුවිශේෂී අංකයකට(unique number) අනුරූප කර ඇත. මෙමගින් විවිධ භාෂාවන්ගේ අක්ෂර මාලාවන් අතර ඝට්ටනයක් ඇති නොවේ. මෙම numbers, platform-independent වේ.  මෙම unique numbers යුනිකෝඩ් භාෂාවේ සංකේත කේත(code points) ලෙස හැඳින්වේ.

බහුලව භාවිතාවන යුනිකෝඩ් වර්ග වන්නේ  ;

UTF-8

UTF-8 encoding (සංකේතනය කිරීම) යනු යුනිකෝඩ් සංකේතාත්මක points නියෝජනය කිරීම සඳහා විචල්‍යය ප්‍රමාණයේ කේතන ක්‍රමයකි. විචල්‍යය ප්‍රමාණයේ කේතන(Variable sized encoding) යනු සංකේතාත්මක ස්ථාන(code points) නිරූපණයවන ප්‍රමාණය මත රදා පවතින 1,2,3 හෝ 4 bytes ගණන අනුව ය.

UTF-16

UTF-16 encoding යනු යුනිකෝඩ් කේත කේන්ද්‍රය(code point) නියෝජනය කිරීම සඳහා 2-byte හෝ 4 bytes භාවිතා කරන variable byte encoding ක්‍රමයකි. බොහෝ නවීන භාෂා සඳහාවන characters සඳහා 2 bytes භාවිතා කර ඇත.

UTF-32

UTF-32 encoding යනු fixed byte encoding ක්‍රමයක්වන අතර එය සියලුම code points නියෝජනය කිරීම සඳහා 4 bytes භාවිතා කරයි.

Example:

ASCII (American Standard Code for Information Interchange)යනු;
පරිගණක සඳහා දත්ත encode කිරීමේදී භාවිතාවන standard characters වලින් යුතු අක්ෂර කට්ටලයකි. එය ප්‍රධාන වශයෙන් අකුරු සහ අංක වලින් සමන්විත වන අතර එය $ සහ% වැනි මූලික සංකේත කිහිපයක්ද ඇතුළත් වේ. Characters 128 සහිත මෙහි 7-bit integers නිරූපණයන් භාවිතා කරනුයේ uppercase සහ lowercase letters සහ රෝම හෝඩියේ සංඛ්‍යාත්මක ඉලක්කම්(numeric digits) 10 ක් සහ විරාම ලකුණු(punctuation characters) සහ අනෙකුත් සංකේත(symbols) ආදේශ කිරීමටයි.

Unicode සහ ASCII අතර වෙනස්කම් ;

Unicode

Universal Character set
A computing industry standard for the consistent encoding, representation, and handling of text expressed in most of the world's writing system.
Encoding type එක අනුව 8bit,16bit හෝ 32 bit භාවිතා කරයි.
පුළුල් පරාසයක characters සඳහා සහාය වේ.
Standardized.
Operating systems සඳහා implement කර ඇත.