Uni Code


Image result for unicode



                            Uni Code


             Uni-code (යුනි කේත) යනු ඇස්කි නොවන(non-ASCII scripts)අක්‍ෂර සඳහා භාවිතාවන universal standard එකකි. යුනිකෝඩ් ලොව වටා භාෂා සඳහා සහ ඒ ඒ රටවල අක්‍ෂරමාලා සඳහා සහාය ලබා දෙයි. ලොවපුරා මිලියන එකකටත් අධික අක්‍ෂර සඳහා සහාය වීමට යුනිකෝඩ්වලට හැකියාව ඇත.අන්තර්ජාලය ආරම්භ කර ඇත්තේ ASCII(American Standard Code for Information Interchange) පදනම් කරගෙන වෙන අතර ඒ සඳහා යොදාගෙන ඇත්තේ ඉංග්‍රිසි අකාරදිය මත පදනම් වූ අක්‍ෂර  128ක් පමණි.   
 ASCII අක්ෂර සඳහා බිටු 7 (7 bits)ක් පමණක් අවශ්‍ය වන අතර යුනිකෝඩ් සඳහා  බිටු 16 (16 bits) භාවිතා කරයි. චීන, අරාබි සහ රුසියානු වැනි භාෂා සකස් කිරීම සඳහා මෙය වැදගත් වේ. 
යුනිකෝඩ් අක්ෂර සැකැස්ම ලෝකයේ භාවිතාවන සෑම character එකක් සඳහාම වූ සුවිශේෂී අංකයකට(unique number) අනුරූප කර ඇත. මෙමගින් විවිධ භාෂාවන්ගේ අක්ෂර මාලාවන් අතර ඝට්ටනයක් ඇති නොවේ. මෙම numbers, platform-independent වේ.  මෙම unique numbers යුනිකෝඩ් භාෂාවේ සංකේත කේත(code points) ලෙස හැඳින්වේ.

බහුලව භාවිතාවන යුනිකෝඩ් වර්ග වන්නේ  ;
  • UTF-8   
           UTF-8 encoding (සංකේතනය කිරීම) යනු යුනිකෝඩ් සංකේතාත්මක points නියෝජනය කිරීම සඳහා විචල්‍යය ප්‍රමාණයේ කේතන ක්‍රමයකි. විචල්‍යය ප්‍රමාණයේ කේතන(Variable sized encoding)  යනු සංකේතාත්මක ස්ථාන(code points)  නිරූපණයවන ප්‍රමාණය මත රදා පවතින 1,2,3 හෝ 4 bytes ගණන අනුව ය.
  • UTF-16
           UTF-16 encoding යනු යුනිකෝඩ් කේත කේන්ද්‍රය(code point) නියෝජනය කිරීම සඳහා 2-byte හෝ 4 bytes භාවිතා කරන variable byte encoding  ක්‍රමයකි. බොහෝ නවීන භාෂා සඳහාවන characters සඳහා 2 bytes භාවිතා කර ඇත. 
  • UTF-32
       UTF-32 encoding යනු fixed byte encoding ක්‍රමයක්වන අතර එය සියලුම code points නියෝජනය කිරීම සඳහා 4 bytes භාවිතා කරයි.

Example:



       


Image result for ASCII
   

ASCII (American Standard Code for Information Interchange)යනු;
පරිගණක සඳහා දත්ත encode කිරීමේදී භාවිතාවන standard characters වලින් යුතු අක්ෂර කට්ටලයකි. එය ප්‍රධාන වශයෙන් අකුරු සහ අංක වලින් සමන්විත වන අතර එය $ සහ% වැනි මූලික සංකේත කිහිපයක්ද ඇතුළත් වේ. Characters 128 සහිත මෙහි 7-bit integers නිරූපණයන් භාවිතා කරනුයේ uppercase සහ lowercase letters සහ රෝම හෝඩියේ සංඛ්‍යාත්මක ඉලක්කම්(numeric digits) 10 ක් සහ විරාම ලකුණු(punctuation characters) සහ අනෙකුත් සංකේත(symbols) ආදේශ කිරීමටයි.

 


Unicode සහ ASCII අතර වෙනස්කම් ;

Unicode

  • Universal Character set
  • A computing industry standard for the consistent encoding, representation, and handling of text expressed in most of the world's writing system.
  • Encoding type එක අනුව 8bit,16bit හෝ 32 bit භාවිතා කරයි. 
  • පුළුල් පරාසයක characters සඳහා සහාය වේ. 
  • Standardized.
  • Operating systems සඳහා implement කර ඇත.



ASCII

  • American Standard Code for Information Interchange
  • A character encoding standard for electronic communication.
  • Character 1ක් නිරූපණය කිරීමට 7bits භාවිතා කරයි. 
  • Character 128ක් සඳහා සහාය වේ.
  • Not standardized.
  • Personnel computers සහ micro computers සඳහා භාවිතා කරයි. 
  • ASCII is a subset of Unicode.



                                Thank You! 😊
                                 -Kau-                              
 

Comments

Post a Comment

Popular posts from this blog

Color theory (වර්ණ සිද්ධාන්තය)

Data Base Management Systems