The Unicode Standard, Version 5.0
อักขระยูนิโคดทั้งหมดเมื่อพิมพ์ลงกระดาษ (รวมทั้งสองแผ่น)
ยูนิโคด (อังกฤษ : Unicode ) คือมาตรฐานอุตสาหกรรม ที่ช่วยให้คอมพิวเตอร์ แสดงผลและจัดการข้อความธรรมดา ที่ใช้ในระบบการเขียน ของภาษา ส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระ ที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระ อีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่น อักษรอาหรับ หรือ อักษรฮีบรู ที่เขียนจากขวาไปซ้าย) [ 1]
ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง เช่น เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์ก และระบบปฏิบัติการ สมัยใหม่
ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์ สำหรับอักขระทุกตัวในรหัสแอสกี และมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์
สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)
สมาคม Unicode
สมาคม Unicode เป็นองค์กรไม่แสวงหากำไรที่ประสานงานการพัฒนา Unicode สมาชิกเต็มรูปแบบประกอบด้วยบริษัทซอฟต์แวร์และฮาร์ดแวร์คอมพิวเตอร์หลักส่วนใหญ่ที่มีความสนใจในมาตรฐานการประมวลผลข้อความ รวมถึง Adobe , Apple , Facebook , Google , IBM , Microsoft , Netflix และ SAP SE .[ 2]
สมาคมมีเป้าหมายที่ทะเยอทะยานในการแทนที่โครงร่างการเข้ารหัสอักขระที่มีอยู่ด้วย Unicode และโครงร่าง Unicode Transformation Format (UTF) มาตรฐาน เนื่องจากโครงร่างที่มีอยู่จำนวนมากมีขนาดและขอบเขตที่จำกัดและไม่เข้ากันกับ multilingual สภาพแวดล้อม
อักขระ Unicode ใช้กันอย่างแพร่หลายในการตกแต่งข้อความบนเครือข่ายสังคม สำหรับสิ่งนี้มีแอปพลิเคชั่นพิเศษที่แปลงตัวอักษรธรรมดาเป็นอักขระพิเศษ [ 3]
การเข้ารหัส
UTF-8 เข้ารหัสตัวอักษรเป็นข้อมูลหนึ่งถึงสี่ไบต์ตามลำดับของจุดรหัส ตารางต่อไปนี้แสดงโครงสร้างของการเข้ารหัส ตัว x แทนบิตของจุดรหัส
จุดรหัส <-> UTF-8
จุดรหัสแรก
จุดรหัสท้าย
ไบต์ที่ 1
ไบต์ที่ 2
ไบต์ที่ 3
ไบต์ที่ 4
U+0000
U+007F
0xxxxxxx
U+0080
U+07FF
110xxxxx
10xxxxxx
U+0800
U+FFFF
1110xxxx
10xxxxxx
10xxxxxx
U+10000
U+10FFFF
11110xxx
10xxxxxx
10xxxxxx
10xxxxxx
ตัวอย่างการเข้ารหัส
ตัวอักษร
จุดรหัสฐานสอง
UTF-8 ฐานสอง
UTF-8 ฐานสิบหก
$
U+0024
010 0100
00100100
24
¢
U+00A2
000 10 10 0010
11000010 10100010
C2 A2
ह
U+0939
0000 1001 00 11 1001
11100000 10100100 10111001
E0 A4 B9
€
U+20AC
0010 0000 10 10 1100
11100010 10000010 10101100
E2 82 AC
한
U+D55C
1101 0101 01 01 1100
11101101 10010101 10011100
ED 95 9C
𐍈
U+10348
0 00 01 0000 0011 01 00 1000
11110000 10010000 10001101 10001000
F0 90 8D 88
รุ่นยูนิโคด
รุ่น
วันที่
หนังสือ
ความสอดคล้องกับชุดอักขระสากล (ISO/IEC 10646)
ชุดอักษร
อักขระ
จำนวน
การเพิ่มเติมที่สำคัญ
1.0.0
ตุลาคม พ.ศ. 2534
ISBN 0-201-56788-1 (Vol.1)
24
7,161
เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ , อาร์มีเนีย , เบงกอล , ปอพอมอฟอ , ซีริลลิก , เทวนาครี , จอร์เจีย , กรีกและคอปติก , คุชราต , คุรมุขี , ฮันกึล , ฮีบรู , ฮิระงะนะ , กันนาดา , คะตะคะนะ , ลาว , ละติน , มลยาฬัม , โอริยา , ทมิฬ , เตลูกู , ไทย และทิเบต [ 4]
1.0.1
มิถุนายน พ.ศ. 2535
ISBN 0-201-60845-6 (Vol.2)
25
28,359
เริ่มมีอักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว [ 5]
1.1
มิถุนายน พ.ศ. 2536
ISO/IEC 10646-1:1993
24
34,233
เพิ่มพยางค์ ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก [ 6]
2.0
กรกฎาคม พ.ศ. 2539
ISBN 0-201-48345-9
ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7
25
38,950
พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไกอักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็นพื้นที่ใช้งานส่วนตัว (Private Use Areas) [ 7]
2.1
พฤษภาคม พ.ศ. 2541
ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18
25
38,952
เครื่องหมายยูโร ถูกเพิ่มเข้ามา [ 8]
3.0
กันยายน พ.ศ. 2542
ISBN 0-201-61633-5
ISO/IEC 10646-1:2000
38
49,259
เชอโรกี , เอธิโอเปีย , เขมร , มองโกเลีย , พม่า , โอคัม , รูนส์ , สิงหล , ซีเรียค , ทานา , Unified Canadian Aboriginal Syllabics และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ [ 9]
3.1
มีนาคม พ.ศ. 2544
ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001
41
94,205
เดเซเรท , โกธิก และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับสัญลักษณ์ทางดนตรีสมัยใหม่ และดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว [ 10]
3.2
มีนาคม พ.ศ. 2545
ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่ 1
ISO/IEC 10646-2:2001
45
95,221
เพิ่มอักษรที่ใช้ในฟิลิปปินส์ : บูฮิด , ฮานูโนโอ , บายบายิน และตักบันวา [ 11]
4.0
เมษายน พ.ศ. 2546
ISBN 0-321-18578-1
ISO/IEC 10646:2003
52
96,447
ไซปรัส , ลิมบู , ไลเนียร์บี , ออสมันยา , ชาเวียน , ไทใต้คง และยูการิติก เพิ่มเข้ามาพร้อมกับแผนภูมิหกชั้น ของอี้จิง [ 12]
4.1
มีนาคม พ.ศ. 2548
ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1
59
97,720
ลนตารา , กลาโกลิติก , ขโรษฐี , ไทลื้อใหม่ , Old Persian , สิเลฏินาครี และทิฟินาค เพิ่มเข้ามา และคอปติก ในรูปแบบที่ต่างจากอักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย [ 13]
5.0
กรกฎาคม พ.ศ. 2549
ISBN 0-321-48091-0
ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2 และอักขระสี่ตัวจากข้อแก้ไขที่ 3
64
99,089
บาหลี , คูนิฟอร์ม , อึนโก , พักส์-ปา และฟินิเชีย เพิ่มเข้ามา [ 14]
5.1
เมษายน พ.ศ. 2551
ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4
75
100,713
คาเรีย , จาม , กะยา , เลปชา , ไลเซีย , ไลเดีย , Ol Chiki , เรชัง , ศารทา , ซุนดา และไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ Phaistos Disc , หน้าไพ่นกกระจอก และหน้าโดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า , additions of letters and Scribal abbreviations used in medieval manuscripts , and the addition of capital ß .[ 15]
5.2
ตุลาคม พ.ศ. 2552
ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6
90
107,361
อเวสตะ , บามุม , ไฮโรกลิฟฟิก (the Gardiner Set , comprising 1,071 characters), Imperial Aramaic , Inscriptional Pahlavi , Inscriptional Parthian , ชวา , ไกถิ , ลีสู่ , ไมไตมาเยก , Old South Arabian , Old Turkic , Samaritan , ไทธรรม และ ไทเวียด . เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของอักษรฮันกึลโบราณ และอักขระสำหรับอักษรพระเวท [ 16]
6.0
ตุลาคม พ.ศ. 2553
ISO/IEC 10646:2010 เพิ่มเครื่องหมายสกุลเงินรูปีอินเดีย
93
109,449
บาตัก , พราหมี , มันดาอิก , สัญลักษณ์หน้าไพ่ป๊อก , สัญลักษณ์จราจร และแผนที่ , สัญลักษณ์การเล่นแร่แปรธาตุ , อีโมติคอน และอีโมจิ [ 17]
7.0
มิถุนายน 2557
ISBN 978-1-936213-09-2
ISO/IEC 10646:2012 เพิ่มข้อแก้ไขที่ 1 และ 2 และเครื่องหมายรูเบิล
123
112,956
(2,834 added)
Bassa Vah, Caucasian Albanian, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linear A, Mahajani, Manichaean, Mende Kikakui, Modi, Mro, Nabataean, Old North Arabian, Old Permic, Pahawh Hmong, Palmyrene, Pau Cin Hau, Psalter Pahlavi, Siddham, Tirhuta, Warang Citi, and Dingbats.
8.0
มิถุนายน 2558
ISBN 978-1-936213-10-8
ISO/IEC 10646:2014 pเพิ่มข้อแก้ไขที่ 1 และเครื่องหมายสกุลเงินลารี อักษรภาพรวมจีนญี่ปุ่นเกาหลี 9 ตัว และอีโมจิ 41 ตัว
129
120,672
(7,716 added)
Ahom, Anatolian hieroglyphs, Hatran, Multani, Old Hungarian, SignWriting, 5,771 CJK unified ideographs, a set of lowercase letters for Cherokee, and five emoji skin tone modifiers.
9.0
มิถุนายน 2559
ISBN 978-1-936213-13-9
ISO/IEC 10646:2014เพิ่มข้อแก้ไขที่ 1 และ 2 และอัดลัม เนวา สัญลักษณ์โทรทัศน์ญี่ปุ่น และอีโมจิกับสัญลักษณ์อีก 74 ตัว
135
128,172
(7,500 added)
Adlam, Bhaiksuki, Marchen, Newa, Osage, Tangut, and 72 emoji.
10.0
มิถุนายน 2560
ISBN 978-1-936213-16-0
ISO/IEC 10646:2017 plus 56 emoji characters, 285 hentaigana characters, and 3 Zanabazar Square characters
139
136,690
(8,518 added)
Zanabazar Square, Soyombo, Masaram Gondi, Nüshu, hentaigana (non-standard hiragana), 7,494 CJK unified ideographs, 56 emoji, and bitcoin symbol.
11.0
มิถุนายน 2561
ISBN 978-1-936213-19-1
ISO/IEC 10646:2017 plus Amendment 1, as well as 46 Mtavruli Georgian capital letters, 5 CJK unified ideographs, and 66 emoji characters.
146
137,374
(684 added)
Dogra, Georgian Mtavruli capital letters, Gunjala Gondi, Hanifi Rohingya, Indic Siyaq numbers, Makasar, Medefaidrin, Old Sogdian and Sogdian, Mayan numerals, 5 urgently needed CJK unified ideographs, symbols for xiangqi (Chinese chess) and star ratings, and 145 emoji.
12.0
มีนาคม 2562
ISBN 978-1-936213-22-1
ISO/IEC 10646:2017 plus Amendments 1 and 2, as well as 62 additional characters.
150
137,928
(554 added)
Elymaic, Nandinagari, Nyiakeng Puachue Hmong, Wancho, Miao script additions for several Miao and Yi dialects in China, hiragana and katakana small letters for writing archaic Japanese, Tamil historic fractions and symbols, Lao letters for Pali, Latin letters for Egyptological and Ugaritic transliteration, hieroglyph format controls, and 61 emoji.
12.1
พฤษภาคม 2562
ISBN 978-1-936213-25-2
150
137,929
(1 added)
เพิ่มอักษรหนึ่งตัวที่ U+32FF ชื่อยุคเรวะ แบบมัดเป็นสี่เหลี่ยมจัตุรัส
13.0
มีนาคม 2563
ISBN 978-1-936213-26-9
ISO/IEC 10646:2020
154
143,859
(5,930 added)
Chorasmian, Dives Akuru, Khitan small script, Yezidi, 4,969 CJK unified ideographs added (including 4,939 in Ext. G), Arabic script additions used to write Hausa, Wolof, and other languages in Africa and other additions used to write Hindko and Punjabi in Pakistan, Bopomofo additions used for Cantonese, Creative Commons license symbols, graphic characters for compatibility with teletext and home computer systems from the 1970s and 1980s, and 55 emoji.
14.0
กันยายน 2564
ISBN 978-1-936213-29-0
159
144,697
(838 added)
Toto, Cypro-Minoan, Vithkuqi, Old Uyghur, Tangsa, Latin script additions at SMP blocks (Ext-F, Ext-G) for use in extended IPA, Arabic script additions for use in languages across Africa and in Iran, Pakistan, Malaysia, Indonesia, Java, and Bosnia, and to write honorifics, additions for Quranic use, other additions to support languages in North America, the Phillipines, India, and Mongolia, addition of the Kyrgyzstani som currency symbol, support for Znamenny musical notation, and 37 emoji.
แผนผังBasic Multilingual Plane หนึ่งกล่องแทน 256 ช่อง
บล็อกต่าง ๆ
แผ่น
ระยะ
ชื่อ
จำนวนช่อง
กำหนดแล้ว
ชุดอักษร
0 BMP
U+0000..U+007F
Basic Latin
128
128
ละติน (52 ตัว), ทั่วไป (76 ตัว)
0 BMP
U+0080..U+00FF
Latin-1 Supplement
128
128
ละติน (64 ตัว), ทั่วไป (64 ตัว)
0 BMP
U+0100..U+017F
Latin Extended-A
128
128
ละติน
0 BMP
U+0180..U+024F
Latin Extended-B
208
208
ละติน
0 BMP
U+0250..U+02AF
IPA Extensions
96
96
ละติน
0 BMP
U+02B0..U+02FF
Spacing Modifier Letters
80
80
ปอพอมอฟอ (2 ตัว), ละติน (14 ตัว), ทั่วไป (64 ตัว)
0 BMP
U+0300..U+036F
Combining Diacritical Marks
112
112
ใช้กับตัวอื่น
0 BMP
U+0370..U+03FF
Greek and Coptic
144
135
คอปติก (14 ตัว), กรีก (117 ตัว), ทั่วไป (4 ตัว)
0 BMP
U+0400..U+04FF
Cyrillic
256
256
ซีริลลิก (254 characters), ใช้กับตัวอื่น (2 ตัว)
0 BMP
U+0500..U+052F
Cyrillic Supplement
48
48
ซีริลลิก
0 BMP
U+0530..U+058F
Armenian
96
91
อาร์เมเนียน
0 BMP
U+0590..U+05FF
Hebrew
112
88
ฮีบรู
0 BMP
U+0600..U+06FF
Arabic
256
256
อาหรับ (238 ตัว), ทั่วไป (6 ตัว), ใช้กับตัวอื่น (12 ตัว)
0 BMP
U+0700..U+074F
Syriac
80
77
ซีเรีย
0 BMP
U+0750..U+077F
Arabic Supplement
48
48
อาหรับ
0 BMP
U+0780..U+07BF
Thaana
64
50
อักษรทานะ
0 BMP
U+07C0..U+07FF
NKo
64
62
อักษรอึนโก
0 BMP
U+0800..U+083F
Samaritan
64
61
Samaritan
0 BMP
U+0840..U+085F
Mandaic
32
29
Mandaic
0 BMP
U+0860..U+086F
Syriac Supplement
16
11
ซีเรีย
0 BMP
U+0870..U+089F
Arabic Extended-B
48
41
อาหรับ
0 BMP
U+08A0..U+08FF
Arabic Extended-A
96
96
อาหรับ (95 ตัว), ทั่วไป (1 ตัว)
0 BMP
U+0900..U+097F
Devanagari
128
128
เทวนาครี (122 ตัว), ทั่วไป (2 ตัว), Inherited (4 ตัว)
0 BMP
U+0980..U+09FF
Bengali
128
96
เบงกอล
0 BMP
U+0A00..U+0A7F
Gurmukhi
128
80
อักษรคุรมุขี
0 BMP
U+0A80..U+0AFF
Gujarati
128
91
คุชราต
0 BMP
U+0B00..U+0B7F
Oriya
128
91
โอริยา
0 BMP
U+0B80..U+0BFF
Tamil
128
72
ทมิฬ
0 BMP
U+0C00..U+0C7F
Telugu
128
100
เตลูกู
0 BMP
U+0C80..U+0CFF
Kannada
128
90
กันนาดา
0 BMP
U+0D00..U+0D7F
Malayalam
128
118
มลยาฬัม
0 BMP
U+0D80..U+0DFF
Sinhala
128
91
สิงหล
0 BMP
U+0E00..U+0E7F
Thai
128
87
ไทย (86 ตัว), ทั่วไป (1 ตัว)
0 BMP
U+0E80..U+0EFF
Lao
128
82
ลาว
0 BMP
U+0F00..U+0FFF
Tibetan
256
211
ทิเบต (207 ตัว), ทั่วไป (4 ตัว)
0 BMP
U+1000..U+109F
Myanmar
160
160
พม่า
0 BMP
U+10A0..U+10FF
Georgian
96
88
จอร์เจีย (87 ตัว), ทั่วไป (1 ตัว)
0 BMP
U+1100..U+11FF
Hangul Jamo
256
256
ฮันกึล
0 BMP
U+1200..U+137F
Ethiopic
384
358
เอธิโอเปีย
0 BMP
U+1380..U+139F
Ethiopic Supplement
32
26
เอธิโอเปีย
0 BMP
U+13A0..U+13FF
Cherokee
96
92
เชโรกี
0 BMP
U+1400..U+167F
Unified Canadian Aboriginal Syllabics
640
640
แคนาดาพื้นเมือง
0 BMP
U+1680..U+169F
Ogham
32
29
Ogham
0 BMP
U+16A0..U+16FF
Runic
96
89
รูน (86 ตัว), ทั่วไป (3 ตัว)
0 BMP
U+1700..U+171F
Tagalog
32
23
ตากาล็อก
0 BMP
U+1720..U+173F
Hanunoo
32
23
Hanunoo (21 characters), Common (2 characters)
0 BMP
U+1740..U+175F
Buhid
32
20
Buhid
0 BMP
U+1760..U+177F
Tagbanwa
32
18
Tagbanwa
0 BMP
U+1780..U+17FF
Khmer
128
114
เขมร
0 BMP
U+1800..U+18AF
Mongolian
176
158
มองโกเลีย (155 ตัว), ทั่วไป (3 ตัว)
0 BMP
U+18B0..U+18FF
Unified Canadian Aboriginal Syllabics Extended
80
70
แคนาดาพื้นเมือง
0 BMP
U+1900..U+194F
Limbu
80
68
Limbu
0 BMP
U+1950..U+197F
Tai Le
48
35
อักษรไทใต้คง
0 BMP
U+1980..U+19DF
New Tai Lue
96
83
อักษรไทลื้อ
0 BMP
U+19E0..U+19FF
Khmer Symbols
32
32
เขมร
0 BMP
U+1A00..U+1A1F
Buginese
32
30
Buginese
0 BMP
U+1A20..U+1AAF
Tai Tham
144
127
อักษรล้านนา
0 BMP
U+1AB0..U+1AFF
Combining Diacritical Marks Extended
80
31
ผสม
0 BMP
U+1B00..U+1B7F
Balinese
128
124
Balinese
0 BMP
U+1B80..U+1BBF
Sundanese
64
64
Sundanese
0 BMP
U+1BC0..U+1BFF
Batak
64
56
Batak
0 BMP
U+1C00..U+1C4F
Lepcha
80
74
Lepcha
0 BMP
U+1C50..U+1C7F
Ol Chiki
48
48
Ol Chiki
0 BMP
U+1C80..U+1C8F
Cyrillic Extended-C
16
9
ซีริลลิก
0 BMP
U+1C90..U+1CBF
Georgian Extended
48
46
จอร์เจีย
0 BMP
U+1CC0..U+1CCF
Sundanese Supplement
16
8
Sundanese
0 BMP
U+1CD0..U+1CFF
Vedic Extensions
48
43
ทั่วไป (16 ตัว), ผสม(27 ตัว)
0 BMP
U+1D00..U+1D7F
Phonetic Extensions
128
128
ซีริลลิก (2 ตัว), กรีก(15 ตัว), ละติน (111 ตัว)
0 BMP
U+1D80..U+1DBF
Phonetic Extensions Supplement
64
64
กรีก (1 ตัว), ละติน (63 ตัว)
0 BMP
U+1DC0..U+1DFF
Combining Diacritical Marks Supplement
64
64
ผสม
0 BMP
U+1E00..U+1EFF
Latin Extended Additional
256
256
ละติน
0 BMP
U+1F00..U+1FFF
Greek Extended
256
233
กรีก
0 BMP
U+2000..U+206F
General Punctuation
112
111
ทั่วไป (109 ตัว), ผสม (2 ตัว)
0 BMP
U+2070..U+209F
Superscripts and Subscripts
48
42
ละติน (15 ตัว), ทั่วไป (27 ตัว)
0 BMP
U+20A0..U+20CF
Currency Symbols
48
33
ทั่วไป
0 BMP
U+20D0..U+20FF
Combining Diacritical Marks for Symbols
48
33
ใช้กับตัวอื่น
0 BMP
U+2100..U+214F
Letterlike Symbols
80
80
กรีก (1 ตัว), ละติน (4 ตัว), ทั่วไป (75 ตัว)
0 BMP
U+2150..U+218F
Number Forms
64
60
ละติน (41 ตัว), ทั่วไป (19 ตัว)
0 BMP
U+2190..U+21FF
Arrows
112
112
ทั่วไป
0 BMP
U+2200..U+22FF
Mathematical Operators
256
256
ทั่วไป
0 BMP
U+2300..U+23FF
Miscellaneous Technical
256
256
ทั่วไป
0 BMP
U+2400..U+243F
Control Pictures
64
39
ทั่วไป
0 BMP
U+2440..U+245F
Optical Character Recognition
32
11
ทั่วไป
0 BMP
U+2460..U+24FF
Enclosed Alphanumerics
160
160
ทั่วไป
0 BMP
U+2500..U+257F
Box Drawing
128
128
ทั่วไป
0 BMP
U+2580..U+259F
Block Elements
32
32
ทั่วไป
0 BMP
U+25A0..U+25FF
Geometric Shapes
96
96
ทั่วไป
0 BMP
U+2600..U+26FF
Miscellaneous Symbols
256
256
ทั่วไป
0 BMP
U+2700..U+27BF
Dingbats
192
192
ทั่วไป
0 BMP
U+27C0..U+27EF
Miscellaneous Mathematical Symbols-A
48
48
ทั่วไป
0 BMP
U+27F0..U+27FF
Supplemental Arrows-A
16
16
ทั่วไป
0 BMP
U+2800..U+28FF
Braille Patterns
256
256
อักษรเบรลล์
0 BMP
U+2900..U+297F
Supplemental Arrows-B
128
128
ทั่วไป
0 BMP
U+2980..U+29FF
Miscellaneous Mathematical Symbols-B
128
128
ทั่วไป
0 BMP
U+2A00..U+2AFF
Supplemental Mathematical Operators
256
256
ทั่วไป
0 BMP
U+2B00..U+2BFF
Miscellaneous Symbols and Arrows
256
253
ทั่วไป
0 BMP
U+2C00..U+2C5F
Glagolitic
96
96
Glagolitic
0 BMP
U+2C60..U+2C7F
Latin Extended-C
32
32
ละติน
0 BMP
U+2C80..U+2CFF
Coptic
128
123
คอปติก
0 BMP
U+2D00..U+2D2F
Georgian Supplement
48
40
จอร์เจีย
0 BMP
U+2D30..U+2D7F
Tifinagh
80
59
ทิฟินาค
0 BMP
U+2D80..U+2DDF
Ethiopic Extended
96
79
เอธิโอเปีย
0 BMP
U+2DE0..U+2DFF
Cyrillic Extended-A
32
32
ซีริลลิก
0 BMP
U+2E00..U+2E7F
Supplemental Punctuation
128
94
ทั่วไป
0 BMP
U+2E80..U+2EFF
CJK Radicals Supplement
128
115
อักษรจีน
0 BMP
U+2F00..U+2FDF
Kangxi Radicals
224
214
อักษรจีน
0 BMP
U+2FF0..U+2FFF
Ideographic Description Characters
16
12
ทั่วไป
0 BMP
U+3000..U+303F
CJK Symbols and Punctuation
64
64
จีน (15 ตัว), ฮันกึล (2 ตัว), ทั่วไป (43 ตัว), ใช้กับตัวอื่น (4 ตัว)
0 BMP
U+3040..U+309F
Hiragana
96
93
ฮิรางานะ (89 ตัว), ทั่วไป (2 ตัว), ใช้กับตัวอื่น (2 ตัว)
0 BMP
U+30A0..U+30FF
Katakana
96
96
คาตากานะ (93 ตัว), ทั่วไป (3 ตัว)
0 BMP
U+3100..U+312F
Bopomofo
48
43
ปอพอมอฟอ
0 BMP
U+3130..U+318F
Hangul Compatibility Jamo
96
94
ฮันกึล
0 BMP
U+3190..U+319F
Kanbun
16
16
ทั่วไป
0 BMP
U+31A0..U+31BF
Bopomofo Extended
32
32
ปอพอมอฟอ
0 BMP
U+31C0..U+31EF
CJK Strokes
48
36
ทั่วไป
0 BMP
U+31F0..U+31FF
Katakana Phonetic Extensions
16
16
คาตากานะ
0 BMP
U+3200..U+32FF
Enclosed CJK Letters and Months
256
255
ฮันกึล (62 ตัว), คาตากานะ (47 ตัว), ทั่วไป (146 ตัว)
0 BMP
U+3300..U+33FF
CJK Compatibility
256
256
คาตากานะ (88 ตัว), ทั่วไป (168 ตัว)
0 BMP
U+3400..U+4DBF
CJK Unified Ideographs Extension A
6,592
6,592
จีน
0 BMP
U+4DC0..U+4DFF
Yijing Hexagram Symbols
64
64
ทั่วไป
0 BMP
U+4E00..U+9FFF
CJK Unified Ideographs
20,992
20,992
อักษรจีน
0 BMP
U+A000..U+A48F
Yi Syllables
1,168
1,165
Yi
0 BMP
U+A490..U+A4CF
Yi Radicals
64
55
Yi
0 BMP
U+A4D0..U+A4FF
Lisu
48
48
Lisu
0 BMP
U+A500..U+A63F
Vai
320
300
Vai
0 BMP
U+A640..U+A69F
Cyrillic Extended-B
96
96
ซีริลลิก
0 BMP
U+A6A0..U+A6FF
Bamum
96
88
Bamum
0 BMP
U+A700..U+A71F
Modifier Tone Letters
32
32
ทั่วไป
0 BMP
U+A720..U+A7FF
Latin Extended-D
224
193
Latin (188 characters), Common (5 characters)
0 BMP
U+A800..U+A82F
Syloti Nagri
48
45
Syloti Nagri
0 BMP
U+A830..U+A83F
Common Indic Number Forms
16
10
ทั่วไป
0 BMP
U+A840..U+A87F
Phags-pa
64
56
อักษรพักส์-ปา
0 BMP
U+A880..U+A8DF
Saurashtra
96
82
Saurashtra
0 BMP
U+A8E0..U+A8FF
Devanagari Extended
32
32
เทวนาครี
0 BMP
U+A900..U+A92F
Kayah Li
48
48
Kayah Li (47 characters), Common (1 character)
0 BMP
U+A930..U+A95F
Rejang
48
37
Rejang
0 BMP
U+A960..U+A97F
Hangul Jamo Extended-A
32
29
ฮันกึล
0 BMP
U+A980..U+A9DF
Javanese
96
91
ชวา (90 ตัว), ทั่วไป (1 ตัว)
0 BMP
U+A9E0..U+A9FF
Myanmar Extended-B
32
31
พม่า
0 BMP
U+AA00..U+AA5F
Cham
96
83
จาม
0 BMP
U+AA60..U+AA7F
Myanmar Extended-A
32
32
พม่า
0 BMP
U+AA80..U+AADF
Tai Viet
96
72
ไทเวียด
0 BMP
U+AAE0..U+AAFF
Meetei Mayek Extensions
32
23
Meetei Mayek
0 BMP
U+AB00..U+AB2F
Ethiopic Extended-A
48
32
Ethiopic
0 BMP
U+AB30..U+AB6F
Latin Extended-E
64
60
Latin (56 characters), Greek (1 character), Common (3 characters)
0 BMP
U+AB70..U+ABBF
Cherokee Supplement
80
80
Cherokee
0 BMP
U+ABC0..U+ABFF
Meetei Mayek
64
56
Meetei Mayek
0 BMP
U+AC00..U+D7AF
Hangul Syllables
11,184
11,172
Hangul
0 BMP
U+D7B0..U+D7FF
Hangul Jamo Extended-B
80
72
Hangul
0 BMP
U+D800..U+DB7F
High Surrogates
896
0
Unknown
0 BMP
U+DB80..U+DBFF
High Private Use Surrogates
128
0
Unknown
0 BMP
U+DC00..U+DFFF
Low Surrogates
1,024
0
Unknown
0 BMP
U+E000..U+F8FF
Private Use Area
6,400
6,400
Unknown
0 BMP
U+F900..U+FAFF
CJK Compatibility Ideographs
512
472
Han
0 BMP
U+FB00..U+FB4F
Alphabetic Presentation Forms
80
58
Armenian (5 characters), Hebrew (46 characters), Latin (7 characters)
0 BMP
U+FB50..U+FDFF
Arabic Presentation Forms-A
688
631
อาหรับ (629 ตัว), ทั่วไป (2 ตัว)
0 BMP
U+FE00..U+FE0F
Variation Selectors
16
16
ผสม
0 BMP
U+FE10..U+FE1F
Vertical Forms
16
10
ทั่วไป
0 BMP
U+FE20..U+FE2F
Combining Half Marks
16
16
ซีริลลิก (2 ตัว), ผสม (14 ตัว)
0 BMP
U+FE30..U+FE4F
CJK Compatibility Forms
32
32
ทั่วไป
0 BMP
U+FE50..U+FE6F
Small Form Variants
32
26
ทั่วไป
0 BMP
U+FE70..U+FEFF
Arabic Presentation Forms-B
144
141
Arabic (140 characters), Common (1 character)
0 BMP
U+FF00..U+FFEF
Halfwidth and Fullwidth Forms
240
225
ฮันกึล (52 ตัว), คาตากานะ (55 ตัว), ละติน(52 ตัว), ทั่วไป (66 ตัว)
0 BMP
U+FFF0..U+FFFF
Specials
16
5
ทั่วไป
ข้อจำกัดและปัญหา
มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน
ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่ วินโดวส์เอ็นที , วินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการ ที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ UTF-8 มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา
การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น
อ้างอิง
แหล่งข้อมูลอื่น