WikiDer > Birlashgan Hangul kodeksi

Unified Hangul Code
Birlashgan Hangul kodeksi
Birlashtirilgan Hangul Code.svg
Birlashgan Hangul kodining joylashuvi
Taxalluslar (lar)Windows Code Page 949, IBM Code Page 1363
Til (lar)Koreys
StandartWHATWG kodlash standarti ("EUC-KR" nomi bilan)[1]
TasnifiKengaytirilgan ISO 646,[a] o'zgaruvchan kenglikdagi kodlash, CJK kodlash
UzaytiradiEUC-KR
Boshqa tegishli kodlash (lar)KPS 9566-2003, KPS 9566-2011
  1. ^ Terimning qat'iy ma'nosida emas, chunki ASCII baytlari iz baytlari sifatida ko'rinishi mumkin, ammo bu harf baytlari bilan cheklangan.

Birlashgan Hangul kodeksi (UHC),[2][a] yoki Kengaytirilgan Wansung,[4][b] ostida ham tanilgan Microsoft Windows kabi Kod sahifasi 949 (Windows-949, MS949 yoki noaniq CP949), bu Microsoft Windows kod sahifasi uchun Koreys tili. Bu Wansung kodining kengaytmasi (KS C 5601: 1987, sifatida kodlangan EUC-KR) barcha 11172 ni o'z ichiga oladi Hangul mavjud heceler Yoxab (KS C 5601: 1992 ilova 3).[4][2] Bu mos keladi oldindan tuzilgan heceler mavjud Unicode 2.0 va undan keyingi versiyalar.

Wansung Code-ning kamchiliklari shundaki, unda faqat o'ziga xos bo'lgan 2350 ta oldindan yaratilgan Hangul hecalari uchun kodlar beriladi. KS X 1001 (KS C 5601) kod punktlari (jami 11172 tadan, eskirgan jamodan foydalanishni hisobga olmaganda) va boshqalar sakkiz baytli kompozitsiya ketma-ketliklaridan foydalanishni talab qiladi, ular standartning ba'zi qisman bajarilishi bilan qo'llab-quvvatlanmaydi.[5] UHC buni KS X 1001 uchun ishlatiladigan kodlash maydonidan tashqarida topshiriqlar berish orqali zamonaviy jam yordamida tuzilgan barcha hecalar uchun yagona kodlarni berish orqali hal qiladi.

Bosh baytlar diapazoni kengaytirilgan 0x81-FE va iz baytlari diapazoni 0x41-5A, 0x61-7A va 0x81-FE ga kengaytirilgan (EUC-KR da ikkala diapazon 0xA1-FE). Qo'shimcha hangul uchun EUC-KR diapazonidan tashqaridagi kodlardan foydalaniladi.[6]

Terminologiya

Birlashgan Hangul kodi ro'yxatdan o'tmagan IANA Internet orqali ma'lumot almashish uchun standart sifatida.[7] Shu bilan bir qatorda o'z ichiga oladi UTF-8. Biroq, W3C/WHATWG Tomonidan ishlatiladigan kodlash standarti HTML5 "EUC-KR" ta'rifiga Birlashgan Hangul kodi kengaytmalarini kiritadi.[1]

Microsoft Windows-949-ga "ks_c_5601-1987" yorlig'ini beradi,[8][9] bu tegishli KS X 1001 o'zi (KS C 5601 KS X 1001 ning asl nomi).[10] WHATWG "ks_c_5601-1987" yorlig'ini "joylashtirilgan tarkibga mos" bo'lish niyatida "EUC-KR" bilan almashtirib muomala qiladi.[11] The Unicode konsortsiumi"OBSOLETE / EASTASIA" olib tashlangan xaritalar to'plamiga "KSC5601.TXT" deb nomlangan Birlashgan Hangul kodi uchun xaritalar kiritilgan bo'lib, 7-bitli KS X 1001 uchun avtomatik ravishda olingan xaritalar "KSX1001.TXT" ga kiritilgan.[12]

IBM kodining sahifasi 949 EUC-KR ning boshqa, boshqacha bog'liq bo'lmagan kengaytmasi. Unicode uchun xalqaro komponentlar (ICU) ushbu IBM kod sahifasiga murojaat qilish uchun "cp949", "949" yoki "ibm-949" dan foydalanadi,[13] va "ms949" yoki "windows-949" (yoki "ks_c_5601-1987" ning bir nechta variantlari) UHC ning Windows xaritalashiga murojaat qilish uchun.[14] Python, aksincha, "cp949", "949", "ms949" va "uhc" ni UHC yorlig'i sifatida taniydi va IBM-949 kodekini o'z ichiga olmaydi.[15] Kod sahifasi raqamini o'z ichiga olgan yorliqlardan WHATWG faqat "windows-949" ni taniydi.[11]

IBM kodining Unified Hangul Code uchun sahifasi chaqirildi Kod sahifasi 1363 (IBM-1363) yoki "Korean MS-Win". Bu kombinatsiyadir SBCS Kod sahifasi 1126 va DBCS Kod sahifasi 1362.[16][17][18][19][20] U 0x5C gacha bo'lgan bitta baytli xaritalashga ega Yutdi (U + 20A9);[21][22][23] Windows 0x5C dan U + 005C gacha xaritalar (. Uchun Unicode kod nuqtasi orqaga burish) ASCIIda bo'lgani kabi,[14] garchi shriftlar ko'pincha uni Won belgisi sifatida ko'rsatishadi.[24] To'lqinli chiziqni unikodli xaritalash (0xA1AD) ham farq qiladi, IBM xaritasi U + 301C ni qo'llab-quvvatlaydi,[25] Microsoft xaritasi U + 223C (Tilde Operator) ni qo'llab-quvvatlaydi.[26] UHC uchun IBM xaritasi ICUda "ibm-1363" sifatida mavjud,[21] ICU "windows-949" kodekasi esa ba'zi ICU manba kodlari izohlarida IBM-1261 deb nomlanadi.[27]

Izohlar

  1. ^ Koreys: 통합형 한통합형 코드[3], romanlashtirilganTonghabhyeong Hangeul Kodeu
  2. ^ Koreys: 확장 완성형, romanlashtirilganHwagjang Wanseonghyeong

Adabiyotlar

  1. ^ a b van Kesteren, Anne, "5. Indekslar (§ indeks EUC-KR)", Kodlash standarti, WHATWG
  2. ^ a b "INFO: Xangul (koreyscha) belgilar to'plami", Microsoft ko'magi, Microsoft
  3. ^ "한글 코드 에 대하여" (koreys tilida). W3C.
  4. ^ a b Tssigri, Djula (2002-06-18). "KSC va UHC".
  5. ^ Shin, Jungshik. "KS X 1001 (KS C 5601) va boshqa hangul kodlari nima?". Hangul & Internet in Korea. Savol-javob.
  6. ^ Lunde, Ken. "Ilova F: sotuvchini kodlash usullari" (PDF). CJKV ma'lumotlarini qayta ishlash (2-nashr). O'Reilly Media. ISBN 978-0-596-51447-1.
  7. ^ "Belgilar to'plamlari". Iana.org. Olingan 2017-01-11.
  8. ^ "Encoding.WindowsCodePage xususiyati - .NET Framework (joriy versiyasi)". MSDN. Microsoft.
  9. ^ "Kod sahifalarini identifikatorlari", Windows Dev Center, Microsoft
  10. ^ IBM; Unicode konsortsiumi. "convrtrs.txt". Unicode uchun xalqaro komponentlar. 59180.0.1-band. [...] KC C 5601 yoki shunga o'xshash nomlardan foydalanib EUC-KR yoki windows-949 ni belgilash juda noto'g'ri [...] Bu shunchaki 94 x 94 koreys kodi GL (MSB reset bilan) yoki GR (MSB set bilan) da chaqirilishi mumkin bo'lgan belgilar to'plami standarti.
  11. ^ a b van Kesteren, Anne. "4.2. Ismlar va yorliqlar". Kodlash standarti. WHATWG.
  12. ^ Jungshik Shin. "KSX1001.TXT: KS X 1001 Unicode jadvaliga". Unicode, Inc.
  13. ^ "ibm-949_P110-1999 (taxallus cp949)", Konverter Explorer, Unicode uchun xalqaro komponentlar
  14. ^ a b "windows-949-2000", Konverter Explorer, Unicode uchun xalqaro komponentlar
  15. ^ "kodeklar - kodek registrlari va asosiy sinflar § standart kodlashlar". Python 3.7.2 hujjatlari. Python dasturiy ta'minot fondi.
  16. ^ "Kodlangan belgilar to'plami identifikatorlari - CCSID 1363", IBM Globalizatsiya, IBM, dan arxivlangan asl nusxasi 2014-11-29 kunlari
  17. ^ "Kod sahifasi 1126 ma'lumot hujjati". Arxivlandi asl nusxasi 2017-01-16.
  18. ^ "CCSID 1126 ma'lumot hujjati". Arxivlandi asl nusxasi 2016-03-27 da.
  19. ^ "Kod sahifasi 1362 ma'lumot hujjati". Arxivlandi asl nusxasi 2017-03-17.
  20. ^ "CCSID 1362 ma'lumot hujjati". Arxivlandi asl nusxasi 2016-03-27 da.
  21. ^ a b "ibm-1363", Konverter Explorer, Unicode uchun xalqaro komponentlar
  22. ^ Kod sahifasi CPGID 01126 (pdf) (PDF), IBM
  23. ^ Kod sahifasi CPGID 01126 (txt), IBM
  24. ^ Kaplan, Maykl S. (2005-09-17), "Qachon orqaga burish teskari emas?", Barchasini saralash
  25. ^ "ibm-1363_P110-1997 (qo'rg'oshin bayti A1)". ICU namoyishi - Konverter Explorer. Unicode uchun xalqaro komponentlar.
  26. ^ "windows-949-2000 (qo'rg'oshin bayti A1)". ICU namoyishi - Konverter Explorer. Unicode uchun xalqaro komponentlar.
  27. ^ Malumot uchun qarang, ucnv_lmb.cpp (Brendan Myurrey, Jim Snayder-Grant), bu erda 0x11 etakchi bayti ta'rifidan keyin "koreyscha: ibm-1261" ga ishora qilmoqda. ULMBCS_GRP_KO, lekin u xaritada ko'rsatilgan "windows-949" ICU kodek OptGroupByteToCPName keyinchalik faylda qator.

Tashqi havolalar