완성형/중복 한자

주의. 이 문서에서는 통합 한자와 호환용 한자를 구분해 사용하고 있습니다.

크롬으로 이 문서를 편집할 경우 호환용 한자가 모두 통합 한자로 변환되는 문제가 있으므로, 크롬으로는 절대 편집하지 마십시오.

1 개요

KS X 1001은 독음이 여러 개인 일부 한자를 그 독음 수만큼 중복 배당하는 병크[1]를 저질렀다. 의 경우 '락', '악', '요' 셋에다가 두음 법칙을 적용한 '낙'까지 해서 총 4개의 코드에 중복 배당돼 있다.

일본이나 중국, 중화민국[2], 심지어 북한조차도 이런 식으로 한자를 중복 배당하지 않았다. 대신 일본은 없는 한자를 배당했고, 북한은 한글 아홉 자를 중복 배당했다. 만약 일본이 JIS 코드에 완성형과 같은 식으로 한자를 독음 수만큼 중복 배당했다면 JIS 코드와 유니코드에 生의 호환용 한자가 수십 개나 존재했을 것이다.

2 비판 및 문제점, 결점

이와 같이 발음이 다르다고 같은 문자를 일부러 중복 배당하는 것은 영어에서 father, that, about 등의 a 발음이 모두 다르니 a를 여러 번 중복 배당하는 것[3]한국어에서 '물기'의 '고'와 '불기'의 '고' 발음이 다르니 '고'를 두 번 중복 배당하는 것과 다를 바가 없다. 그 어떤 문자 코드도 발음이 다르다고 문자를 중복 배당하지는 않았는데(애당초 문자 코드는 문자 처리를 위해 존재하지 발음을 위해 존재하는 것이 아니다), 왜 KS 코드는 한자에 대해서만 그렇게 했는지는 상식적으로 이해할 수 없다. 즉 발음이 다르다고 같은 문자를 일부러 중복 배당하는 것은 정말로 생각이 없는 병크였다고 할 수 있다.

이로 인해 생기는 문제점 및 결점은 다음과 같다.

첫째, 똑같아 보이는 문자가 내부 코드상으로는 다르게 처리되다 보니 문자열 검색이나 비교 등에서 오히려 불편을 초래한다(樂(낙), 樂(락), 樂(악), 樂(요) 이 넷은 모두 코드가 다르다!). 실제로 이 병크의 결과로 이런 일이 생기기도 하며, 이 글에서 언급하는 바와 같이 온라인 서점에서 한자가 들어간 책 제목을 검색할 때도 문제가 될 수 있다(책 제목에 樂이 들어가 있으면 '낙'으로도 '락'으로도 '악'으로도 '요'로도 검색해 봐야 한다).

또한 같은 한자가 여러 개의 코드 값을 가진다는 것을 모르는 사람이 대부분이라는 것이다. 예를 들어, 年金(연금)이라는 단어를 입력할 때 누군가는 '연금'으로 변환해서 입력할 수도 있고 누군가는 年의 본 음가인 '년금'으로 변환해서 입력할 수도 있다(그리고 이 중복 한자 문제를 아는 사람은 '년김'으로 변환해서 입력할 수도 있다). 즉 작업자가 누구냐에 따라 똑같은 한자 단어를 다른 코드로 입력하게 되고 만다.

둘째, 이 중복 배당이 웃긴 것이, 모든 독음을 커버하는 것도 아니라는 것이다. 初八日(초일), 六月(월), 十月(월), 瓜(과), 困難(곤), 娑婆(사), 唵川面(천면)[4], 邯鄲之夢(단지몽), 白川郡(천군)[5] 등의 '파', '유', '시', '모', '란', '바', '옴', '한', '배' 등에는 별개의 코드가 주어지지 않았다. 일단 대부분 활음조 현상으로 인한 음으로 굳이 추가할 이유가 없는 음이긴 한데, 이렇게 되면 異가 '리'에도, 寧이 '령'에도 배당된 것이 이상해진다.[6] 즉 이도 저도 아닌 어정쩡한 결과를 낳은 셈(…).

게다가 일관성조차 없다. 똑같은 독음을 가진 한자인데 어떤 것은 두음 법칙을 적용해서 중복 배당하고 어떤 것은 두음 법칙도 적용하지 않고 중복 배당하지도 않았다. 예를 들어 완성형에서 '력'이라는 독음을 가진 한자는 力, 曆, 歷, 瀝, 礫, 轢, 靂이 존재하는데, 이 중에서 力, 曆, 歷, 轢은 두음 법칙을 적용해 '력'뿐만 아니라 '역'이라는 독음으로도 중복 배당돼 있지만, 瀝, 礫, 靂은 오로지 '력'으로만 존재하고 '역'으로는 존재하지 않는다. 그래서 力學(역학)의 力은 '역'으로 변환해서 (호환용 한자를) 입력할 수 있지만 礫巖(역암)의 礫은 무조건 '력'으로만 변환해야 한다. 정말 이뭐병스럽지 않을 수 없다(…).

비슷한 예로 법조계에서는 表見代理를 어떻게 읽을 것인가를 놓고 '표대리'냐 '표대리'냐는 논란이 반세기 넘도록 이어져 왔다. 그러길래 애초부터 現을 썼어야지… 그런데 어째 논란이 식기는커녕 더 뜨거워지고 있다. 다른 사례로는 更改가 있다. 개냐 개냐인데, 이것은 전자와 달리 한자 쓰기 자체의 문제는 아니다. 전자나 후자나 한자 고르는 걸로 깊은 빡침을 유발하게 하는 건 똑같네…

3 유니코드에서의 처리

유니코드는 한자 하나당 한 코드를 부여하는 것이 원칙이나, KS X 1001과의 호환을 위해 KS X 1001의 중복 한자들 중 하나만을 통합 한자 영역(U+4E00 ~ U+9FFF)에 넣고 나머지는 호환용 한자 영역(U+F900 ~ U+FAFF)에 넣었다. 樂의 경우 '악'에 해당되는 것만 통합 한자에 들어갔고 나머지 셋은 호환용 한자에 들어갔다.

유니코드는 기존 문자 집합과의 왕복 변환(round trip)을 위해서만 호환용 한자의 사용을 허용하고 있고, 다른 용도로 사용하는 것은 권장하지 않고 있다. 따라서 나무위키에서 한자 문서를 작성할 때는 통합 한자만을 사용하는 것을 원칙으로 하고 있다. 즉 樂의 경우 樂(악, U+6A02)만을 사용하고 樂(낙, U+F914), 樂(락, U+F95C), 樂(요, U+F9BF)는 사용하지 않는다. 호환용 한자를 사용하면 괜히 불편만 초래하니, 웬만하면 통합 한자만을 쓰도록 하자. 참고로 크롬이나 미디어위키에서는 호환용 한자를 입력하면 아예 통합 한자로 자동으로 바뀌며, 호환용 한자를 그대로 입력할 수 없다. 이 문서를 크롬으로 편집하거나, 이 문서의 내용을 복사해 미디어위키에 붙여 넣으면 호환용 한자가 모두 통합 한자로 자동으로 바뀌게 된다.

미디어위키에다가 호환용 한자를 집어넣고 미리 보기를 실행하면 자동으로 통합 한자로 바뀌므로, 호환용 한자 → 통합 한자 자동 변환을 원하는 사람들은 미디어위키에 변환할 문자열을 넣고 미리 보기를 한 뒤 그 결과물을 복사해서 쓰는 방법도 있다.

만약 한국어 IME로 일본어나 중국어를 입력할 경우[7], 호환용 한자를 쓰면 제대로 보이지 않을 수도 있으므로 통합 한자만을 사용하는 것이 바람직하다. 아래 리스트에서 '통합 한자' 줄에 있는 음가로 변환해야 한다(예: 樂의 경우 '악'으로만 변환해야 하며, 年金의 경우 '년김'으로만 변환해야 함).

나무위키에서 호환용 한자를 검색했을 때 검색 결과에 이 문서와 의도적으로 호환용 한자를 쓴 문서 유니코드/F000~FFFF, 한자/KS X 1001, 한자/BMP밖에 나오지 않는 것이 가장 이상적이다.

4 중복 한자 목록

모두 268자로, '두음'이 203자(75.7%), '일반'이 65자(24.3%)이다. 한자 268자 중복하는 대신 한글이나 더 넣지

종류가 '두음'일 경우 두음 법칙으로 인해 중복된 한자이다. 이 경우 호환용 한자를 입력하지 않으려면 두음 법칙이 적용되지 않은 본래의 독음으로 변환하면 된다. 종류가 '일반'이라면 그냥 외워야 한다(…).

아래 문단의 내용은 KS X 1001(완성형)에 중복 배당된 한자 목록이다.

4.1 두 번 중복

왠지는 알 수 없지만, 아래아 한글의 경우 2007까지만 해도 串, 金, 復, 不의 매핑이 반대로 되어 있었다.[8] 유니코드 표준 매핑은 아래 표에 나온 그대로이다.

통합 한자호환 한자종류
賈 8CC8 가賈 F903 고일반
降 964D 강降 FA09 항일반
見 898B 견見 FA0A 현일반
更 66F4 경更 F901 갱일반
契 5951 계契 F909 글일반
串 4E32 곶串 F905 관일반
廓 5ED3 곽廓 FA0B 확일반
句 53E5 구句 F906 귀일반
豈 8C48 기豈 F900 개일반
金 91D1 김金 F90A 금일반
拏 62CF 나拏 F95B 라일반
諾 8AFE 낙諾 F95D 락일반
奈 5948 내奈 F90C 나일반
女 5973 녀女 F981 여두음
年 5E74 년年 F98E 연두음
撚 649A 년撚 F991 연두음
秊 79CA 년秊 F995 연두음
念 5FF5 념念 F9A3 염두음
捻 637B 념捻 F9A4 염두음
怒 6012 노怒 F960 로일반
尿 5C3F 뇨尿 F9BD 요두음
杻 677B 뉴杻 F9C8 유두음
紐 7D10 뉴紐 F9CF 유두음
泥 6CE5 니泥 F9E3 이두음
匿 533F 닉匿 F9EB 익두음
溺 6EBA 닉溺 F9EC 익두음
茶 8336 다茶 F9FE 차일반
丹 4E39 단丹 F95E 란일반
糖 7CD6 당糖 FA03 탕일반
宅 5B85 댁宅 FA04 택일반
度 5EA6 도度 FA01 탁일반
讀 8B80 독讀 F95A 두일반
洞 6D1E 동洞 FA05 통일반
喇 5587 라喇 F90B 나두음
懶 61F6 라懶 F90D 나두음
癩 7669 라癩 F90E 나두음
羅 7F85 라羅 F90F 나두음
蘿 863F 라蘿 F910 나두음
螺 87BA 라螺 F911 나두음
裸 88F8 라裸 F912 나두음
邏 908F 라邏 F913 나두음
洛 6D1B 락洛 F915 낙두음
烙 70D9 락烙 F916 낙두음
珞 73DE 락珞 F917 낙두음
落 843D 락落 F918 낙두음
酪 916A 락酪 F919 낙두음
駱 99F1 락駱 F91A 낙두음
亂 4E82 란亂 F91B 난두음
卵 5375 란卵 F91C 난두음
欄 6B04 란欄 F91D 난두음
爛 721B 란爛 F91E 난두음
蘭 862D 란蘭 F91F 난두음
鸞 9E1E 란鸞 F920 난두음
嵐 5D50 람嵐 F921 남두음
濫 6FEB 람濫 F922 남두음
藍 85CD 람藍 F923 남두음
襤 8964 람襤 F924 남두음
拉 62C9 랍拉 F925 납두음
臘 81D8 랍臘 F926 납두음
蠟 881F 랍蠟 F927 납두음
廊 5ECA 랑廊 F928 낭두음
朗 6717 랑朗 F929 낭두음
浪 6D6A 랑浪 F92A 낭두음
狼 72FC 랑狼 F92B 낭두음
郞 90DE 랑郎 F92C 낭[9]두음
來 4F86 래來 F92D 내두음
冷 51B7 랭冷 F92E 냉두음
掠 63A0 략掠 F975 약두음
略 7565 략略 F976 약두음
亮 4EAE 량亮 F977 양두음
兩 5169 량兩 F978 양두음
凉 51C9 량凉 F979 양두음
梁 6881 량梁 F97A 양두음
糧 7CE7 량糧 F97B 양두음
良 826F 량良 F97C 양두음
諒 8AD2 량諒 F97D 양두음
量 91CF 량量 F97E 양두음
勵 52F5 려勵 F97F 여두음
呂 5442 려呂 F980 여두음
廬 5EEC 려廬 F982 여두음
旅 65C5 려旅 F983 여두음
濾 6FFE 려濾 F984 여두음
礪 792A 려礪 F985 여두음
閭 95AD 려閭 F986 여두음
驪 9A6A 려驪 F987 여두음
麗 9E97 려麗 F988 여두음
黎 9ECE 려黎 F989 여두음
力 529B 력力 F98A 역두음
曆 66C6 력曆 F98B 역두음
歷 6B77 력歷 F98C 역두음
轢 8F62 력轢 F98D 역두음
憐 6190 련憐 F98F 연두음
戀 6200 련戀 F990 연두음
漣 6F23 련漣 F992 연두음
煉 7149 련煉 F993 연두음
璉 7489 련璉 F994 연두음
練 7DF4 련練 F996 연두음
聯 806F 련聯 F997 연두음
蓮 84EE 련蓮 F999 연두음
輦 8F26 련輦 F998 연두음
連 9023 련連 F99A 연두음
鍊 934A 련鍊 F99B 연두음
列 5217 렬列 F99C 열두음
劣 52A3 렬劣 F99D 열두음
烈 70C8 렬烈 F99F 열두음
裂 88C2 렬裂 F9A0 열두음
廉 5EC9 렴廉 F9A2 염두음
殮 6BAE 렴殮 F9A5 염두음
簾 7C3E 렴簾 F9A6 염두음
獵 7375 렵獵 F9A7 엽두음
令 4EE4 령令 F9A8 영두음
囹 56F9 령囹 F9A9 영두음
嶺 5DBA 령嶺 F9AB 영두음
怜 601C 령怜 F9AC 영두음
玲 73B2 령玲 F9AD 영두음
羚 7F9A 령羚 F9AF 영두음
聆 8046 령聆 F9B0 영두음
鈴 9234 령鈴 F9B1 영두음
零 96F6 령零 F9B2 영두음
靈 9748 령靈 F9B3 영두음
領 9818 령領 F9B4 영두음
例 4F8B 례例 F9B5 예두음
禮 79AE 례禮 F9B6 예두음
醴 91B4 례醴 F9B7 예두음
隷 96B7 례隸 F9B8 예[10]두음
勞 52DE 로勞 F92F 노두음
擄 64C4 로擄 F930 노두음
櫓 6AD3 로櫓 F931 노두음
爐 7210 로爐 F932 노두음
盧 76E7 로盧 F933 노두음
老 8001 로老 F934 노두음
蘆 8606 로蘆 F935 노두음
虜 865C 로虜 F936 노두음
路 8DEF 로路 F937 노두음
露 9732 로露 F938 노두음
魯 9B6F 로魯 F939 노두음
鷺 9DFA 로鷺 F93A 노두음
碌 788C 록碌 F93B 녹두음
祿 797F 록祿 F93C 녹두음
綠 7DA0 록綠 F93D 녹두음
菉 83C9 록菉 F93E 녹두음
錄 9304 록錄 F93F 녹두음
鹿 9E7F 록鹿 F940 녹두음
論 8AD6 론論 F941 논두음
壟 58DF 롱壟 F942 농두음
弄 5F04 롱弄 F943 농두음
籠 7C60 롱籠 F944 농두음
聾 807E 롱聾 F945 농두음
牢 7262 뢰牢 F946 뇌두음
磊 78CA 뢰磊 F947 뇌두음
賂 8CC2 뢰賂 F948 뇌두음
雷 96F7 뢰雷 F949 뇌두음
了 4E86 료了 F9BA 요두음
僚 50DA 료僚 F9BB 요두음
寮 5BEE 료寮 F9BC 요두음
料 6599 료料 F9BE 요두음
燎 71CE 료燎 F9C0 요두음
療 7642 료療 F9C1 요두음
蓼 84FC 료蓼 F9C2 요두음
遼 907C 료遼 F9C3 요두음
龍 9F8D 룡龍 F9C4 용두음
壘 58D8 루壘 F94A 누두음
屢 5C62 루屢 F94B 누두음
樓 6A13 루樓 F94C 누두음
淚 6DDA 루淚 F94D 누두음
漏 6F0F 루漏 F94E 누두음
累 7D2F 루累 F94F 누두음
縷 7E37 루縷 F950 누두음
陋 964B 루陋 F951 누두음
劉 5289 류劉 F9C7 유두음
柳 67F3 류柳 F9C9 유두음
流 6D41 류流 F9CA 유두음
溜 6E9C 류溜 F9CB 유두음
琉 7409 류琉 F9CC 유두음
留 7559 류留 F9CD 유두음
硫 786B 류硫 F9CE 유두음
類 985E 류類 F9D0 유두음
六 516D 륙六 F9D1 육두음
戮 622E 륙戮 F9D2 육두음
陸 9678 륙陸 F9D3 육두음
倫 502B 륜倫 F9D4 윤두음
崙 5D19 륜崙 F9D5 윤두음
淪 6DEA 륜淪 F9D6 윤두음
輪 8F2A 륜輪 F9D7 윤두음
律 5F8B 률律 F9D8 율두음
慄 6144 률慄 F9D9 율두음
栗 6817 률栗 F9DA 율두음
隆 9686 륭隆 F9DC 융두음
勒 52D2 륵勒 F952 늑두음
肋 808B 륵肋 F953 늑두음
凜 51DC 름凜 F954 늠두음
凌 51CC 릉凌 F955 능두음
稜 7A1C 릉稜 F956 능두음
綾 7DBE 릉綾 F957 능두음
菱 83F1 릉菱 F958 능두음
陵 9675 릉陵 F959 능두음
利 5229 리利 F9DD 이두음
吏 540F 리吏 F9DE 이두음
履 5C65 리履 F9DF 이두음
李 674E 리李 F9E1 이두음
梨 68A8 리梨 F9E2 이두음
理 7406 리理 F9E4 이두음
痢 75E2 리痢 F9E5 이두음
罹 7F79 리罹 F9E6 이두음
裏 88CF 리裏 F9E7 이두음
裡 88E1 리裡 F9E8 이두음
里 91CC 리里 F9E9 이두음
離 96E2 리離 F9EA 이두음
吝 541D 린吝 F9ED 인두음
燐 71D0 린燐 F9EE 인두음
璘 7498 린璘 F9EF 인두음
藺 85FA 린藺 F9F0 인두음
隣 96A3 린隣 F9F1 인두음
鱗 9C57 린鱗 F9F2 인두음
麟 9E9F 린麟 F9F3 인두음
林 6797 림林 F9F4 임두음
淋 6DCB 림淋 F9F5 임두음
臨 81E8 림臨 F9F6 임두음
立 7ACB 립立 F9F7 입두음
笠 7B20 립笠 F9F8 입두음
粒 7C92 립粒 F9F9 입두음
磻 78FB 반磻 F964 번일반
復 5FA9 복復 F966 부일반
輻 8F3B 복輻 FA07 폭일반
不 4E0D 부不 F967 불일반
北 5317 북北 F963 배일반
殺 6BBA 살殺 F970 쇄일반
狀 72C0 상狀 F9FA 장일반
塞 585E 새塞 F96C 색일반
索 7D22 색索 F96A 삭일반
省 7701 성省 F96D 생일반
數 6578 수數 F969 삭일반
拾 62FE 습拾 F973 십일반
識 8B58 식識 F9FC 지일반
什 4EC0 십什 F9FD 집일반
惡 60E1 악惡 F9B9 오일반
若 82E5 약若 F974 야일반
易 6613 역易 F9E0 이일반
葉 8449 엽葉 F96E 섭일반
阮 962E 완阮 F9C6 원일반
異 7570 이異 F962 리일반
咽 54BD 인咽 F99E 열일반
刺 523A 자刺 F9FF 척일반
炙 7099 자炙 F9FB 적일반
切 5207 절切 FA00 체일반
辰 8FB0 진辰 F971 신일반
車 8ECA 차車 F902 거일반
參 53C3 참參 F96B 삼일반
拓 62D3 척拓 FA02 탁일반
沈 6C88 침沈 F972 심일반
便 4FBF 편便 F965 변일반
暴 66B4 폭暴 FA06 포일반
泌 6CCC 필泌 F968 비일반
行 884C 행行 FA08 항일반
瑩 7469 형瑩 F9AE 영일반
滑 6ED1 활滑 F904 골일반
暈 6688 훈暈 F9C5 운일반

4.2 세 번 중복

통합 한자호환 한자 1호환 한자 2종류 1종류 2
龜 9F9C 구龜 F907 귀龜 F908 균일반일반
寧 5BE7 녕寧 F95F 령寧 F9AA 영일반두음
說 8AAA 설[11]說 F96F 세說 F9A1 열일반일반
率 7387 솔率 F961 률率 F9DB 율일반두음

4.3 네 번 중복

통합 한자호환 한자 1호환 한자 2호환 한자 3종류 1종류 2종류 3
樂 6A02 악樂 F914 낙樂 F95C 락樂 F9BF 요두음일반일반
  1. 똑같은 문자를 의도적으로 여러 개 배당하면 정보 처리에 혼란만 주기 때문에 충분히 병크라고 할 수 있다.
  2. 다만 대만의 Big5 문자 집합에는 한자 두 글자가 두 번씩 배당돼 있는데(兀: 0xA461, 0xC94A / 嗀: 0xDCD1, 0xDDFC), 이는 한국의 완성형과는 달리 의도적으로 중복 배당한 것이 아니라 문자 집합을 만드는 과정에서 생긴 실수이다. 저 두 글자의 경우, Big5 문자 집합에서 코드가 앞쪽인 것(0xA461, 0xDCD1)은 통합 한자에 들어갔고(兀: U+5140, 嗀: U+55C0) 코드가 뒤쪽인 것(0xC94A, 0xDDFC)은 호환용 한자(兀: U+FA0C, 嗀: U+FA0D)에 들어갔다.
  3. 유니코드의 A(U+0041, 라틴 문자 대문자 에이), Α(U+0391, 그리스 문자 대문자 알파), А(U+0410, 키릴 문자 대문자 아)와 같은 경우는 속하는 문자 체계가 다르고 개별 문자 자체가 다른 문자이기 때문에 별도의 글자로 배당된 것이고(가짜동족어와 비슷하다고 보면 된다), 같은 문자 체계의 같은 문자가 중복 배당된 것이 아니다. 한글 자모 ㅁ(미음)과 한자 口(입 구)가 다른 문자이고 둘에 별도의 코드가 주어진 것과 같다.
  4. 전라남도 강진군에 있는 면.
  5. 북한 황해남도의 행정구역.
  6. 異→리는 '지리산'에, 寧→령은 '무령왕', '의령군' 등에 쓰인다.
  7. 물론 일본어나 중국어를 한국어 IME로 입력하는 것 자체가 권장되지는 않는다.
  8. 한/글 2010에서는 저 네 글자의 매핑이 유니코드 표준 매핑대로 고쳐졌다. 그래서 한/글 2010부터는 저 네 글자를 한글로 바꾸고자 할 경우 어떻게 바꿀지를 묻는다. 한/글 2007 이하 버전으로 작성된 글과의 호환성 또는 한/글 외의 환경에서 작성된 글과의 호환성을 위해서인 듯하다.
  9. 유니코드에는 이 U+F92C 郎의 매핑이 올바른 U+90DE 郞가 아니라 U+90CE 郎로 잘못되어 있다. 이 매핑은 고칠 수 없기 때문에, U+FA2E 郞에 이 글자가 올바른 매핑(U+90DE 郞)으로 다시 배당되었다.
  10. 유니코드에는 이 U+F9B8 隸의 매핑이 올바른 U+96B7 隷이 아니라 U+96B8 隸로 잘못되어 있다. 이 매핑은 고칠 수 없기 때문에, U+FA2F 隷에 이 글자가 올바른 매핑(U+96B7 隷)으로 다시 배당되었다.
  11. 신자체를 위한 説(U+8AAC)이 따로 배당되어 있는데, 稅(U+7A05)도 마찬가지로 신자체를 위한 税(U+7A0E)가 따로 배당되어 있다. 그런데 사실 같은 글자들이다. 이보다 훨씬 더 엉망(?)인 益, 溢이 하나의 코드를 쓰는데도 말이다. 특히 益은 이들과 거꾸로 되어 있다. 통합 한자인 益(U+76CA)이 신자체로 활용되는 반면 호환용 한자에 있는 益(U+FA17)은 구자체로 되어 있다.