UNICODE PRIVATE FAQ 0.1 (2004.08.03) by redfrog@jitco.net
----------------------------------------------------------------------------
A000 : character set, code set, encoding, codepage가 뭡니까?
A001 : MBCS, SBCS, DBCS가 뭡니까?
A002 : i18n, l10n이 뭡니까?
A003 : 유니코드가 뭡니까?
A004 : 유니코드 UCS2에서 UTF8로 변환은 어떻게 하나요?
A005 : windows 9x와 windows NT계열 OS의 차이.
A006 : C/C++의 표준 문자열정의.
A007 : MFC의 TCHAR.
A008 : "한글abc"가 유니코드로 써있다면 한글과 영어 구분은 어떻게 해요.
A009 : 중국어는 유니코드에서 어떻게 다루나요?
A010 : 유니코드와 파일
A011 : db에 저장하려면 또 그 dbms가 쓰는 유니코드로 바꿔야한다는데 사실인가요?
A012 : database에서는 어떻게 다루나요?
A013 : 참조할 만한 자료들.
----------------------------------------------------------------------------
이것을 저는 UTF8로, 즉 8비트로 변환을 하고자 하는데 어떻게 하면 될까요?
============================================================================
A000 : character set, code set, character encoding, codepage가 뭡니까?
----------------------------------------------------------------------------
character set이란 문자의 집합입니다. 단 이때 각문자에는 숫자코드가 부여됩니다.
그렇지만 코드숫자가 컴퓨터상에서 어떻게 표현되는 가는 정해지지 않은 상태라고
보면 됩니다.
encoding이란 character set에 좀더 제약이 강해서 컴퓨터상에서 어떻게 표현 되는가까지를
정해진 상태의 문자의 집합입니다. 같은 그림이라도 압축방법에 따라 gif, png,
bmp등등의 파일형식이 있듯이 code set과 encoding의 차이를 이해할 수도 있을
겁니다. 실제 예를 들면 완성형한글인 KSC5601 codeset은 UNIX에서는 euc-kr이란
encoding으로 표현되고 DOS에서는 codeset 949란 encoding으로 표현됩니다.
오래전에는 character set과 character encoding은 같은 말이었습니다.
그러나 언젠가 부터 시스템의 종류도 많아지고 다국어시스템의 지원등등 여러여건들에
의해 character set에서 부터 character encoding이 분리된 것이죠.
code set이란 말은 어쩔 때는 character set의 의미로 어쩔 때는 encoding의
의미로 사용됩니다. 그렇다 보니 문맥을 보고서 적당히 해석해서 사용을 해야 합니다.
codepage는 IBM에서 사용하던(?) 말로 encoding과 같은 것으로 보면됩니다.
MICROSOFT에서 DOS를 만들때 IBM과 같이 만들었기 때문에 MICROSOFT에서는
codepage라는 말을 많이 사용합니다.
============================================================================
A001 : MBCS, SBCS, DBCS가 뭡니까?
----------------------------------------------------------------------------
MBCS이란 Multibyte code Set으로 하나의 문자를 표현하는 code가 문자에 따라
한 바이트로도 여러 개의 바이트로도 표현되는 encoding을 의미합니다.
완성형 한글의 경우 영문은 1바이트로 한글/한자는 두 바이트로 표현됩니다.
SBCS란 Singlebyte code Set으로 하나의 문자를 표현하는 code가 항상 한 바이트로
표현될 수 있는 encoding을 의미합니다.
DBCS는 Double Byte code Set으로 하나의 문자를 표현하는 code가 한 바이트나
두 바이트인 encoding을 의미합니다.
windows환경에서는 SBCS와 DBCS가 MBCS의 특수한 경우로 처리됩니다.
============================================================================
A002 : l10n, i18n이 뭡니까?
----------------------------------------------------------------------------
l10n은 localization(지역화)의 약칭입니다. 개발자들이 긴 낱말이 싫어서 약어로
사용하는 말입니다. 소프트웨어가 localization되어있다는 말은 소프트웨어를
사용하는 사용자를 위해 한 언어에 맞추어 개발이 되어있다는 겁니다. 그래서
이 경우에는 한번에 다중언어를 사용할 수 없습니다.
i18n은 internationalization(국제화)의 약칭입니다. software가
internationalization되었다는 말을 들을려면 여러언어를 예를 들면 한국어든
중국어든 동시에 입력해서 사용할 수 있어야 합니다.
multiligual system이란 말과 i18n system은 동일한 말입니다.
============================================================================
A003 : 유니코드가 뭡니까?
----------------------------------------------------------------------------
영문권에서 i18n을 위해서 만든 character set입니다.
유니코드가 나오기 이전에는 i18n system을 만들기가 어려웠습니다. 왜냐하면
여러언어를 포함하는 하나의 단일 character set이 없었기 때문입니다. 그래서
예전에는 여러 character set을 포함하는 가상의 character set을 각 소프트웨어회사마다
내부적으로 만들어서 사용하였습니다. 그러다보니 호환이 잘 안되겠지요.
그래서 유니코드 콘소시엄을 결성하여 모두가 동의하는 문자셋을 만들게 되었습니다.
이것이 바로 유니코드입니다. 유니코드에서 정의하는 character set은 UCS2와
UCS4가 있습니다. 우리가 보통 일반 프로그램을 개발할 때는 UCS2를 기반으로
만들게 됩니다. UCS4는 산스크리트어나 옛 이집트 고어와 같은 것까지 포함하는
것으로 알고 있습니다. 그러므로 보통 유니코드라고 말할 때는 UCS2를 지칭합니다.
UCS2/UCS4는 character set이면서 encoding으로도 존재합니다. 이 encoding의
특징은 UCS2경우에는 영문을 포함한 모든 문자가 두 바이트로 표현되고 UCS4경우에는
네 바이트로 표현됩니다. 이렇게 고정된 길이의 encoding을 쓰면 장점은
문자열내의 특정 문자를 index로 쉽게 접근할 수 있다는 것입니다. MBCS처럼
문자마다 길이가 다른 경우에는 n번째 문자를 접근하려면 문자열의 처음부터
검색을 해야 한다는 점을 생각한다면 문자열처리에 잇점이 있겠지요.
그러나 UCS2 encoding에 장점만 있는 것은 아닙니다. 문제는 기존의 ASCII기반으로
된 모든 소프트웨어와 데이타베이스를 UCS2로 업그레이드해야만 UCS2와 호환된다는
겁니다. Y2K보다 더 황당한 비용이 발생하겠지요. 그래서 이러한 단점을
보완하기 위한 encoding이 UTF7, UTF8입니다. 이 encoding들의 특징은 기존 MBCS처럼
한문자가 1바이트에서 여러바이트를 가질 수 있습니다. 이 경우 encoding의 디자인이
기존 ascii파일은 utf8 encoding을 하더라도 차이가 없도록 되어 있습니다. 즉 ascii파일은
그냥 utf8 encoding이 되어있다고 가정해도 상관없는 겁니다.
그래서 실제적으로 프로그램이 유니코드를 지원한다고 하면 내부적으로는 UCS2/UCS4 encoding을
사용하고 파일/데이타베이스 같은 외부자원에 대해서는 UTF7/UTF8과 같은 encoding을
사용합니다. 즉 혼용해서 사용하는 겁니다.
============================================================================
A004 : 유니코드 UCS2에서 UTF8로 변환은 어떻게 하나요?
----------------------------------------------------------------------------
WINDOWS API에서 보면 WideCharToMultiByte라는 함수가 있습니다.
이 함수의 인터페이스는 다음과 같습니다.
int WideCharToMultiByte(
UINT CodePage, // code page
DWORD dwFlags, // performance and mapping flags
LPCWSTR lpWideCharStr, // wide-character string
int cchWideChar, // number of chars in string
LPSTR lpMultiByteStr, // buffer for new string
int cbMultiByte, // size of buffer
LPCSTR lpDefaultChar, // default for unmappable chars
LPBOOL lpUsedDefaultChar // set when default char used
);
이 함수의 첫번째 매개변수 CodePage에 CP_UTF8를 할당하여 사용합니다.
============================================================================
A005 : windows 9x와 windows NT계열 OS의 차이.
============================================================================
windows 9x (windows 95,98,me)계열은 windows api를 표준적으로 ANSI 버젼을 지원합니다.
즉 unicode를 windows api에서 직접지원하지 않고 mbcs만을 직접지원합니다.
이 때 ANSI는 MBCS라고 생각해도 무방합니다.
windows NT (windows NT, windows 2000, windows XP등등)계열은 windows api를
ANSI버젼과 UNICODE버젼을 모두 지원합니다. ANSI버젼의 API를 쓰는 경우에는
OS가 api를 다시 UNICODE버젼으로 변환합니다. 그러므로 UNICODE로 버젼으로
만들어진 프로그램은 windows NT계열에서 약간의 속도향상을 가져올 수 있습니다.
그러나 windows 9x에서 동작하지 않는 단점이 있습니다. 그래서 microsoft에서는
windows 9x계열에서 UNICODE버젼으로 개발된 소프트웨어를 손쉽게 동작하게 하기
위해서 windows 9x용 unicode를 지원 dll을 제공합니다. 컴파일시 이 dll을 이용하면
unicode버젼으로 개발되었어도 windows 9x계열에서 동작가능합니다.
============================================================================
A006 : C/C++의 표준 문자열정의.
============================================================================
"안녕"이라고 literal을 표현하면 이것은 MBCS(언어규격 표준 용어로는 mcs)입니다.
L"안녕"이라고 literal을 표현하면 이것은 UCS encoding (언어규격 표준 용어로는 wcs)입니다.
어떤 encoding을 따르는 것인가는 compiler와 OS에 따라 다릅니다.
예를 등어 windows에서 visual studio 6.0 한글버젼을 사용하는 경우 MBCS로 컴파일시
codepage 949를 따르게 됩니다.
char데이타표현은 MBCS의 문자를 표현하는데 사용합니다. char는 사실 1바이트로
고정되어 있으므로 MBCS의 문자는 한 char또는 두 char로 표현됩니다.
wchar_t데이타표현은 UCS의 문자를 표현하는데 사용합니다. 많은 경우 2바이트이지만
시스템에 따라 4바이트거나 8바이트일 수도 있습니다. 이러한 UCS문자를
언어규격 표준 용어에서는 wide character라고 합니다.
============================================================================
A007 : MFC의 TCHAR.
============================================================================
MFC는 소스를 수정할 필요없이 mbcs 와 unicode 간의 compile switch을 손쉽게해주는
많은 macro를 제공합니다. strcpy같은 형태가 아니라 _tcscpy와 같은 방식으로 말이죠..
또한 strcpy를 와 같이 mbcs에서 먹는 함수를 바로 써버리면 아무리 UNICODE switch로
compile해보아보았자 MBCS로 컴파일되게 됩니다. 되도록이면 TCHAR계열 마크로를
쓰는 습관을 들이는 것이 중요합니다.
MBCS모드에서는 TCHAR는 char로 그리고 _tcscpy는 strcpy로 변환됩니다. _T("문자열") ---> "문자열"
UNICODE모드에서는 TCHAR가 wchar_t로 그리고 _tcscpy는 wcscpy로 변환됩니다. _T("문자열") ---> L"문자열"
============================================================================
A008 : "한글abc"가 유니코드로 써있다면 한글과 영어 구분은 어떻게 해요
============================================================================
영어와 한글은 code range가 다른 영역에 위치하므로 영역검사로 충분히 구분가능합니다.
자세한 것은 www.unicode.org에 있는 문자 테이블을 참조하십시요..
참고로 MBCS로 컴파일된 경우 완성형을 쓰기 때문에 영문검사시 if (ch < 0x80)
해도 무리가 없습니다.
============================================================================
A009 : 중국어는 유니코드에서 어떻게 다루나요?
============================================================================
중국어는 크게 두가지가 있습니다. 간체 (simplified)와 번체(traditional)이
그 것입니다. character set자체가 다르지요.
번체는 대만에서 표준으로 정립한 문제체계로 예전부터 내려온 기존한문을
그대로 씁니다. 그래서 이름이 traditional이라고 불리우는 것이지요..
간체는 중국본토에서 표준으로 정립한 문제체계로 공산화되면서 많은 한문문자가
약자로 표기되기 때문에 그내용도 약자한문을 담고 있습니다.
그래서 이름이 simplified이라고 불리우는 것이지요.
GB라고 앞에 붙은 encoding이나 character set은 간체를 의미합니다. GB-2312가
처음에 나와서 GBK의 서브셋으로 보면되고 보통은 이정도만 구현해도 많이 작동을
하지만, windows의 지원하는 중국어 간체는 GBK(GB-18030)이라고 보시면 됩니다. 몇
글자는 약간 변경되었지만요. 그리고 나온 것이 GB2K로 알고 있습니다. Unicode는 GB-
18030과 호환이라 보시면될 겁니다. 그외는 저도 기억이 잘나지 않네요.
홍콩이나 싱카폴등등에서 만든 문자셋도 있지만 요즘은 거의 쓰이지 않고 점차
간체가 힘을 쓰는 것 같습니다. 국력에 비례하네요..
============================================================================
A010 : 유니코드와 파일
============================================================================
유니코드 switch로 compile을 처음 해보는 경우 마추치게 되는 문제의 하나가
왜 파일에 저장시 유니코드로 저장되지 않는가 하는 점이다. 앞에서
말했듯이 유니코드라고 하더라도 다양한 encoding이 있으며 유니코드 switch는
API 함수와 자료들을 위한 ucs2 encoding만을 지원한다는 점이다. 즉 파일에
저장한다던지 utf encoding등으로의 변환등은 여전히 전적으로 개발자의 몫으로
남는다는 점이다.
파일로 저장시에는 많은 경우에는 UTF8 encoding을 사용하게되는데 이때는
WideCharToMultiByte API를 사용해서 변환하면 된다.
UTF계열이 아니라 UCS를 바로 저장하는 경우에는 조심해야 하는 것이
byte order이다. 이것은 CPU에 따라 다르게 되어있는데 intel계열은 little
endian이라 는 불리우는 바이트 순서로, 그 외 mac이나 workstation계열은
많은 경우 big endian으로 불리우는 바이트 순서를 가진다. 그러므로
CPU와 OS에 따라 bigendian format으로 little endian format으로 저장하는 것에
차이가 있다.
============================================================================
A011 : db에 저장하려면 또 그 dbms가 쓰는 유니코드로 바꿔야한다는데 사실인가요?
============================================================================
아마 UCS2와 UTF8등의 선택이 있겠지요.. 그러나 ODBC등을 사용한다면
encoding변환에 문제가 없지 않을까요?
============================================================================
A012 : database에서는 어떻게 다루나요?
============================================================================
어떤 분이 database에 대해 문의를 하셨는데 저도 줏어 들은 것 밖에 없고
실제 경험이 없기 때문에 확실한 답변은 안되어도 전에 응답하였던 내용을
올려 봅니다.
질문 :
UTF8로 세팅된 DB에서 일본어문자를 ODBC를 통해 VC++어플리케이션에서
가져옵니다.(rsData.GetFieldValue) 그런데 이 UTF8문자가 어플리케이션에서
가져오면서 유니코드로 저절로 바뀌어서 들어옵니다. [(예)DB에 저장된
문자열("????" (12바이트)를 어플리케이션에서 CString으로 가져와서
GetLength()한값은 8바이트로 찍힙니다.)] 이걸 UTF8로 유지시키려면 어떻게
해야하나요? (일본어문자하나가 3바이트로 인식되게) 또 전체 어플리케이션의
코드셋을 UTF8로 바꾸려면 어떻게 해야하나요?
응답 :
------------------------------------------------------------------------
UTF8로 세팅된 DB에서 일본어문자를 ODBC를 통해 VC++어플리케이션에서
가져옵니다.(rsData.GetFieldValue) 그런데 이 UTF8문자가 어플리케이션에서
가져오면서 유니코드로 저절로 바뀌어서 들어옵니다.
------------------------------------------------------------------------
ODBC가 UCS2로 자동변환하는 것 같습니다.
------------------------------------------------------------------------
이걸 UTF8로 유지시키려면 어떻게 해야하나요? (일본어문자하나가 3바이트로
인식되게)
------------------------------------------------------------------------
그럴 필요가 정있다면 다시 UCS2를 UTF8문자열로 바꾸는 WideCharToMultiByte
함수를 사용하세요. 단 이때 대상 인코딩을 CP_UTF8로 지정하십시요..
------------------------------------------------------------------------
또 전체 어플리케이션의 코드셋을 UTF8로 바꾸려면 어떻게 해야하나요?
------------------------------------------------------------------------
한글과 같은 Multibyte set과 UCS2만을 지원하신다고 보시면 됩니다.
이론적으로는 UTF8를 기준으로 프로그램을 만들 수는 있지만 의미는 없습니다.
MFC나 모든 관련 API들이 유니코드지원할 때 UCS2 기준으로 만들어져 있기 때문입니다.
그러므로 필요할 때만 UTF8로 변환하여 사용하십시요.
질문 :
우선 저희 솔루션은 한국어용으로 개발된것인데요 이번에 프로젝트에서 중국어와
연계가 된 부분이 있어서 일부분을 수정작업하고 있습니다 중국어 문자열을
추출하여 오라클에 저장하는 프로그램입니다. 그런데 별짓을 다해도
???????????????????? 이런식으로 깨져버리는군요 디비는 UTF-8부터해서 한국어
확장완성형까지 다 바꿔봤지만 결국은 디비 문제가 아닌것을 알았습니다. 디비에
입력할때 중국어가 깨지는것 같은데?
응답 :
db의 encoding이 UTF8로 일단 맞춘것으로 가정하죠.
????????????????????으로 깨졌다는 것은 데이타가 UTF8형식으로 되어 있지
않다는 것을 의미합니다. 즉 application이 db에 데이타를 넣을 때 utf8형식으로
입력을 하지 않았다는 것이죠..
제가 보기에는 application이 한글지원으로 만들어졌을 때 unicode가 아닌
multibyte형식으로 compile되어 있는 것같습니다.
다국어버젼 특히 단일 프로그램으로 다국어를 지원하는 경우에는 unicode형식을
지원하도록 application을 수정하여야 합니다.
============================================================================
A013 : 참조할 만한 자료들.
============================================================================
1. MSDN
당연히 윈도우즈에서 개발하려면 MSDN이 없으면 안되겠지요..
2. www.unicode.org
유니코드 콘소시엄 공식 사이트입니다.
3. UTF계열 encoding
자세한 정보가 http://www.elfdata.com/plugin/storage.html 에 잘 나와있네요..
4. 전문가가 되려면 다음 책은 필수 입니다.
그러나 이것은 전문가를 위한 책입니다. 먼저 기본 지식을 습득한 후에 보세요.
Title : CJKV Information Processing (Chinese, Japanese, Korean &
Vietnamese Computing)
Author : Ken Lunde
Publisher : O,Reilly Media, Inc.
ISBN : 1-56592-224-7
- 출처 : 데브피아
내생각~
흐음.. 문자셋이란 저멀리 아스키코드로부터 긴 역사를 지니고 있으며.. 현재는 유니코드와 ANSI코드가 중복해서 쓰이는 혼란한 세상.. 한글을 제대로 표현하기 위해선 유니코드를 사용해야 되나 현실은 따라가지 못함.. 유니코드중 UTF-8이 가장 널리 사용되는듯..
헷갈리는 인코딩 방법에 대해선..다음과 같이 정리해버리자.. 맞는지 안맞는지..ㅡ.ㅡ;
문자인코딩을 논함에 KSC-5601, EUC-KR, CP949, KSX-1001, x-windows-949, ANSI 는 같은걸 가리키는 것 같다...
KSC-5601(한글 표현이 매우 제한적이나 구현하기가 쉽다는 이유로 어이 없게도 한글표준으로 결정된 완성형 한글.. )
EUC-KR(UNIX : Enhaced Unix Code-Korea)
CP949(DOS : Code Page 949)
KSX-1001(KSC-5601의 새로운 명명법)
x-windows-949(모질라에 정의된 UHC의 CP949의 이름)
ANSI(미국표준협회에서 제정한 문자셋의 모음..이랄까나.. 각 국가간의 인코딩타입과 앞서 설명한 모든 인코딩 타입이 여기 들어갈듯.. 유니코드와 인코딩방법을 2개로 나누는듯..)
뭐 위와함께 새로만들어진 유니코드 계열도 있쥐...UNICODE, UTF-8, UTF-16..
히유... 복잡하구먼..
담 플젝은 UTF-8로 인코딩을 자바, 웹문서, 디비... 등을 통일해서 해보고 싶군...
'others' 카테고리의 다른 글
Tomcat 5.5 JNDI Datasource (0) | 2007.01.18 |
---|---|
[책] 간만에 3권 구입 (0) | 2006.12.28 |
[책] 재미있는 IT 책들 (0) | 2006.07.04 |
객체 지향 자바스크립트 (0) | 2006.06.27 |
Tomcat 5.5 한글 인코딩 설정 방법 (0) | 2006.05.16 |