본문 바로가기

Computer/Python

python2.x에서 unicodedata 사용법

파이썬(python)을 이용하여, 한글을 처리할 때 여러가지 방법이 있겠지만,

다음과 같이 unicodedata라는 클래스를 이용하면 좀 더 편리하게 처리할 수 있다.


unicodedata documenation : https://docs.python.org/2/library/unicodedata.html

unicode type category(5.5.1 General Category Values) : http://www.unicode.org/reports/tr44/tr44-4.html


각 unicode에 대해 어떤 category을 갖는지 확인해서 제거할 수 있으며, 한글의 경우에는 Lo(other characters)에 속한다.


아래 코드는 utf-8 문자열을 입력받아, unicode로 변환한 뒤, 문자열을 돌면서, valid_type만 추출하는 예제이다.

+ Lo 타입에 속하는 한글을 확실하게 구별할 수 있는 방법을 추가한다.

'Computer > Python' 카테고리의 다른 글

inline if  (0) 2015.03.11
파이썬 json.dumps를 한글에 사용하는 방법  (0) 2015.02.01
nested list comprehesion in python  (0) 2015.01.10
python OrderedDict  (0) 2014.12.04
파이썬 표준 에러(stderr) 출력  (0) 2014.11.21
python2.x에서 unicodedata 사용법  (0) 2014.10.21