본문 바로가기
Computer/Python

python2.x에서 unicodedata 사용법

by hexists 2014. 10. 21.

파이썬(python)을 이용하여, 한글을 처리할 때 여러가지 방법이 있겠지만,

다음과 같이 unicodedata라는 클래스를 이용하면 좀 더 편리하게 처리할 수 있다.


unicodedata documenation : https://docs.python.org/2/library/unicodedata.html

unicode type category(5.5.1 General Category Values) : http://www.unicode.org/reports/tr44/tr44-4.html


각 unicode에 대해 어떤 category을 갖는지 확인해서 제거할 수 있으며, 한글의 경우에는 Lo(other characters)에 속한다.


아래 코드는 utf-8 문자열을 입력받아, unicode로 변환한 뒤, 문자열을 돌면서, valid_type만 추출하는 예제이다.

+ Lo 타입에 속하는 한글을 확실하게 구별할 수 있는 방법을 추가한다.

'Computer > Python' 카테고리의 다른 글

inline if  (0) 2015.03.11
파이썬 json.dumps를 한글에 사용하는 방법  (0) 2015.02.01
nested list comprehesion in python  (0) 2015.01.10
python OrderedDict  (0) 2014.12.04
파이썬 표준 에러(stderr) 출력  (0) 2014.11.21