파이썬(python)을 이용하여, 한글을 처리할 때 여러가지 방법이 있겠지만,
다음과 같이 unicodedata라는 클래스를 이용하면 좀 더 편리하게 처리할 수 있다.
unicodedata documenation : https://docs.python.org/2/library/unicodedata.html
unicode type category(5.5.1 General Category Values) : http://www.unicode.org/reports/tr44/tr44-4.html
각 unicode에 대해 어떤 category을 갖는지 확인해서 제거할 수 있으며, 한글의 경우에는 Lo(other characters)에 속한다.
아래 코드는 utf-8 문자열을 입력받아, unicode로 변환한 뒤, 문자열을 돌면서, valid_type만 추출하는 예제이다.
+ Lo 타입에 속하는 한글을 확실하게 구별할 수 있는 방법을 추가한다.
'Computer > Python' 카테고리의 다른 글
inline if (0) | 2015.03.11 |
---|---|
파이썬 json.dumps를 한글에 사용하는 방법 (0) | 2015.02.01 |
nested list comprehesion in python (0) | 2015.01.10 |
python OrderedDict (0) | 2014.12.04 |
파이썬 표준 에러(stderr) 출력 (0) | 2014.11.21 |