본문 바로가기
SMALL

Python2

[python] 문자열 tokenization! split과 re.sub 사용하기 간단한 문자열 처리! tokenization 방법과 너무나도 어려운 정규식 ㅠㅠ 먼저 문자열 데이터를 tokenizing 하는 방법은 다양한 방법이 있지만! 가장 간편한 방법으로 소개하려 한다. 1. Split split() 함수는 문자열을 일정한 규칙으로 잘라서 리스트로 만들어 주는 함수이다. split(sep = '구분자', maxsplit = '구분횟수') 문법으로 사용된다. 이때 sep의 default는 'none'이지만 띄어쓰기로 생각하면 된다! maxplit의 default는 -1로 최대 회수만큼 구분한다. temp = "Hi, my name is sophia" print(temp.split(',')) print(temp.split()) print(temp.split(maxsplit = 2)).. 2021. 12. 6.
[python] lambda & apply 사용법 나에게 python을 하면서 가장 헷갈리는 부분!! 바로.. lambda와 apply... 사용법을 알아보자. 1. lambda (lambda 인수 : 함수) lambda 뒤에 나오는 인수는 함수에서 사용될 변수들을 정의하며 인수에서 정의 된 변수를 함수에 적용시킨 결과를 도출한다. 예를들어 (lambda x,y : x + y)(1,2) ## 인수인 x와 y를 'x+y'에 넣어 결과를 도출 ## 이때, 각 인수의 값을 뒤에 넣어줌으로 적용 할 수 있음 >> 3 ## 결과값 DataFrame에 적용할 경우는 아래와 같다. 이럴경우, 복잡한 수식이나 함수를 열에 적용할 경우 행별로 편리하게 적용할 수 있다. temp = pd.DataFrame(columns = ['a','b'], data = [[1,2], .. 2021. 12. 3.
LIST