[NLP] 말뭉치 전처리
우리가 사용하는 언어를 컴퓨터가 이해할 수 있는 형태로 변환하기 위한 첫걸음은 말을 단어 단위로 분해한 뒤 이를 숫자로 표현하는 것이다. text = 'I have lived a life of shame.' 위 문장을 단어로 분해하면 I / have / lived / a / life / of / shame. 이다. 이 단어 하나하나를 말뭉치(corpus)로 만들어서 컴퓨터가 이해할 수 있도록 indexing한다. text = text.lower() text = text.replace('.', ' .') words = text.split(' ') 먼저 text 전체를 소문자로 바꾸로 공백 단위로 split 한다. word_to_id = {} id_to_word = {} 그리고 나서 단어를 인덱스로, 거꾸로..
2023.02.12