
NLP(Natural Language Processing)은 인간의 언어를 이해하고 해석하기 위한 목적으로 발전해 왔습니다. 다만 분석 모델의 학습 데이터셋은 수치형으로만 입력이 가능하기 때문에 텍스트 데이터 자체로는 학습이 불가능합니다. 따라서 원본 텍스트 문서를 전처리해 유의미한 정보를 추출하고 그 정보를 손실 없이 수치형으로 변환하는 과정이 중요합니다. 이번 글에서는 NLP Process의 가장 기초이자 텍스트 문서를 일정 기준에 따라 분리하는 '토큰화 (Tokenizer)'에 대해 알아보겠습니다. '토큰화 (Tokenizer)'은 텍스트를 문법적으로 더 이상 나눌 수 없는 요소까지 만드는 작업이라고 합니다.원본 데이터토큰화 된 상태"I am David, I am a student"["I", "a..
자연어처리
2025. 3. 21. 16:56
TAG
- python #프로그래머스 #겹치는선분의길이
- 잘라서 배열로 저장하기 #2차원으로 만들기
- 머신러닝 #xgboost #
- #python #프로그래머스 #외계어사전 #itertools #순열과조합
- subquery #sql 코딩테스트
- nlp #토큰화 #nltk #konply
- python #deque #프로그래머스 #공 던지기 #문자열 계산하기 #코딩테스트
- 자연어 처리 #정제 #정규표현식 #어간 추출 #표제어 추출
- #seq2seq #encoder #decoder #teacher forcing
- seaborn #데이터시각화 #타이타닉
- python #프로그래머스 #리스트 #인덱싱
- ridge #lasso #정규화모델 #머신러닝
- 파이썬 #코딩테스트 #프로그래머스 #스택 #큐
- gan #생성자 #판별자 #적대적 신경 신경망 #딥러닝 #computer vision
- #attention #deeplearning
- 프로젝트 #머신러닝 #regression #eda #preprocessing #modeling
- 파이썬 #시각화 #matplotlib
- 로지스틱 회귀 #오즈비 #최대우도추정법 #머신러닝
- #opencv #이미지 읽기 #이미지 제작 #관심영역 지정 #스레시홀딩
- rnn #딥러닝 #시계열 데이터 #장기의존성 문제
- 딥러닝 #오차역전파 #연쇄법칙 #계산그래프 #최적화
- #물고기 종류별 대어 찾기 #즐겨찾기가 가장 많은 식당 정보 출력하기 #mysql #programmers
- pca #주성분분석 #특이값분해 #고유값분해 #공분산행렬 #차원의 저주
- #자연어 처리 #정수 인코딩 #빈도 수 기반
- randomforest #bagging #머신러닝 #하이퍼파라미터 튜닝
- html #javascript #구구단 출력
- 머신러닝 #project #classification #dacon
- #opencv #이미지 연산 #합성
- 머신러닝 #lightgbm #goss #ebf
- #tf idf
글 보관함
최근에 올라온 글