[2] 정제와 추출
2025.03.21 - [자연어처리] - [1] 토큰화(Tokenizer) [1] 토큰화(Tokenizer)NLP(Natural Language Processing)은 인간의 언어를 이해하고 해석하기 위한 목적으로 발전해 왔습니다. 다만 분석 모델의 학습 데이터셋은 수치형으로만 입력이 가능하기 때문에 텍스트 데이터 자체로up-one-coding.tistory.com 토큰화 작업에 이어 Token을 정제하고 추출하는 방법에 대해 알아보겠습니다. Text 데이터에서 토큰을 추출해도 그 토큰에는 특수 문자, 오탈자 등이 포함되어 있을 수 있습니다. 그러한 문자들을 제거하고 Clean text로 만드는 작업이 '정제'입니다. 1. 정제정제 작업은 데이터 사용 목적에 따라 노이즈를 제거하는 작업입니다. 대표적으로..
자연어처리
2025. 3. 24. 17:30
TAG
- 자연어 처리 #정제 #정규표현식 #어간 추출 #표제어 추출
- python #프로그래머스 #리스트 #인덱싱
- python #프로그래머스 #겹치는선분의길이
- html #javascript #구구단 출력
- #opencv #이미지 연산 #합성
- #opencv #이미지 읽기 #이미지 제작 #관심영역 지정 #스레시홀딩
- 로지스틱 회귀 #오즈비 #최대우도추정법 #머신러닝
- rnn #딥러닝 #시계열 데이터 #장기의존성 문제
- 머신러닝 #project #classification #dacon
- subquery #sql 코딩테스트
- #seq2seq #encoder #decoder #teacher forcing
- ridge #lasso #정규화모델 #머신러닝
- randomforest #bagging #머신러닝 #하이퍼파라미터 튜닝
- 딥러닝 #오차역전파 #연쇄법칙 #계산그래프 #최적화
- #python #프로그래머스 #외계어사전 #itertools #순열과조합
- 잘라서 배열로 저장하기 #2차원으로 만들기
- #attention #deeplearning
- #자연어 처리 #정수 인코딩 #빈도 수 기반
- 머신러닝 #lightgbm #goss #ebf
- 파이썬 #코딩테스트 #프로그래머스 #스택 #큐
- pca #주성분분석 #특이값분해 #고유값분해 #공분산행렬 #차원의 저주
- nlp #토큰화 #nltk #konply
- seaborn #데이터시각화 #타이타닉
- gan #생성자 #판별자 #적대적 신경 신경망 #딥러닝 #computer vision
- python #deque #프로그래머스 #공 던지기 #문자열 계산하기 #코딩테스트
- 머신러닝 #xgboost #
- 파이썬 #시각화 #matplotlib
- 프로젝트 #머신러닝 #regression #eda #preprocessing #modeling
- #물고기 종류별 대어 찾기 #즐겨찾기가 가장 많은 식당 정보 출력하기 #mysql #programmers
- #tf idf
글 보관함
최근에 올라온 글