2025.03.21 - [자연어처리] - [1] 토큰화(Tokenizer) [1] 토큰화(Tokenizer)NLP(Natural Language Processing)은 인간의 언어를 이해하고 해석하기 위한 목적으로 발전해 왔습니다. 다만 분석 모델의 학습 데이터셋은 수치형으로만 입력이 가능하기 때문에 텍스트 데이터 자체로up-one-coding.tistory.com 토큰화 작업에 이어 Token을 정제하고 추출하는 방법에 대해 알아보겠습니다. Text 데이터에서 토큰을 추출해도 그 토큰에는 특수 문자, 오탈자 등이 포함되어 있을 수 있습니다. 그러한 문자들을 제거하고 Clean text로 만드는 작업이 '정제'입니다. 1. 정제정제 작업은 데이터 사용 목적에 따라 노이즈를 제거하는 작업입니다. 대표적으로..
NLP(Natural Language Processing)은 인간의 언어를 이해하고 해석하기 위한 목적으로 발전해 왔습니다. 다만 분석 모델의 학습 데이터셋은 수치형으로만 입력이 가능하기 때문에 텍스트 데이터 자체로는 학습이 불가능합니다. 따라서 원본 텍스트 문서를 전처리해 유의미한 정보를 추출하고 그 정보를 손실 없이 수치형으로 변환하는 과정이 중요합니다. 이번 글에서는 NLP Process의 가장 기초이자 텍스트 문서를 일정 기준에 따라 분리하는 '토큰화 (Tokenizer)'에 대해 알아보겠습니다. '토큰화 (Tokenizer)'은 텍스트를 문법적으로 더 이상 나눌 수 없는 요소까지 만드는 작업이라고 합니다.원본 데이터토큰화 된 상태"I am David, I am a student"["I", "a..
https://school.programmers.co.kr/learn/courses/30/lessons/120876 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr2차원 배열 lines가 매개변수로 주어질 때, 2개 이상의 선분이 겹치는 부분의 길이를 구하는 문제 Test Case 1) lines = [[-3,-1], [-2, 1], [0, 2]]일 때, 선분이 2개 이상 겹친 곳은 [-2,-1], [0,1]로 길이 2 반환 Test Case 2) lines = [[-1,1], [1,3], [3,9]]일 때, 선분이 2개 이상 겹친 곳은 없으므로 길이 0을 반환 Solution) 겹치는 선분의 길이를 구..
https://dacon.io/competitions/official/236439/overview/description에서 진행된 부동산 허위매물 분류 해커톤에 참가해 EDA, 전처리, 모델링을 통해 데이터의 숨은 특성을 찾고 정확한 분류 모델을 구현하고자 하였습니다. 부동산 허위매물 분류 해커톤: 가짜를 색출하라! - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io최근 법을 위반한 부동산 허위 매물이 증가하는 추세지만, 소비자는 허위 매물을 객관적으로 판단할 기준이 모호하여 경제적인 피해를 입는 사태가 증가하고 있습니다. 이를 해결하기 위해 위 데이터와 머신러닝을 이용해 신뢰성 있는 부동산 거래 시장을 만들고자 하였습니다.변수명자료형변수명자료형허위매물..
2025.02.24 - [머신러닝] - [12] Xgboost에서 데이터셋이 커질 때 학습 속도가 느린 문제점을 해결한 Lightgbm은 모든 데이터를 탐색하지 않고 상호배타적인 변수를 줄여 학습 속도를 개선시킨 모델입니다. 이번 글에서는 Lightgbm의 동작 원리에 대해 자세히 다뤄보겠습니다. [12] Xgboost2024.06.28 - [머신러닝] - [7] 앙상블 모델에서 언급된 Boosting 기반으로 만들어진 Xgboost는 Gradient Boosting 모델에 정규화 함수를 더해서 과적합을 방지하고 병렬 컴퓨팅을 통해 학습 속도를 개선시킨up-one-coding.tistory.com 1. 동작 원리XGBoost와 Lightgbm의 가장 큰 차이점은 트리에서 리프 노드가 생성되는 방법입니다...
https://www.kaggle.com/datasets/taeefnajib/used-car-price-prediction-dataset Used Car Price Prediction DatasetPredict the price of a used vehiclewww.kaggle.com위 데이터셋을 이용해 중고차 가격 거품을 해결하는 가격 예측 분석 모델을 개발하고 거래를 위한 가격을 산정해 주는 추천 시스템을 개발해 신뢰성 있는 중고차 시장을 만들고자 하였습니다. 아울러 데이터셋의 특성을 살려 텍스트 데이터 전처리에 집중하였고 R2 score 0.6 이상의 지표를 산출하고자 노력했습니다 EDA & Preprocessing1. brand 카테고리 빈도수를 통한 전처리brand 칼럼은 brand 카테고리들의..
- #opencv #이미지 읽기 #이미지 제작 #관심영역 지정 #스레시홀딩
- #seq2seq #encoder #decoder #teacher forcing
- #python #프로그래머스 #외계어사전 #itertools #순열과조합
- 잘라서 배열로 저장하기 #2차원으로 만들기
- #opencv #이미지 연산 #합성
- 머신러닝 #project #classification #dacon
- # 할인행사 #counter #딕셔너리 #프로그래머스
- #docker #container #docker command
- 머신러닝 #lightgbm #goss #ebf
- #자연어 처리 #정수 인코딩 #빈도 수 기반
- #tf idf
- #웹 프로그래밍 #서버 #클라이언트 #http #was
- nlp #토큰화 #nltk #konply
- # 프로그래머스 #연속된 부분수열의 합 #이중 포인터 #누적합
- #프로그래머스 #안전지대 #시뮬레이션
- pca #주성분분석 #특이값분해 #고유값분해 #공분산행렬 #차원의 저주
- #물고기 종류별 대어 찾기 #즐겨찾기가 가장 많은 식당 정보 출력하기 #mysql #programmers
- #django #mvt 패턴
- # 프로그래머스 # 카펫 # 완전탐색
- 프로젝트 #머신러닝 #regression #eda #preprocessing #modeling
- 자연어 처리 #정제 #정규표현식 #어간 추출 #표제어 추출
- #with recursive #입양시각 구하기(2) #mysql
- #attention #deeplearning
- #polars #대용량 데이터셋 처리
- python #프로그래머스 #겹치는선분의길이
- 머신러닝 #xgboost #
- #docker #image #build #dockerfile
- #docker #docker compose
- randomforest #bagging #머신러닝 #하이퍼파라미터 튜닝
- 로지스틱 회귀 #오즈비 #최대우도추정법 #머신러닝