
2025.04.16 - [딥러닝] - Seq2Seq Seq2SeqSeq2Seq 모델은 Attention, Transformer의 기초가 되는 딥러닝 모델로서 시퀀스 데이터를 처리하는 RNN과 LSTM의 단점을 보완한 모델입니다. 특히 Seq2Seq 모델은 하나의 입력 시퀀스에서 다른 시퀀스로 출력up-one-coding.tistory.comRnn 모델의 장기 의존성 문제의 해결책으로 나온 Seq2Seq 모델에도 단점은 존재합니다. Encoder의 학습으로 산출된 Context vector은 압축된 정보가 담기므로 시퀀스가 길수록 정보 손실이 크고 학습이 어렵다는 것입니다. 이를 해결하기 위해 나온 구조가 Attention입니다. 기존 방식처럼 압축된 정보, Context Vector만을 추론하여 Deco..

Seq2Seq 모델은 Attention, Transformer의 기초가 되는 딥러닝 모델로서 시퀀스 데이터를 처리하는 RNN과 LSTM의 단점을 보완한 모델입니다. 특히 Seq2Seq 모델은 하나의 입력 시퀀스에서 다른 시퀀스로 출력시키는 프로세스에 적합하므로 특정 언어를 다른 언어로 번역하는데 많이 활용됩니다. Seq2Seq 모델부터는 인코더와 디코더의 개념이 활용됩니다.기존 RNN 계열 모델은 시퀀스가 길어질수록 이전 정보가 현재 시점에서는 많이 희석되어 기울기가 소실되는 단점이 존재했습니다. Seq2Seq 모델은 이 문제점을 해결하기 위해 Context Vector라는 개념을 활용합니다. 입력 시퀀스에 대해서 Encoder가 학습을 하면 Context Vector에는 학습 내용이 압축되어 산출됩니..

2025.04.05 - [Python] - [OpenCV 1] 이미지 실행 및 스레시홀딩 [OpenCV 1] 이미지 실행 및 스레시홀딩OpenCv은 컴퓨터 비젼과 관련된 작업을 위한 강력하고 다양한 기능을 제공하는 Python의 이미지 전처리 라이브러리입니다. 주요 기능은 이미지의 기본적인 처리 작업(읽기 및 쓰기)과 필터링, 특징up-one-coding.tistory.comOpenCV 라이브러리와 numpy 연산을 활용하면 이미지 합성, 블렌딩, 이미지 간의 차이를 알 수 있습니다. 다만 주의해야 할 점은 연산 결과로 픽셀 값이 255가 넘거나 0보다 작아지면 이미지가 깨지는 상태가 발생하기 때문에 반드시 0에서 255 사이의 값이 출력되도록 처리를 진행해야 합니다.1. mask을 이용한 누적할당과 비..
MYSQL의 WITH문은 하나 이상의 서브쿼리에서 반환된 데이터를 단일쿼리에서 재사용하게 해 주고 임시 테이블에 저장시켜 주는 문법입니다. 무엇보다 WITH문의 장점은 쿼리를 단순화하고 가독성을 높일 수 있습니다. 1. 물고기 종류별 대어찾기https://school.programmers.co.kr/learn/courses/30/lessons/293261 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr물고기 종류 별로 길이가 가장 큰 물고기의 ID, 이름, 길이를 출력하는 쿼리문을 작성주의사항) 출력의 칼럼명은 각각 ID, FISH_NAME, LENGTH / ID에 대해 오름차순 정렬 / 물고기 종류별 ..

OpenCv은 컴퓨터 비젼과 관련된 작업을 위한 강력하고 다양한 기능을 제공하는 Python의 이미지 전처리 라이브러리입니다. 주요 기능은 이미지의 기본적인 처리 작업(읽기 및 쓰기)과 필터링, 특징 추출 등의 복잡한 처리도 가능합니다. 또한 비디오 처리에 대한 작업도 가능하고, 카메라 스트림을 실시간으로 처리하고 객체 탐지 및 동작 인식 등을 수행할 수 있습니다. 이번 시간에는 기본적인 이미지 저장 및 스레시홀딩에 대해 알아보겠습니다. #OpenCV 라이브러리 로드import cv2 1. 이미지 실행 및 저장jpg, jpeg, png 등과 같은 형식의 이미지를 읽기 위한 방식에는 여러가지가 존재합니다.IMREAD_COLOR : 이미지를 color로 읽고 투명한 부분은 무시하여 읽기IMREAD_GRAYS..

2025.03.28 - [자연어처리] - [3] 정수 인코딩 [3] 정수 인코딩2025.03.24 - [자연어처리] - [2] 정제와 추출 [2] 정제와 추출2025.03.21 - [자연어처리] - [1] 토큰화(Tokenizer) [1] 토큰화(Tokenizer)NLP(Natural Language Processing)은 인간의 언어를 이해하고 해석하기 위한 목적으up-one-coding.tistory.comTF - IDF은 문서에서 각 단어가 가지는 가중치를 구해 특징을 추출하는 방법입니다. TF - IDF은 단어의 단순 빈도수를 기준으로 가중치를 구하는 것이 아닌, 특정 단어가 전체 문서에서 얼마나 중요한지를 나타내는 가중치를 구하여 특징을 추출하는 방법입니다. 단순 빈도수를 기준으로 가중치를 구하..
2025.03.24 - [자연어처리] - [2] 정제와 추출 [2] 정제와 추출2025.03.21 - [자연어처리] - [1] 토큰화(Tokenizer) [1] 토큰화(Tokenizer)NLP(Natural Language Processing)은 인간의 언어를 이해하고 해석하기 위한 목적으로 발전해 왔습니다. 다만 분석 모델의 학습 데이터셋은up-one-coding.tistory.com정제와 추출을 겪은 텍스트는 드디어 학습에 사용하기 위해 숫자의 형태로 바꿀 준비가 되어 있습니다. 텍스트 데이터를 숫자의 형태로 바꾸는 가장 대표적인 방법은 빈도수에 따라 매핑하는 것입니다."A barber is a person. A barber is good personbarbergoodperson212 위의 예시처럼,..
2025.03.21 - [자연어처리] - [1] 토큰화(Tokenizer) [1] 토큰화(Tokenizer)NLP(Natural Language Processing)은 인간의 언어를 이해하고 해석하기 위한 목적으로 발전해 왔습니다. 다만 분석 모델의 학습 데이터셋은 수치형으로만 입력이 가능하기 때문에 텍스트 데이터 자체로up-one-coding.tistory.com 토큰화 작업에 이어 Token을 정제하고 추출하는 방법에 대해 알아보겠습니다. Text 데이터에서 토큰을 추출해도 그 토큰에는 특수 문자, 오탈자 등이 포함되어 있을 수 있습니다. 그러한 문자들을 제거하고 Clean text로 만드는 작업이 '정제'입니다. 1. 정제정제 작업은 데이터 사용 목적에 따라 노이즈를 제거하는 작업입니다. 대표적으로..

NLP(Natural Language Processing)은 인간의 언어를 이해하고 해석하기 위한 목적으로 발전해 왔습니다. 다만 분석 모델의 학습 데이터셋은 수치형으로만 입력이 가능하기 때문에 텍스트 데이터 자체로는 학습이 불가능합니다. 따라서 원본 텍스트 문서를 전처리해 유의미한 정보를 추출하고 그 정보를 손실 없이 수치형으로 변환하는 과정이 중요합니다. 이번 글에서는 NLP Process의 가장 기초이자 텍스트 문서를 일정 기준에 따라 분리하는 '토큰화 (Tokenizer)'에 대해 알아보겠습니다. '토큰화 (Tokenizer)'은 텍스트를 문법적으로 더 이상 나눌 수 없는 요소까지 만드는 작업이라고 합니다.원본 데이터토큰화 된 상태"I am David, I am a student"["I", "a..

https://school.programmers.co.kr/learn/courses/30/lessons/120876 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr2차원 배열 lines가 매개변수로 주어질 때, 2개 이상의 선분이 겹치는 부분의 길이를 구하는 문제 Test Case 1) lines = [[-3,-1], [-2, 1], [0, 2]]일 때, 선분이 2개 이상 겹친 곳은 [-2,-1], [0,1]로 길이 2 반환 Test Case 2) lines = [[-1,1], [1,3], [3,9]]일 때, 선분이 2개 이상 겹친 곳은 없으므로 길이 0을 반환 Solution) 겹치는 선분의 길이를 구..
- 프로젝트 #머신러닝 #regression #eda #preprocessing #modeling
- python #프로그래머스 #리스트 #인덱싱
- 머신러닝 #project #classification #dacon
- python #프로그래머스 #겹치는선분의길이
- pca #주성분분석 #특이값분해 #고유값분해 #공분산행렬 #차원의 저주
- #opencv #이미지 연산 #합성
- #tf idf
- python #deque #프로그래머스 #공 던지기 #문자열 계산하기 #코딩테스트
- randomforest #bagging #머신러닝 #하이퍼파라미터 튜닝
- 머신러닝 #xgboost #
- #seq2seq #encoder #decoder #teacher forcing
- 로지스틱 회귀 #오즈비 #최대우도추정법 #머신러닝
- ridge #lasso #정규화모델 #머신러닝
- 파이썬 #코딩테스트 #프로그래머스 #스택 #큐
- 파이썬 #시각화 #matplotlib
- 잘라서 배열로 저장하기 #2차원으로 만들기
- 딥러닝 #오차역전파 #연쇄법칙 #계산그래프 #최적화
- nlp #토큰화 #nltk #konply
- #물고기 종류별 대어 찾기 #즐겨찾기가 가장 많은 식당 정보 출력하기 #mysql #programmers
- #opencv #이미지 읽기 #이미지 제작 #관심영역 지정 #스레시홀딩
- gan #생성자 #판별자 #적대적 신경 신경망 #딥러닝 #computer vision
- seaborn #데이터시각화 #타이타닉
- subquery #sql 코딩테스트
- 자연어 처리 #정제 #정규표현식 #어간 추출 #표제어 추출
- html #javascript #구구단 출력
- rnn #딥러닝 #시계열 데이터 #장기의존성 문제
- #자연어 처리 #정수 인코딩 #빈도 수 기반
- #attention #deeplearning
- #python #프로그래머스 #외계어사전 #itertools #순열과조합
- 머신러닝 #lightgbm #goss #ebf