
투자하고 있는 주식 종목의 미래 가치를 예측하여 자산 관리에 도움이 될 수 있도록 하기 위해 이 프로젝트를 교내 학회에서 진행하였습니다. 1. Dataset 설명2. Data Preprocessing3. Modeling4. 확장점 1. Dataset 설명FinaceDataReader은 금융데이터를 크롤링하여 데이터를 로드할 수 있는 파이썬 오픈소스입니다. https://github.com/FinanceData/FinanceDataReader GitHub - FinanceData/FinanceDataReader: Financial data readerFinancial data reader. Contribute to FinanceData/FinanceDataReader development by creat..
생성형 AI의 발전에 따라 Deepfake 이미지가 많아지면서 이로 인해 발생하는 문제를 해결하고자 실제 이미지와 Deepfake 이미지를 분류하는 프로젝트를 전공 수업에서 진행하였습니다. Dataset 설명Preprocessing - Data AugmentationClassification using Transfer learning 1. Dataset 설명https://www.kaggle.com/datasets/manjilkarki/deepfake-and-real-images deepfake and real imagesDetect if any images is real image of deepfake imagewww.kaggle.com위 Kaggle Dataset을 이용하기 위해 Kaggle API t..

머신러닝 모델의 성능을 저하시키는 한 요인은 데이터의 Feature 수가 많아 학습 속도가 느리고 성능이 낮아지는 '차원의 저주' 현상 때문입니다. 차원이 증가할수록 설명력을 유지하기 위한 데이터의 양이 증가하는 것과 아래 그림처럼 차원이 증가할수록 데이터 포인트 간의 거리는 증가하고 의미 없는 공간이 커져 성능이 저하되는 것입니다. 차원의 저주를 해결할 수 있는 기법 중 하나인 PCA, 주성분 분석은 데이터 내 존재하는 노이즈(Noise)을 제거하고 축소된 차원 덕에 연산량이 줄어드는 효과를 가집니다. 즉, PCA의 가장 중요한 원리는 데이터의 차원을 어떻게 축소시키는 것입니다. 수학적으로 차원을 축소하는 것을 '투영(Projection)'이라고 합니다. 투영은 N차원 공간의 데이터를 (N-1)차원 공..

머신러닝 카테고리의 이번 글은 비지도학습 알고리즘의 한 종류인 KMeans 알고리즘의 개념과 동작 원리에 대해 설명하겠습니다. KMeans 알고리즘은 label이 없는 데이터를 분류하는 알고리즘입니다. KMeans 알고리즘은 label이 없는 데이터를 분류하기 때문에 knn 알고리즘처럼 정확한 분류를 하는 것은 불가능합니다. 따라서 비슷한 특성을 가진 데이터끼리 군집화를 해 분류하는 방법으로 데이터를 분류합니다. KMeans 알고리즘의 대략적인 동작원리는 각 군집의 평균을 활용해 K개의 군집으로 묶은 후, 가깝게 위치하는 데이터를 비슷한 특성을 지닌 데이터로 여기고 같은 군집으로 만드는 것입니다. KMeans 알고리즘 동작원리 순서군집의 개수, K값 정하기랜덤으로 K개의 초기 중심점(Centroi..

이번 머신러닝 카테고리의 글에서는 knn 알고리즘과 더불어 지도학습 분류 모델 중 하나인 Support Vector Machine(SVM)의 개념과 동작 원리에 대해 설명하겠습니다. SVM은 데이터의 클래스를 분류하는 최적의 경계를 찾는 알고리즘입니다. 이때의 경계는 반드시 선형이어야 하는 조건이 존재합니다. SVM는 Margin을 최대화하는 최적의 경계라 정의합니다. Margein(마진)은 각 클래스의 말단에 위치하는 데이터들 사이의 거리를 뜻합니다. 우리는 오직 각 클래스의 말단에 위치하는 데이터들만을 이용해 경계를 찾는 것이 핵심입니다. 최적의 경계를 찾는 데 사용하는 Margin에 위치하는 데이터들을 Support Vector라고 정의합니다. Margin(마진)을 구하기 위해서는 선형대수학의..

머신러닝 카테고리의 네 번째 글에서는 지도학습 중 하나로 새로운 data를 미리 정의된 label 중 하나로 분류하는 K 근접 이웃 알고리즘(K nearest neighbor algorithm)에 대한 설명과 동작원리에 대해 설명하겠습니다. K 근접 이웃 알고리즘(knn)은 거리 기반으로 새로운 data를 미리 정의된 label 중 하나로 분류하는 알고리즘입니다. knn은 위 그림처럼 label이 정해진 데이터에 한해서 분류를 진행하는 지도학습 알고리즘의 종류입니다. 데이터가 적은 상황에서도 간단한 모델로 높은 분류 정확도를 가지는 것이 가장 큰 장점입니다. knn 알고리즘의 동작 원리는 학습 데이터와 새로운 데이터 간의 거리를 측정하여 가장 가까운 k개의 data들의 label 중 가장 많은 비율을..
- #django #mvt 패턴
- #프로그래머스 #안전지대 #시뮬레이션
- #물고기 종류별 대어 찾기 #즐겨찾기가 가장 많은 식당 정보 출력하기 #mysql #programmers
- randomforest #bagging #머신러닝 #하이퍼파라미터 튜닝
- # 할인행사 #counter #딕셔너리 #프로그래머스
- #with recursive #입양시각 구하기(2) #mysql
- #docker #docker compose
- nlp #토큰화 #nltk #konply
- 머신러닝 #lightgbm #goss #ebf
- 프로젝트 #머신러닝 #regression #eda #preprocessing #modeling
- python #프로그래머스 #겹치는선분의길이
- #seq2seq #encoder #decoder #teacher forcing
- 자연어 처리 #정제 #정규표현식 #어간 추출 #표제어 추출
- 머신러닝 #project #classification #dacon
- #docker #container #docker command
- #polars #대용량 데이터셋 처리
- 잘라서 배열로 저장하기 #2차원으로 만들기
- # 프로그래머스 # 카펫 # 완전탐색
- #tf idf
- #자연어 처리 #정수 인코딩 #빈도 수 기반
- #python #프로그래머스 #외계어사전 #itertools #순열과조합
- 로지스틱 회귀 #오즈비 #최대우도추정법 #머신러닝
- pca #주성분분석 #특이값분해 #고유값분해 #공분산행렬 #차원의 저주
- #opencv #이미지 읽기 #이미지 제작 #관심영역 지정 #스레시홀딩
- #웹 프로그래밍 #서버 #클라이언트 #http #was
- #opencv #이미지 연산 #합성
- # 프로그래머스 #연속된 부분수열의 합 #이중 포인터 #누적합
- 머신러닝 #xgboost #
- #attention #deeplearning
- #docker #image #build #dockerfile