생성형 AI의 발전에 따라 Deepfake 이미지가 많아지면서 이로 인해 발생하는 문제를 해결하고자 실제 이미지와 Deepfake 이미지를 분류하는 프로젝트를 전공 수업에서 진행하였습니다. Dataset 설명Preprocessing - Data AugmentationClassification using Transfer learning 1. Dataset 설명https://www.kaggle.com/datasets/manjilkarki/deepfake-and-real-images deepfake and real imagesDetect if any images is real image of deepfake imagewww.kaggle.com위 Kaggle Dataset을 이용하기 위해 Kaggle API t..

머신러닝 모델의 성능을 저하시키는 한 요인은 데이터의 Feature 수가 많아 학습 속도가 느리고 성능이 낮아지는 '차원의 저주' 현상 때문입니다. 차원이 증가할수록 설명력을 유지하기 위한 데이터의 양이 증가하는 것과 아래 그림처럼 차원이 증가할수록 데이터 포인트 간의 거리는 증가하고 의미 없는 공간이 커져 성능이 저하되는 것입니다. 차원의 저주를 해결할 수 있는 기법 중 하나인 PCA, 주성분 분석은 데이터 내 존재하는 노이즈(Noise)을 제거하고 축소된 차원 덕에 연산량이 줄어드는 효과를 가집니다. 즉, PCA의 가장 중요한 원리는 데이터의 차원을 어떻게 축소시키는 것입니다. 수학적으로 차원을 축소하는 것을 '투영(Projection)'이라고 합니다. 투영은 N차원 공간의 데이터를 (N-1)차원 공..

머신러닝 카테고리의 이번 글은 비지도학습 알고리즘의 한 종류인 KMeans 알고리즘의 개념과 동작 원리에 대해 설명하겠습니다. KMeans 알고리즘은 label이 없는 데이터를 분류하는 알고리즘입니다. KMeans 알고리즘은 label이 없는 데이터를 분류하기 때문에 knn 알고리즘처럼 정확한 분류를 하는 것은 불가능합니다. 따라서 비슷한 특성을 가진 데이터끼리 군집화를 해 분류하는 방법으로 데이터를 분류합니다. KMeans 알고리즘의 대략적인 동작원리는 각 군집의 평균을 활용해 K개의 군집으로 묶은 후, 가깝게 위치하는 데이터를 비슷한 특성을 지닌 데이터로 여기고 같은 군집으로 만드는 것입니다. KMeans 알고리즘 동작원리 순서군집의 개수, K값 정하기랜덤으로 K개의 초기 중심점(Centroi..

이번 머신러닝 카테고리의 글에서는 knn 알고리즘과 더불어 지도학습 분류 모델 중 하나인 Support Vector Machine(SVM)의 개념과 동작 원리에 대해 설명하겠습니다. SVM은 데이터의 클래스를 분류하는 최적의 경계를 찾는 알고리즘입니다. 이때의 경계는 반드시 선형이어야 하는 조건이 존재합니다. SVM는 Margin을 최대화하는 최적의 경계라 정의합니다. Margein(마진)은 각 클래스의 말단에 위치하는 데이터들 사이의 거리를 뜻합니다. 우리는 오직 각 클래스의 말단에 위치하는 데이터들만을 이용해 경계를 찾는 것이 핵심입니다. 최적의 경계를 찾는 데 사용하는 Margin에 위치하는 데이터들을 Support Vector라고 정의합니다. Margin(마진)을 구하기 위해서는 선형대수학의..

머신러닝 카테고리의 네 번째 글에서는 지도학습 중 하나로 새로운 data를 미리 정의된 label 중 하나로 분류하는 K 근접 이웃 알고리즘(K nearest neighbor algorithm)에 대한 설명과 동작원리에 대해 설명하겠습니다. K 근접 이웃 알고리즘(knn)은 거리 기반으로 새로운 data를 미리 정의된 label 중 하나로 분류하는 알고리즘입니다. knn은 위 그림처럼 label이 정해진 데이터에 한해서 분류를 진행하는 지도학습 알고리즘의 종류입니다. 데이터가 적은 상황에서도 간단한 모델로 높은 분류 정확도를 가지는 것이 가장 큰 장점입니다. knn 알고리즘의 동작 원리는 학습 데이터와 새로운 데이터 간의 거리를 측정하여 가장 가까운 k개의 data들의 label 중 가장 많은 비율을..

머신러닝 카테고리의 세 번째 글에서는 지도학습 중 하나인 선형회귀에 대한 개념과 동작원리를 설명하겠습니다. 이 글의 목차는 다음과 같습니다.선형회귀의 개념선형회귀 동작원리(Gradient Descent)1. 선형회귀의 개념선형회귀는 독립변수의 패턴에 따라 종속변수가 어떻게 변하는지 보여주는 것입니다. 즉, x값의 변화 추이에 따라 y값의 변화 추이를 알아보고 새로운 x값이 들어오면 가장 정확한 y값을 예측하도록 해주는 모델입니다. 선형회귀의 기본적인 모델은 다음과 같습니다. 우리가 잘 알고 있는 일차함수의 모습이 선형회귀 모델이 됩니다. 선형회귀의 목표는 위의 모델에서 파라미터 w와 b를 추정하는 것입니다. 우리가 가지고 있는 데이터셋은 x값과 f(x)값을 대표하고 이들의 선형적인 패턴을 가장 잘 설명하..

머신러닝 카테고리의 두 번째 글에서는 머신러닝의 분류와 머신러닝 알고리즘을 모델링할 때 고려해야 하는 과적합에 대해 다뤄보겠습니다. 이 글의 목차는 다음과 같습니다.지도학습비지도학습Overfitting과 Underfitting 1. 지도학습머신러닝의 분류에서 첫 번째로 다룰 항목은 지도학습(Supervised Learning)입니다. 이전 글에서 머신러닝에서 가장 중요한 것은 data에 맞는 함수를 만들고 실제값에 근접한 예측값을 추출하는 것이라 언급하였습니다. 머신러닝은 data의 성질에 따라 각각 적절한 함수(모델)가 분류되어 있습니다. 먼저 지도학습 알고리즘은 분석에 사용되는 data 내에 label이라는 정답이 존재할 때 사용됩니다. 지도학습의 목적은 새로운 data의 label을 분류하거나 예측..

머신러닝 카테고리의 첫 번째 글에서는 머신러닝이 무엇이고 그 범위와 활용에 대해 알아보겠습니다. 제가 처음 머신러닝과 딥러닝을 이용한 데이터 분석가가 되겠다고 했을 때 머신러닝과 딥러닝에는 차이가 없는 단어라고 생각했습니다. 하지만 공부를 하면 할수록 두 단어는 엄연히 다르다는 것을 알 수 있었습니다. 이 글의 목차는 다음과 같습니다.머신러닝의 뜻과 개머신러닝과 딥러닝의 차이머신러닝의 활용 1. 머신러닝의 뜻과 개요머신러닝은 표현하는 방법은 아주 많지만 관통하는 가장 큰 뜻은 주어진 데이터를 학습하기 위한 모델을 생성하는 과정입니다. input data를 학습하기 위해 함수 F(x)를 구현하여 Output값을 추출하는 것이죠. 결국 머신러닝에서 가장 중요한 것은 data에 맞는 F(x)를 만들고 실제값..
안녕하세요 데이터분석가를 희망하는 up_one입니다데이터 분석가를 꿈꾸며 경영학과에서 데이터 분석 관련 내용을 공부한 지 벌써 2년째네요다양한 주제의 프로젝트도 참가하고 나름 관심 분야도 생겨 대학원에 진학해 더 깊게 공부하고자 하는 목표가 있습니다 티스토리를 이용해서 지금까지 공부한 내용을 정리해서 복습하는 효과도 얻고 관심 분야가 같은 분들과교류하고자 합니다. 우선적으로는 머신러닝과 선형대수학 분야에 대해 업로드를 할 계획입니다. 많이 부족하겠지만 One a day 꾸준히 하루에 하나씩 업로드해보겠습니다.감사합니다.
- 머신러닝 #project #classification #dacon
- #물고기 종류별 대어 찾기 #즐겨찾기가 가장 많은 식당 정보 출력하기 #mysql #programmers
- seaborn #데이터시각화 #타이타닉
- #tf idf
- #seq2seq #encoder #decoder #teacher forcing
- python #프로그래머스 #겹치는선분의길이
- 잘라서 배열로 저장하기 #2차원으로 만들기
- python #프로그래머스 #리스트 #인덱싱
- subquery #sql 코딩테스트
- 프로젝트 #머신러닝 #regression #eda #preprocessing #modeling
- #opencv #이미지 연산 #합성
- python #deque #프로그래머스 #공 던지기 #문자열 계산하기 #코딩테스트
- 머신러닝 #xgboost #
- #프로그래머스 #안전지대 #시뮬레이션
- 딥러닝 #오차역전파 #연쇄법칙 #계산그래프 #최적화
- gan #생성자 #판별자 #적대적 신경 신경망 #딥러닝 #computer vision
- nlp #토큰화 #nltk #konply
- 자연어 처리 #정제 #정규표현식 #어간 추출 #표제어 추출
- #attention #deeplearning
- 로지스틱 회귀 #오즈비 #최대우도추정법 #머신러닝
- pca #주성분분석 #특이값분해 #고유값분해 #공분산행렬 #차원의 저주
- html #javascript #구구단 출력
- 파이썬 #시각화 #matplotlib
- 머신러닝 #lightgbm #goss #ebf
- 파이썬 #코딩테스트 #프로그래머스 #스택 #큐
- #자연어 처리 #정수 인코딩 #빈도 수 기반
- #opencv #이미지 읽기 #이미지 제작 #관심영역 지정 #스레시홀딩
- # 프로그래머스 #연속된 부분수열의 합 #이중 포인터 #누적합
- randomforest #bagging #머신러닝 #하이퍼파라미터 튜닝
- #python #프로그래머스 #외계어사전 #itertools #순열과조합