728x90
반응형

데이터 사이언스(Data Science) 38

Data Science 훑어보기

개요 데이터 사이언스를 접하기 앞서 데이터에 관한 용어와 데이터 사이언스의 목적 및 그 세부 분야에 대한 정의 및 설명 데이터 과학의 기본적인 배경지식을 설명함 데이터 마이닝 Large datasets으로부터 패턴이나 지식(정보)를 찾아내는 것 -> 어떻게 찾아야할 지 방법을 알아내는 것에 목적이 있음 머신 러닝 A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E. [ "경험 E"로 인해서 "테스크 T"에 관..

퍼셉트론으로 결정경계 생성, Perceptron

퍼셉트론으로 임의의 포인트들에 대하여 이진 분류하고자 한다. numpy 와 pyplot만 이용해서 구현할 생각이다. 임의의 점과 레이블 설정 한 번 주어진 포인트에 대해서 시각화를 해보았다. 그런대로 잘 나왔다. 이제 결정경계를 만들기 위해서 임의로 가중치를 정해서 결정경계를 만들어보자 가중치로 만든 결정경계 직선을 그리는 함수를 만들었다. 입력은 가중치(np.ndarray(1,3)을 받는다. 주어진 임의의 가중치가 어떻게 그려지나 한 번 살펴봤다. 이제는 퍼셉트론의 원리를 이용해서 가중치 곱에 대한 합을 기준으로 분류를 하고 다르다면 해당 결정경계를 업데이트 하는 방식으로 진행할 예정이다. Perceptron은 learning rate 와 iteration 수, threshold를 결정하여 클래스를 구..

K-Means 프로젝트, Unsupervised Learning

클러스터링 중 가장 유명한 기법으로 분포되어있는 N-Dimensional data들을 계산할 수 있는 방법이다. 좌표 평면이라면 사람이라도 어느 정도 클러스터링이 가능하겠지만 이것의 진가는 N차원일 때 드러난다. 실제로 몇가지 입력으로 실험해봤다. 크게 5가지로 나누어서 실행했다. 더보기 1) Data loading cell 2) findClosestCentroids function cell 입력데이터 X (m x n) 와 K개의 중앙점 위치 c (K x n)가 주어졌을 때, 각 입력데이터가 몇번째 중앙점과 가장 가까운지 계산하여 idx 로 반환한다. 이때 idx는 m-dimensional vector이며 0에서 K-1 사이의 인덱스로 이루어져있다. 3) computeMeans function cell ..

자연어 처리 논문 분석 주제 - Opinion Mining and Sentiment Analysis

Opinion_mining_and_sentiment_analysis로 정함 https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7724305 21.11.06 정함 1 해당 논문을 왜 선정하였는지 2 어떠한 문제를 푼 논문인지, 해당 문제가 왜 중요한지 3 해당 문제를 풀기 위하여 기존에 어떤 연구들이 있었는지 4 이러한 과거 연구의 문제점 혹은 개선점은 무엇인지 5 해당 문제점을 해결하기 위해 어떠한 방법론을 제안하였는지 6 해당 방법론이 정말 더 좋은지 어떻게 검증하였는지 (정량적, 정성적) 7 해당 논문에서 제시하는 방법 및 실험에 한계는 무엇인지 에 대해 분석할 것임 1. 이 논문을 분석하는 이유는 사람이 말할 때 생각을 가지고 말한다는 가정 하에 ..

CNN, Covolutional Neural Network, 합성곱 신경망이란?

컴퓨터 비전, CV 에서 대표적으로 사용되는 신경망이라고 알고 있다. CNN 뉴스채널 아니고 합성곱 신경망이다. 이제 알아보자 이미지 분류하면 어떤 신경망을 쓰냐 하면 바로 CNN이 나올 정도로 이미지에 강한 면모를 보이고 있다. ++ Image Recognition=이미지인식 CNN을 이해하기 위해서는 합성곱(Convolution) 과 풀링(pooling)이란 개념을 알아야 한다. 사실 filter, stride, slide 등 많이 알아야 한다. 결국 어차피 이미지를 예를 들어 설명해볼 것이다. 이 그림을 보면 왜 컴퓨터가 이 사진을 차로 인식하게 되는가? 를 알려주는 순서다. 차를 넣으면 비트맵과 같이 매트릭스를 만들고 흑백일 경우 grayscale 0-255의 8비트를 가지며 filter로 슬라이..

Deep Learning, 딥러닝의 구성

[리뷰/IT] - 처음 시작하는 딥러닝 / 세스 와이드먼 [책리뷰] https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/ 이 분의 저서를 참고했다. 나 책 있다. 딥러닝의 구성은 크게 2가지로 나눌 수 있다. Neural Network한다면 이렇게 생긴 것을 떠올린다. 우리는 입력에 대하여 층을 거치면서 계산을하고 출력을 발생시킨다.(Forward) 출력에 대하여 Loss 계산을 하고 해당 Loss 함수에 대한 도함수를 구한다.(Backward) 해당 도함수를 이용하여 Loss가 낮은 쪽으로 층을 개선시켜 다음의 입력에서 Loss를 낮추는 것이다. (Optimizer & Trainer) 한 번 살짝 보자. Input, Weigh..

신경망 기본 원리 - 합성함수

심하게 말하면 개나 소나 심지어 물고기까지 한다는 딥러닝... 교수님께서는 딥러닝을 모르고도 쓸 수 있는 것이 딥러닝인 반면에 딥러닝을 알려고도 하지 않는 사람들에게 비판 아닌 비판을 하셨다. 내 마음이 심히 찔려서 기초부터 공부하기로 하였다. 시작하자 신경망의 동작원리를 알기 위한 모델을 소개한다. 바로 합성함수다. 정확하게 말하면 합성함수에 대한 도함수, derivative에 대해서 알아본다. ?? 왜 합성함수냐..??라고 생각할텐데 쉽게 설명하자면 원숭이 엉덩이는 빨개 빨가면 사과 사과는 맛있어 맛있으면 바나나 바나나는 길어 길으면 기차 기차는 빨라 빠르면 비행기...와 같이 원숭이 엉덩이에서 비행기까지 도출할 수 있다. 실제로 아무관계가 없을지라도 위의 과정을 거쳐서 나왔으므로 맞는 말이라고 생각..

딥러닝 챗봇 만들기 - 4 (실제 프로젝트 만들어보기)

실제 내용은 7장부터 시작이어서 나도 7장부터 시작하려고 한다. 근데 Mysql 미치겠다. ㅋㅋㅋ 내가 루트계정 권한을 안주고 종료했는지.. 접속이 안된다. 노트북 바꿀 때 잘못설치한듯.. 무슨 에러 겁나 떠서 재설치도 제대로 안되고.. 그냥 8.0.20 버전으로 새로 깔았다.. 그 이후 쭉쭉 진행이 됐다. 그렇게 DB를 생성하고 DB 접속하기 위해서 DB 정보 모듈도 만들고 그랬는데 DB_HOST = "127.0.0.1" DB_USER = "chatbot" DB_PASSWORD = "1234" DB_NAME = "chatbot" def DatabaseConfig(): global DB_HOST, DB_USER, DB_PASSWORD, DB_NAME 정작 create_train_data를 하는 과정에서 ..

LSTM, Long Shor Term Memory ; RNN 확장 신경망

RNN은 이미 배웠다. 어텐션이 RNN의 단점을 보완하기 위해 나온 것처럼 LSTM도 그 RNN을 보완하기 위한 방법이다. 특히 길이가 길어질수록 앞쪽의 데이터의 내용이 뒤로 전달되지 않는 장기 의존성 (Long-Term Dependency)가 발생하기에 LSTM으로 이를 해결하고자 했다. Hence standard RNNs fail to learn in the presence of time lags greater than 5 – 10 discrete time steps between relevant input events and target signals. The vanishing error problem casts doubt on whether standard RNNs can indeed exhibi..

딥러닝 챗봇 만들기 - 3 (파이썬 이용하기)

파이썬의 기본들을 알고가야 한다고 한다. 내가 아무리 책을 따라간다고 해도...? 이미 아는 것 까지 따라가는 것은 시간낭비니까..ㅎ 읽으면서 내가 놓쳤던 부분이나 모르는 것 또는 중요한 것만 짚고 넘어가자. 파이썬은 우선 내장함수란 것이 존재한다. 우리가 어떠한 패키지(라이브러리)를 import 하지 않아도 쓸 수 있는 것들을 모아놓은 것이 있다. 바로 그것이 Built-in Method라고 한다. docs.python.org/3/library/functions.html Built-in Functions — Python 3.9.1 documentation Built-in Functions The Python interpreter has a number of functions and types built..

728x90
반응형