'데이터 사이언스(Data Science)' 카테고리의 글 목록 (4 Page)

[Machine Learning] 머신러닝에서 키포인트

Key Lessons for ML [Domingos, 2012] ● Learning = Representation + Evaluation + Optimization ● It’s generalization that counts: generalize beyond training examples ● Data alone is not enough: “no free lunch” theorem--No learner can beat random guessing over all possible functions to be learned ● Intuition fails in high dimensions: “curse of dimensionality” ● More data beats a cleverer algorithm: ..

데이터 사이언스(Data Science)/머신러닝,Machine Learning, 기계학습 2020.08.10

[Machine Learning] 머신러닝이란? , ML

이 문서를 참조해도 좋다. 다음엔 이 글을 봐도 좋다. 머신러닝이란?, ML이란? Machine Learning 이란? Machine learning: teach computers to learn with data, not by programming 프로그래머가 하나부터 열까지 프로그래밍해서 결과를 도출해내는 것이 아닌 데이터를 통해 컴퓨터를 가르치는 것이라고 볼 수 있다. 다시 정의해 보자면 A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improv..

데이터 사이언스(Data Science)/머신러닝,Machine Learning, 기계학습 2020.08.10

[Data Integration] 데이터 융합이란?(Data Integration)

이 파일을 바탕으로 데이터 융합 튜토리얼 진행을 해보겠다. 데이터 융합이 무엇이냐?? 우선 데이터 융합이라고도 하는 Data Integration 이다. 다양하고 자율적인 자료뭉치 속에서 통합적인 데이터 접근을 제공하는 것이라고 한다. 우리가 궁극적으로 목표하는 바는 다른 영역의 자료들로 가치있는 데이터를 생성하는 데 목적이 있다고 보면 되겠다. 글에는 2가지 예시가 나온다. 1. Data Warehouse 2. Virtual Intergration 1. 데이터 웨어하우스란 아마존의 설명 을 보자면 "정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 리포지토리" 라고 하는데 나는 이 말을 //정보 자체는 (RAW)한 파일은 분석에 당장 쓸 수 없다. 즉 쓰려면 전처리를 해야하는데 데이터..

데이터 사이언스(Data Science)/데이터 분석, 자료분석(Data) 2020.08.10

[Python] pandas에서 반복적인 행 접근할 때(Data Processing)

***맨 아래 방법별 속도가 요약 되어있다. 데이터 처리를 할 때 index(거의 행) 마다 접근을 하면서 그 값을 조작하는 경우가 많은데 예를 들어, 결측치(missing value)를 다른 값으로 바꾸고 싶을 경우 반복적으로 접근을 해야 한다. ++결측치가 한 두개가 아니니까..? 많이 조작을 해야겠지??? 사람들이 말하길 4가지가 있다고 한다. 1) pd.iterrows() *조금 느리다는 단점이 있다.(??? 그렇다네) iterrows() 자체가 그냥 모든 행을 반복 접근한다고 보면 된다. +++ iterrows()는 Series for each row를 return 한다. 그래서 이런 식으로 짠다면 1. (df, col)을 argument로 가짐 2. df를 iterrows(): 를 적용하면 "..

데이터 사이언스(Data Science)/데이터 분석, 자료분석(Data) 2020.08.06

[NLP]자연어 처리 word2vec 개념 쉽게 정리

youtu.be/sY4YyacSsLc 이것을 보는 것도 좋겠다. 이 글의 목적은 정확한 개념을 아는 것이고 쉽게 아는 것이다. Abstraction이랄까. 모든 것을 버리고 중요한 것만 남겨보자 물론 나도 공부 중이라 정확하지 않을 수 있다. **나오는 용어들 Encoding Embedding Similarity 자연어 처리에서 왜 word2vec이 쓰이는가??? 자연어 처리라는 것에 대해 간단히 말하고 넘어가자면 "사람들이 말하는 말"을 자연어라고 한다. 그렇다면 처리는 왜하느냐?? 흔히 컴퓨터라고 하는 기계는 사람말을 못알아먹는다. 그래서 알아들을 수 있게 처리하는 것이다. ** 여기서 그럼 자연어를 컴퓨터가 알아들을 수 있게 숫자로 표현하려고 하는 방법을 뭐라할까? Encoding이라고 한다. 그래..

데이터 사이언스(Data Science)/데이터 분석, 자료분석(Data) 2020.08.05

[Dialogflow] 메뉴 주문 챗봇 , 간단하게 챗봇 만들기

구글에서 제공하는 플랫폼으로 오픈소스니까 무료로 사용 가능하다. https://dialogflow.cloud.google.com/ Dialogflow Updating Actions on Google... dialogflow.cloud.google.com 위의 링크로 들어가면 된다. 챗봇이라고해서 별거 있지는 않다. 다만 한글 챗봇을 만들고 싶다면 영어보다 정확도가 떨어지는 것은 감수해야 한다. 한글이 컴퓨터가 받아들이기 아직 어렵나보다. 우선 무턱대고 만들어보자 1. Agent 생성 1번에 이름을 쓰고 2번에서 주요 언어를 정한다. 나머지 조건들은 신경쓰지 않아도 좋다. 메뉴 주문 받는 챗봇을 만들어보자 물론 난 한국어로 만들거다 2. Intent 생성 Intent란 말 그대로 의도를 말한다. 챗봇을 사..

데이터 사이언스(Data Science)/머신러닝,Machine Learning, 기계학습 2020.08.04

[Python] pandas tutorial, 판다스 기본 알아보자

pandas는 데이터를 시각화 하기에 좋은 도구라고 알려져있다. 그렇지만 단독으로는 안 쓰이고 Numpy, matplotlib, scikit-learn 등 다른 라이브러리랑 같이 쓰인다. 오픈소스로 누구나 무료로 이용할 수 있어 인기가 많아지는 라이브러리 중 하나이다. import 할 떄는 보통 "import pandas as pd" 로 하므로 pd.xxxx가 붙으면 pandas 라이브러리의 뭔가를 쓰나보다? 라고 생각하면 되겠다. 1. pandas의 2가지 자료구조 Series와 DataFrame이 있다. 뭐 만능은 아니지만 알아야 뭔가를 하니까 알아놓자 Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조를 말한다. ++어떠한 NumPy 자료형이라도 담을 수 있다. 색인(index)라..

데이터 사이언스(Data Science)/데이터 분석, 자료분석(Data) 2020.07.09

LDA(Latent Dirichlet Allocation) 잠재적 디리클레 할당 아무것도 모르고 실습해보기

https://blog.naver.com/pdc222/220669844374 LDA(Latent Dirichlet Allocation) 무작정 실습하기 LDA알고리즘은 LSA 알고리즘에 비해서 이해도가 다소 필요하다. LSA 가 단어들의 빈도를 바탕으로... blog.naver.com 이 분의 가이드를 따라가봤다.

데이터 사이언스(Data Science)/머신러닝,Machine Learning, 기계학습 2020.07.08

노는 게 제일 좋아

데이터 사이언스(Data Science) 38

티스토리툴바