728x90
반응형

데이터 사이언스(Data Science)/데이터 분석, 자료분석(Data) 7

[Python] DataFrame에서 열 추가,삭제

https://blog.naver.com/rising_n_falling/221631637822 Pandas - DataFrame에서 열 삭제 및 추가 안녕하세요. '라이징n폴링'입니다.지난 글 'Pandas - DataFrame에서 행 추가/삭제 방법&... blog.naver.com 위의 블로그를 매일 방문해도 되지만 난 밑에 있는 것만 알면 되기에 괜찮다. import 하고 건드려야한다. ㅎㅎ 사실 열을 별로 건드리는 경우가 많진 않을 것 같지만 drop()을 쓴다. drop(['이름1' , '이름2' ] , axis = 1 , ....) 이런 식으로 쓴다. axis = 1이라고 해야 삭제를 행으로 할지 열으로 할지 결정하는 것이다. 1인 경우 열로 결정한다. 추가할 때는 assign()를 쓴다. a..

[Python] DataFrame으로 csv파일 만들기, excel만들기

그냥 제일 많이 만드는 파일이 csv파일이니까 csv파일을 예로 들어서 알아보자 excel이나 csv는 차이 없다. 그냥 이름만 달라진다. https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html pandas.DataFrame.to_csv — pandas 1.1.0 documentation If str, represents compression mode. If dict, value at ‘method’ is the compression mode. Compression mode may be any of the following possible values: {‘infer’, ‘gzip’, ‘bz2’, ‘zi..

베이지안 추론이란, Bayesian inference? + 베이지안 분류,Bayesian classification

https://sumniya.tistory.com/29 베이지안 추론(1) - 이론 개인적으로는 통계의 본질은 실제 세계의 문제를 확률분포로써 수학적으로 모델링하고, 가정한 분포의 parameter를─error를 컨트롤하면서 이를 최소화하며─추정하는 학문이라고 생각합니다. 따 sumniya.tistory.com 위 글을 읽고 쉽게 설명해보자는 느낌으로 정리하려고 한다. 우선 데이터분석에서 왜 배워야 하느냐?? 우리는 경험적으로 동전을 던졌을 때 앞, 뒤가 나올 확률이 50%인 것을 알 수 있다. 그렇지만 우리가 해보지 않은 것들도 확률을 알 수 있을까?? "모른다"라고 할 수 있지만 사실 알 수 있는 방법을 모른다가 더 정확한 표현이겠다. 그래서 그 알 수 있는 방법이 바로 베이즈 정리에 입각한 베이지안..

[Data Integration] 데이터 융합이란?(Data Integration)

이 파일을 바탕으로 데이터 융합 튜토리얼 진행을 해보겠다. 데이터 융합이 무엇이냐?? 우선 데이터 융합이라고도 하는 Data Integration 이다. 다양하고 자율적인 자료뭉치 속에서 통합적인 데이터 접근을 제공하는 것이라고 한다. 우리가 궁극적으로 목표하는 바는 다른 영역의 자료들로 가치있는 데이터를 생성하는 데 목적이 있다고 보면 되겠다. 글에는 2가지 예시가 나온다. 1. Data Warehouse 2. Virtual Intergration 1. 데이터 웨어하우스란 아마존의 설명 을 보자면 "정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 리포지토리" 라고 하는데 나는 이 말을 //정보 자체는 (RAW)한 파일은 분석에 당장 쓸 수 없다. 즉 쓰려면 전처리를 해야하는데 데이터..

[Python] pandas에서 반복적인 행 접근할 때(Data Processing)

***맨 아래 방법별 속도가 요약 되어있다. 데이터 처리를 할 때 index(거의 행) 마다 접근을 하면서 그 값을 조작하는 경우가 많은데 예를 들어, 결측치(missing value)를 다른 값으로 바꾸고 싶을 경우 반복적으로 접근을 해야 한다. ++결측치가 한 두개가 아니니까..? 많이 조작을 해야겠지??? 사람들이 말하길 4가지가 있다고 한다. 1) pd.iterrows() *조금 느리다는 단점이 있다.(??? 그렇다네) iterrows() 자체가 그냥 모든 행을 반복 접근한다고 보면 된다. +++ iterrows()는 Series for each row를 return 한다. 그래서 이런 식으로 짠다면 1. (df, col)을 argument로 가짐 2. df를 iterrows(): 를 적용하면 "..

[NLP]자연어 처리 word2vec 개념 쉽게 정리

youtu.be/sY4YyacSsLc 이것을 보는 것도 좋겠다. 이 글의 목적은 정확한 개념을 아는 것이고 쉽게 아는 것이다. Abstraction이랄까. 모든 것을 버리고 중요한 것만 남겨보자 물론 나도 공부 중이라 정확하지 않을 수 있다. **나오는 용어들 Encoding Embedding Similarity 자연어 처리에서 왜 word2vec이 쓰이는가??? 자연어 처리라는 것에 대해 간단히 말하고 넘어가자면 "사람들이 말하는 말"을 자연어라고 한다. 그렇다면 처리는 왜하느냐?? 흔히 컴퓨터라고 하는 기계는 사람말을 못알아먹는다. 그래서 알아들을 수 있게 처리하는 것이다. ** 여기서 그럼 자연어를 컴퓨터가 알아들을 수 있게 숫자로 표현하려고 하는 방법을 뭐라할까? Encoding이라고 한다. 그래..

[Python] pandas tutorial, 판다스 기본 알아보자

pandas는 데이터를 시각화 하기에 좋은 도구라고 알려져있다. 그렇지만 단독으로는 안 쓰이고 Numpy, matplotlib, scikit-learn 등 다른 라이브러리랑 같이 쓰인다. 오픈소스로 누구나 무료로 이용할 수 있어 인기가 많아지는 라이브러리 중 하나이다. import 할 떄는 보통 "import pandas as pd" 로 하므로 pd.xxxx가 붙으면 pandas 라이브러리의 뭔가를 쓰나보다? 라고 생각하면 되겠다. 1. pandas의 2가지 자료구조 Series와 DataFrame이 있다. 뭐 만능은 아니지만 알아야 뭔가를 하니까 알아놓자 Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조를 말한다. ++어떠한 NumPy 자료형이라도 담을 수 있다. 색인(index)라..

728x90
반응형