728x90
반응형

데이터 사이언스(Data Science) 38

[Python] DataFrame으로 csv파일 만들기, excel만들기

그냥 제일 많이 만드는 파일이 csv파일이니까 csv파일을 예로 들어서 알아보자 excel이나 csv는 차이 없다. 그냥 이름만 달라진다. https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html pandas.DataFrame.to_csv — pandas 1.1.0 documentation If str, represents compression mode. If dict, value at ‘method’ is the compression mode. Compression mode may be any of the following possible values: {‘infer’, ‘gzip’, ‘bz2’, ‘zi..

[문서 유사도] 코사인 유사도 판단

https://euriion.com/?p=548 Cosine Similarity - 코사인 유사도 - TOTAL DATA SCIENCE 삼각함수와 선형대수학에 대한 기본적인 배경지식이 있다면 코사인 유사도는 매우 쉽습니다. 아닌 경우에는 개념을 잡는 것이 어려울 수 있습니다. 이 글에 대해서 이 글은 조금 쉽게 풀어서 � euriion.com 위를 참고했다. 우선 나는 엑셀로 파일을 받아서 각 문서의 유사도를 알아보려고 했다. 1. 문서는 row마다 다르다. 2. 문서의 사이즈는 195개이다. 3. 문서의 column 중 유사도를 판단할 수 없는 것은 뺀다. 4. 문서는 한글로 되어있어 Konlpy를 쓴다. 5. 코사인 유사도를 사용해서 구해본다. 대충 위의 생각을 가지고 접근해보았다. 위와 같은 라이브..

베이지안 추론이란, Bayesian inference? + 베이지안 분류,Bayesian classification

https://sumniya.tistory.com/29 베이지안 추론(1) - 이론 개인적으로는 통계의 본질은 실제 세계의 문제를 확률분포로써 수학적으로 모델링하고, 가정한 분포의 parameter를─error를 컨트롤하면서 이를 최소화하며─추정하는 학문이라고 생각합니다. 따 sumniya.tistory.com 위 글을 읽고 쉽게 설명해보자는 느낌으로 정리하려고 한다. 우선 데이터분석에서 왜 배워야 하느냐?? 우리는 경험적으로 동전을 던졌을 때 앞, 뒤가 나올 확률이 50%인 것을 알 수 있다. 그렇지만 우리가 해보지 않은 것들도 확률을 알 수 있을까?? "모른다"라고 할 수 있지만 사실 알 수 있는 방법을 모른다가 더 정확한 표현이겠다. 그래서 그 알 수 있는 방법이 바로 베이즈 정리에 입각한 베이지안..

[머신러닝] 패턴인식( pattern recognition) - 2

성능평가에 대해서 알아보자 예를 들어서 패턴 인식 시스템의 성능은 크게 2가지 기준을 가진다. 맞춘 샘플, 틀린 샘플, 그리고 기각하는 샘플의 수를 세어 그것을 이용하는 것 틀린게 분류하였을 때 발생할 위험을 고려하여 위험 정도를 수치화 하는 것이 중요하다 첫 번째 방법으로는 (1,1)과 같이 정의되는 정인식률(correct recognition rate) 기각률(rejection rate), 그리고 오류율(error rate) 를 사용한다. 이 식에서 N은 테스트 집합의 크기, 즉 테스트 집합이 가진 샘플의 개수이다. **기각이란 시스템이 결과에 자신이 없어 분류를 포기한 경우를 말한다. 거의 모든 분류기는 매개 변수를 설정하여 어느 정도 기각할지 조정할 수 있다. 정인식률 = c/N 기각률 = r/N..

[머신러닝] 패턴인식( pattern recognition) - 1

오일석씨의 패턴인식책을 공부해보자 우리는 여자친구가 안경을 써도 누군지 알 수 있다. 여자친구가 모자를 써도 알 수 있다. 만약 못 알아본다면 그날 나의 존재는 세상에서 지워질 것이다. 아무튼 우리는 누군가임을 상태가 아예 바뀌지 않는 이상 알 수 있다. 그러나 기계한테 recognition, 인식이란 정말 어려운 말이다. 그래서 우리는 패턴인식이라는 것에 관심을 가지게 되었다. 그런 분야를 살짝 알아보자면 1. 공장 자동화 2. 자연어 처리 3. 데이터 마이닝 4. 정보 검색 5. 사람 컴퓨터 인터페이스 6. 생체 인식 7. 지능 교통 시스템 8. 지능 자동차 9. 생물 정보학 10. 지능 로봇 사실 수많은 분야가 있지만 그냥 10개만 추려보았다. 이게 다 기계가 할 수 있게 사람이 노력하고 있는 분야..

[ML & DI] 머신러닝을 위한 데이터융합-5

저번까지는 데이터융합을 위한 머신러닝이었는데 바뀌었다. 자 배경지식 가자 데이터 용량부터 기가~ 제타까지 지금 상용되고 있는 것들이 테라바이트라고 볼 때, 아니 현재 게임 순위 2020.08.12 15시경 1위 게임의 용량을 알아봅시다. ? 메이플이네 대충 30기가바이트 정도 필요하다. 이 정도면 우리가 데이터를 얼마나 가지고 있는지 알고 왜 알고리즘을 공부해야하는지 알겠지? 잠와서 잠깐 딴소리했다. 다시 본론으로 가보자 데이터를 수집하고, 데이터를 레이블하고 학습,훈련을 한다. 수집한 데이터가 정확해야하고 training data가 커야 결과도 정확도가 높게 나온다. 데이터의 정확도, 반대로 에러가 있냐 없냐도 중요하다. 역시나 오류는 어디에도 존재할 수 있는 것이다. 오류가 나니까 세상이 살만하지 않..

[ML & DI] 데이터 융합을 위한 머신러닝-4

이제 4단계인 데이터 융합을 머신러닝,,을 어떻게 할까를 알아보자 또 정의부터 알아봐야겠다 ++ A data source is the location where data that is being used originates from. 여러가지 정보들과 사실들의 충돌을 해결하는 것이란다. 미시시피 강의 길이가 얼마나 되냐고 물으면 각 페이지마다 정보가 다른 것처럼 충돌이 일어날 것이다. 그니까 그림으로 설명하자면 팩트는 하나고 정보의 출처나 종류는 다양하다. 충돌이 생길 수 밖에 없다. 목표는 잠재된 진짜 사실을 찾아내는 것이다. 사실 판별을 위해서 redundancy를 이용한다고 한다. 중복이라고 생각하면 되겠다. 겹치는 정보일수록 사실이라고 판단한다는 얘기다. ++ Data redundancy is a..

[ML & DI] 데이터 융합을 위한 머신러닝-3

이번에는 Schema alignment 를 알아보자 정의를 또 살펴보자 스키마 정렬 그리고 어떤 속성이 같은 의미를 가지고 있는지 이해하는 것이다. 라는데? 어차피 이해가 잘 안되니까 더 알아보자면?? 표현 방식이 여러가지가 있는 스키마들이 있다. 물론 의미적으로 같은 것들이 모여있다. 가장 현저하게 도메인의 요소를 가리키는 것을 결정 각 스키마에서 가리키는 의미가 같은 애들끼리 묶음(Attribute Matching) 데이터 형식이 달라서 어려웠던 점을 Attribute Matching을 통해 해결했고 Schema Mapping으로 통일된 형식을 갖게함 우선 참고자료 하나 보고가자 나도 잘 모르겠지만 나중에 더 쓰지 않을까. 우선 NLP(자연어처리)에 쓰이는게 Universal schema라는 얘기같다..

[ML & DI] 데이터 융합을 위한 머신러닝-2

저번 글에서는 Entitiy Linkage를 봤으니 이번엔 Data Extraction을 볼 차례이다. 또 정의부터 살펴보자 반구조화된 정보, Raw한 정보로부터 구조화된 정보(엔티티, 속성, 값)을 추출해내는 것이다. 데이터 추출방법에는 3가지 정도가 있다. ● Closed-world extraction align to existing entities and attributes; e.g., (ID_Obama, place_of_birth, ID_USA) ● ClosedIE align to existing attributes, but extract new entities e.g., (“Xin Luna Dong”, place_of_birth, “China”) ● OpenIE not limited by exi..

[ML & DI] 데이터 융합을 위한 머신러닝-1

이 글을 읽고 오자 이 글도 이전의 글에서 이어서 설명하는 것이다. 데이터 융합은 4단계가 있다고 했다. ● Entity linkage: linking records to entities; indispensable when different sources exist ● Data extraction: extracting structured data; important when non-relational data exist ● Data fusion: resolving conflicts; necessary in presence of erroneous data ● Schema alignment: aligning types and attributes; helpful when different relational ..

728x90
반응형