728x90
반응형

데이터 사이언스(Data Science)/머신러닝,Machine Learning, 기계학습 11

[머신러닝] 패턴인식( pattern recognition) - 2

성능평가에 대해서 알아보자 예를 들어서 패턴 인식 시스템의 성능은 크게 2가지 기준을 가진다. 맞춘 샘플, 틀린 샘플, 그리고 기각하는 샘플의 수를 세어 그것을 이용하는 것 틀린게 분류하였을 때 발생할 위험을 고려하여 위험 정도를 수치화 하는 것이 중요하다 첫 번째 방법으로는 (1,1)과 같이 정의되는 정인식률(correct recognition rate) 기각률(rejection rate), 그리고 오류율(error rate) 를 사용한다. 이 식에서 N은 테스트 집합의 크기, 즉 테스트 집합이 가진 샘플의 개수이다. **기각이란 시스템이 결과에 자신이 없어 분류를 포기한 경우를 말한다. 거의 모든 분류기는 매개 변수를 설정하여 어느 정도 기각할지 조정할 수 있다. 정인식률 = c/N 기각률 = r/N..

[머신러닝] 패턴인식( pattern recognition) - 1

오일석씨의 패턴인식책을 공부해보자 우리는 여자친구가 안경을 써도 누군지 알 수 있다. 여자친구가 모자를 써도 알 수 있다. 만약 못 알아본다면 그날 나의 존재는 세상에서 지워질 것이다. 아무튼 우리는 누군가임을 상태가 아예 바뀌지 않는 이상 알 수 있다. 그러나 기계한테 recognition, 인식이란 정말 어려운 말이다. 그래서 우리는 패턴인식이라는 것에 관심을 가지게 되었다. 그런 분야를 살짝 알아보자면 1. 공장 자동화 2. 자연어 처리 3. 데이터 마이닝 4. 정보 검색 5. 사람 컴퓨터 인터페이스 6. 생체 인식 7. 지능 교통 시스템 8. 지능 자동차 9. 생물 정보학 10. 지능 로봇 사실 수많은 분야가 있지만 그냥 10개만 추려보았다. 이게 다 기계가 할 수 있게 사람이 노력하고 있는 분야..

[ML & DI] 머신러닝을 위한 데이터융합-5

저번까지는 데이터융합을 위한 머신러닝이었는데 바뀌었다. 자 배경지식 가자 데이터 용량부터 기가~ 제타까지 지금 상용되고 있는 것들이 테라바이트라고 볼 때, 아니 현재 게임 순위 2020.08.12 15시경 1위 게임의 용량을 알아봅시다. ? 메이플이네 대충 30기가바이트 정도 필요하다. 이 정도면 우리가 데이터를 얼마나 가지고 있는지 알고 왜 알고리즘을 공부해야하는지 알겠지? 잠와서 잠깐 딴소리했다. 다시 본론으로 가보자 데이터를 수집하고, 데이터를 레이블하고 학습,훈련을 한다. 수집한 데이터가 정확해야하고 training data가 커야 결과도 정확도가 높게 나온다. 데이터의 정확도, 반대로 에러가 있냐 없냐도 중요하다. 역시나 오류는 어디에도 존재할 수 있는 것이다. 오류가 나니까 세상이 살만하지 않..

[ML & DI] 데이터 융합을 위한 머신러닝-4

이제 4단계인 데이터 융합을 머신러닝,,을 어떻게 할까를 알아보자 또 정의부터 알아봐야겠다 ++ A data source is the location where data that is being used originates from. 여러가지 정보들과 사실들의 충돌을 해결하는 것이란다. 미시시피 강의 길이가 얼마나 되냐고 물으면 각 페이지마다 정보가 다른 것처럼 충돌이 일어날 것이다. 그니까 그림으로 설명하자면 팩트는 하나고 정보의 출처나 종류는 다양하다. 충돌이 생길 수 밖에 없다. 목표는 잠재된 진짜 사실을 찾아내는 것이다. 사실 판별을 위해서 redundancy를 이용한다고 한다. 중복이라고 생각하면 되겠다. 겹치는 정보일수록 사실이라고 판단한다는 얘기다. ++ Data redundancy is a..

[ML & DI] 데이터 융합을 위한 머신러닝-3

이번에는 Schema alignment 를 알아보자 정의를 또 살펴보자 스키마 정렬 그리고 어떤 속성이 같은 의미를 가지고 있는지 이해하는 것이다. 라는데? 어차피 이해가 잘 안되니까 더 알아보자면?? 표현 방식이 여러가지가 있는 스키마들이 있다. 물론 의미적으로 같은 것들이 모여있다. 가장 현저하게 도메인의 요소를 가리키는 것을 결정 각 스키마에서 가리키는 의미가 같은 애들끼리 묶음(Attribute Matching) 데이터 형식이 달라서 어려웠던 점을 Attribute Matching을 통해 해결했고 Schema Mapping으로 통일된 형식을 갖게함 우선 참고자료 하나 보고가자 나도 잘 모르겠지만 나중에 더 쓰지 않을까. 우선 NLP(자연어처리)에 쓰이는게 Universal schema라는 얘기같다..

[ML & DI] 데이터 융합을 위한 머신러닝-2

저번 글에서는 Entitiy Linkage를 봤으니 이번엔 Data Extraction을 볼 차례이다. 또 정의부터 살펴보자 반구조화된 정보, Raw한 정보로부터 구조화된 정보(엔티티, 속성, 값)을 추출해내는 것이다. 데이터 추출방법에는 3가지 정도가 있다. ● Closed-world extraction align to existing entities and attributes; e.g., (ID_Obama, place_of_birth, ID_USA) ● ClosedIE align to existing attributes, but extract new entities e.g., (“Xin Luna Dong”, place_of_birth, “China”) ● OpenIE not limited by exi..

[ML & DI] 데이터 융합을 위한 머신러닝-1

이 글을 읽고 오자 이 글도 이전의 글에서 이어서 설명하는 것이다. 데이터 융합은 4단계가 있다고 했다. ● Entity linkage: linking records to entities; indispensable when different sources exist ● Data extraction: extracting structured data; important when non-relational data exist ● Data fusion: resolving conflicts; necessary in presence of erroneous data ● Schema alignment: aligning types and attributes; helpful when different relational ..

[Machine Learning] 머신러닝에서 키포인트

Key Lessons for ML [Domingos, 2012] ● Learning = Representation + Evaluation + Optimization ● It’s generalization that counts: generalize beyond training examples ● Data alone is not enough: “no free lunch” theorem--No learner can beat random guessing over all possible functions to be learned ● Intuition fails in high dimensions: “curse of dimensionality” ● More data beats a cleverer algorithm: ..

[Machine Learning] 머신러닝이란? , ML

이 문서를 참조해도 좋다. 다음엔 이 글을 봐도 좋다. 머신러닝이란?, ML이란? Machine Learning 이란? Machine learning: teach computers to learn with data, not by programming 프로그래머가 하나부터 열까지 프로그래밍해서 결과를 도출해내는 것이 아닌 데이터를 통해 컴퓨터를 가르치는 것이라고 볼 수 있다. 다시 정의해 보자면 A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improv..

[Dialogflow] 메뉴 주문 챗봇 , 간단하게 챗봇 만들기

구글에서 제공하는 플랫폼으로 오픈소스니까 무료로 사용 가능하다. https://dialogflow.cloud.google.com/ Dialogflow Updating Actions on Google... dialogflow.cloud.google.com 위의 링크로 들어가면 된다. 챗봇이라고해서 별거 있지는 않다. 다만 한글 챗봇을 만들고 싶다면 영어보다 정확도가 떨어지는 것은 감수해야 한다. 한글이 컴퓨터가 받아들이기 아직 어렵나보다. 우선 무턱대고 만들어보자 1. Agent 생성 1번에 이름을 쓰고 2번에서 주요 언어를 정한다. 나머지 조건들은 신경쓰지 않아도 좋다. 메뉴 주문 받는 챗봇을 만들어보자 물론 난 한국어로 만들거다 2. Intent 생성 Intent란 말 그대로 의도를 말한다. 챗봇을 사..

728x90
반응형