데이터 사이언스(Data Science)/머신러닝,Machine Learning, 기계학습

[ML & DI] 머신러닝을 위한 데이터융합-5

게임이 더 좋아 2020. 8. 12. 16:12
반응형
728x170

저번까지는 데이터융합을 위한 머신러닝이었는데

바뀌었다.


자 배경지식 가자

 

데이터 용량부터 기가~ 제타까지

지금 상용되고 있는 것들이 테라바이트라고 볼 때, 

아니 현재 게임 순위 2020.08.12 15시경 1위 게임의 용량을 알아봅시다.

 

? 메이플이네 

대충 30기가바이트 정도 필요하다. 

 

이 정도면 우리가 데이터를 얼마나 가지고 있는지 알고 왜 알고리즘을 공부해야하는지 알겠지?

 

잠와서 잠깐 딴소리했다. 다시 본론으로 가보자

 


 

 

데이터를 수집하고, 데이터를 레이블하고 학습,훈련을 한다.

 

수집한 데이터가 정확해야하고

training data가 커야 

결과도 정확도가 높게 나온다.

 


데이터의 정확도, 반대로 에러가 있냐 없냐도 중요하다.

 

 

역시나 오류는 어디에도 존재할 수 있는 것이다.

오류가 나니까 세상이 살만하지 않을까

 

아직 졸린듯

 

여기 통계를 보면 데이터 분야 학자들이 제일 시간을 많이 쏟는 부분이 어디냐 하니까

 

Data Cleaninng과 Organizaing Data이다. 즉 데이터를 사용하기 좋게 만드는 전처리과정에 절반 이상의 노력을 쏟고 있다. (짝짝짝)

 

그 다음은 데이터를 수집하는 시간.. 

 

활용하는 것은 어렵지 않다는 것이 결론은 아니지만 전처리하는 과정이 그만큼 시간이 엄청 오래 걸린다.

 

 

그래서 어디에서 오류가 나느냐?

 

위의 같은 상황이다. 

 


 

비일관적인 데이터에 대해서

 

..오늘은 여기까지 

반응형
그리드형