본문 바로가기
kt aivle

kt aivle 3기 [11주차] - AICE 시험 대비 + 미니프로젝트 5차

by mizuiro 2023. 4. 18.

1. 수업내용

AICE 시험 대비

- 2일 동안 AICE Associate 시험 대비

예상 시험 문제와 데이터를 가지고 연습하기

 

미니프로젝트 5차

주제 :

스마트폰 센서 데이터 기반 인간 행동 인식 분류

 

배경지식 : 

다양한 센서를 활용하여 사람의 모션에 관련된 정보를 수집하고 해석하여 행동을 인식하는 기술이 발전하고 있다. 이 기술을 활용하여 스마트 워치 같은 기기에 적용할 수 있다. 기기가 사람의 행동을 인식하여서 행동에 대해 반응하도록 도와주는 모델을 만들어 보자

데이터는 Human Activity Recognition 에서 들고 왔고 각각의 데이터는 센서 신호 데이터이다.

(가속도 센서, 자이로스코프 센서) 를 가지고 측정한 X, Y, Z 축에 대한 정보들을 2.56초 범위에서 샘플링한 데이터이고,

총 561개의 feature들을 가지고 있고 주어진 데이터는 null 값과 불필요한 데이터들을 삭제한 데이터이다.

과정 :

1 일차 -  각 feature에 대해서 단변량 분석과 변수 중요도를 구하면서 EDA 진행

               target 데이터를 정적/동적 구분 후 feature와의 관계 분석

2 일차 -  데이터를 가지고 모델링으로 좋은 성능을 가지는 모델 탐색

3 일차 - Kaggle 대회

 

Kaggle :

개인 대회 

- 1,2일 차에서 사용한 561개의 feature 데이터에서 50개의 feature만 추려낸 데이터를 가지고 좋은 성능 모델 만들기

- 최고 점수 : LGBM 0.7858

2. 강의 후기

AICE 시험 대비 수업을 들으면서 어떻게 시험 문제가 나올지 알 수 있었다. 연습하면서 느끼는 것이었지만 제한 시간 안에 풀 수 있을지 걱정이 된다

미니프로젝트에서 개인으로 해보는 것은 처음이라 조금 걱정이 되었다. kaggle를 개인으로 해야 되기 때문에 내가 할 수 있는 최대한 많은 모델들을 경험해 보아야 되기 때문이었다. 그래서 많은 모델들을 돌려보았던 것이 kaggle에 도움이 되었다.

kaggle 대회 할 때 lgbm으로 하면 잘 되는 것을 발견하고 계속 돌렸는데 어떻게 바꾸어도 성능이 잘 나오지 않았다. 마지막에 n_estimater와 learning rate를 함께 바꾸니 성능이 조금 올라서 상위 30%에 들 수 있었다. 

대회 도중에 문제가 있었는데 몇몇 분이 다른 분들보다 월등히 좋은 성능이 나온 것이었다. 50개로 필터링 된 데이터라서 다들 성능이 잘 나오지 않았는데 소수만 성능이 잘 나오니까 문제가 제기되었다. 알고 보니 ai 반에서 사용하고 있는 kaggle 데이터를 dx반에서 이전 수업에서 먼저 사용했어서 50개로 필터링 된 데이터의 좋은 결과 값이 있었나 보다. 그것을 사용하니 성능이 엄청 높게 나왔던 것이었다. 결국 이것에 대해 cheating이라고 판단하고 그 분들에 대해서는 내부에서 의논하고 점수를 어떻게 할지 정한다고 강사님께서 말씀하셨다. 

이 사건 때문에 많은 에이블러분들이 화가 났고 이 부분에 대해서 강사님께서 사과하셨다. 그렇지만 이러한 일이 일어나지 않게 조금만 조심해 주었으면 좋겠다. 노력한 사람보다 노력하지 않은 사람이 더 좋은 결과를 받는다는 것은 불공평한 일이지 않는가.. 그것도 대회에서는 훨씬 공정하게 해야 한다고 생각한다.

이러한 일이 앞으로 일어나지 않도록 같은 데이터를 사용하지 않고 ai/ dx 반이 같이 진도를 나가면 이러한 일이 발생하지 않았을까? 라는 생각도 들었다.