제목 | [수업&과제 소개] 통계학이란 이런 것이다! - 통계학실험 | ||||
---|---|---|---|---|---|
작성자 | 관리자 | 등록일 | 2019.08.26 | 조회수 | 17870 |
통계학이란 이런 것이다! - 통계학실험
Interviewee : 김재홍 (통계학과 19학번), 이상준 (통계학과 19학번)
Interviewer : 이동현 (통계학과 19학번)
19학번 새내기들이 입학한지 벌써 한 학기가 지났습니다. 서울대학교 자연과학대학의 경우 각 학과에 맞춰 심화된 과목이 개설되어 있고 수업이 진행되고 있습니다. 비록 교양 과목이지만 통계학과의 경우 통계학과 학생들끼리 통계학과 통계학실험을, 물리 천문학부 학생들은 물리 천문학부 학생들끼리 물리학을 화학부 학생들은 화학부 학생들끼리 화학을 수강하면서 각 과 학생들에게 더 좋은 교육을 제공하고 있습니다. 특히, 이 중에서도 통계학과 학생들이 수강하는 통계학실험 과목은 매우 특별한데 1학점인데 불구하고 1학기에 1개의 프로젝트를 진행하고 스스로 하나의 가설을 세워서 탐구를 진행하고 있습니다. 하지만 이렇게 힘든 과정을 거치면서 통계학과 학생들은 점점 발전해나가고 있고 학생들 또한 통계학의 묘미를 느끼고 있습니다.
이번 호에서는 힘든 과정을 거치면서 발전하고 있는 2명의 통계학과 학생들을 만나봤습니다. 여러분들도 이를 통해 간접적으로 통계학과에 와서 어떤 공부를 하는지 느낄 수 있을 것 같습니다.
Q1. 지금 힘들게 프로젝트를 진행하고 있다고 들었는데 구체적으로 어떤 주제를 탐구하나요?
통계학과 통계학실험의 이번 학기 메인 주제는 야구 데이터 분석입니다! 야구 경기에서 수집된 데이터를 분석하여 의미 있는 결과를 내는 작업을 하는 것이 이번 학기 프로젝트의 목표입니다. 우선, 현재 야구계에서 가장 주목받고 있는 타자의 OPS를 예측하는 것이 공통 과제로 주어져 있으며, 조별로 이외에 관심있는 주제를 선정하여 분석하는 것이 주어진 과제입니다. 저의 경우에는 OPS를 예측하는 모델을 개발하는 것 말고 통계학 실험 시간에 배운 다중회귀분석, 그리고 스스로 공부해서 익힌 여러 분석 기법들을 토대로 팀의 승률을 예측하는 모델을 개발하고 있습니다. 그럼 이제 친구들의 이야기를 한번 들어보겠습니다!
재홍: 현재 중간보고서까지 작성되어 있는 상태라 자세히 답변드리기는 어렵지만 데이터 셋을 보면 초봉의 항목이 있는데 이것이 굉장히 흥미로왔어요. 선수를 처음 영입할 때는 그 선수의 OPS의 결과치가 나중에 어떻게 나올 수 있는지 모르는 것인데 이 두 항목의 상관관계를 분석하면 구단의 스카우트 능력을 알 수 있다고 생각했고 어떤 구단이 선수의 가치를 명확히 알아보는지 탐구하고 싶어 주제를 선정했어요. 또한, 공통주제인 OPS 예측은 2018년의 다른 지표를 토대로 2019년의 OPS 예측, 모든 자료를 전년도의 OPS와 금년의 기록을 하나의 관측치 벡터로 만들어서 예측하는 작업을 하고 있어요. 즉, 전년도의 성적을 토대로 다음년도의 성적을 예측하는 작업을 하고 있어요.
상준: 지금은 dacon이라는 사이트에서 주최하는 대회의 주제를 그대로 프로젝트를 진행하고 있어요. 주제는 2019년의 한국 프로야구 타자들의 ops를 예측하는 프로젝트에요. ops는 장타율과 출루율의 합으로 선수의 타격 능력을 나타내주는 지표에요. 저의 팀은 직전년도의 ops, 타율, 홈런 등의 변수를 이용해서 다음년도의 ops를 구해주는 모델을 random forest를 이용하여 만들었는데 아직 오차가 커요. 그래서 직전년도 뿐만 아니라 2년전, 3년전의 데이터를 어떻게 적용해야 할지 고민 중이에요. 그리고 타자들의 성적은 야구공에 따라서 많이 달라지는데 올해 공인구가 바뀌어서 제대로 예측할 수 있을지는 자신이 없어요.
Q2. 고등학교 때 생각했던 통계와 지금 통계학실험을 배우면서 달라진 통계에 대한 나의 생각! (호감도 포함!!)
재홍: 솔직하게 말하자면 고등학교 때도 비슷한 과목을 배웠어요. R(통계 분석 프로그램)을 이용하여 실습 및 프로젝트를 하는 것이 더 통계적으로 생각할 수 있는 활동이라고 생각하고 저는 지금하고 있는 프로젝트와 비슷하게 고등학교 때도 통계와 관련된 활동을 많이 했었습니다. 그래서 사실 많이 생각이 바뀌지 않았어요. 통계에 대한 저의 생각은 확실히 어려운 학문이라고 생각하며, 문뜩 바로 생각할 수 있는 쉬운 것이 아니라고 생각해요. 생각하고 바라는 대로 딱딱 떨어지는 것이 드물고 자료를 전처리하는 것부터 R에 알맞은 형식으로 변환하는 것도 매우 어렵게 느껴져요. 데이터가 이쁘게 나오는 경우도 매우 드물기 때문에 매우 어려워요. 근데 이것이 통계의 매력이라고 생각해요.
상준: 고등학교 때에는 통계학을 단순히 수학의 한 분야라고만 생각했어요. 확률 같은 것들을 계산하는 것인 줄 알았던 거죠. 근데 대학교 와서 통계학 실험이라는 과목을 배워보니 제가 생각한 것과는 많이 다르더라고요. 특히, R언어를 사용해서 통계 자료들을 예측하는 프로젝트를 진행하고 있는데 처음에는 막막했어요. 그런데 필요한 지식들을 youtube나 구글을 통해 공부해보니 생각보다 재미있더라고요. 제가 생각했던 따분한 확률 계산보다 훨씬 재미있었어요. 그래서 시간이 난다면 야구 말고도 통계학을 이용한 다른 대회들도 나가보고 싶어졌어요.
Q3. 통계학과를 희망하는 학생들에게!
재홍: 미래를 생각하면 굉장히 유망한 과 중에 하나라고 생각하며, 일단 통계학과가 서울대에서만 자연과학대학에 속하고 다른 대학에서는 상경대에 속하는데 이것이 통계학과의 흥미로운 특성이에요. 이를 통해 문, 이과가 가장 융합된 과목이며 여러 분야에 대해 깊게 고민해야지 할 수 있는 과목임을 알 수 있어요. 서울대의 경우 자연대에 있는 만큼 수학적 베이스가 굉장히 강한 통계를 가르칩니다. 어려운 과목인 만큼 수학만 잘하는 것이 아니라 적용하고자하는 분야에 대해서도 정확히 알고 있어야 한다고 생각해요. 통계학과를 오기 위해서 고등학교 때 책을 많이 읽었고, 또한 고등학교 때 프로젝트를 해보면서 통계를 하는 것이 어떤 작업을 하는건지 직접 느껴봤으며 특히, 수학 공부를 열심히 하는 것이 중요하다고 생각합니다.
상준: 통계학과는 되게 응용할 수 있는 분야가 많은 학과에요. 그리고 수학적 능력과 코딩할 수 있는 능력이 모두 필요하니까 수학이나 프로그래밍하는 것을 좋아하고 그쪽으로 다양한 것을 배워보고 싶으면 통계학과를 오는 것을 추천합니다. 통계학과를 오기 위해서 통계 관련된 책을 많이 읽었고 면접이 수학 문제라 수학 공부를 굉장히 많이 했어요.