수리통계 분석 코딩 실습

[에이스프로젝트] 2년차 신인 선수들의 경기력 분석 본문

공모전

[에이스프로젝트] 2년차 신인 선수들의 경기력 분석

얼려먹는 요구르트 2024. 3. 30. 00:29

📌에이스 프로젝트 공모전 제출 내용에 대해 설명하겠습니다.

 

[Process]

[에이스 프로젝트란] - [주제] - [분석 과정] - [느낀점]

 

[1] 에이스 프로젝트란?

 

에이스 프로젝트 기업에서 주관하는 야구관련 공모전으로, 데이터 분석/에세이 분야로 나누어 출품작을 받습니다.

자유 주제에 자유 형식이며, 저는 데이터 분석으로 야구 정보 데이터 분석을 진행했습니다.

 

 

[2] 주제

신인 선수 경기력 분석을 통한 신인 선수 인재 발굴 전략 수립!

 

주제 분석 흐름

1) 신인 선수들 간 실력차 존재
- 신인 선수들의 경기력 분석: 신인상 수상자와 비 수상자의 승률 차, 투수간 ERA  지표 비교
2) 신인 선수들이 두려워하는 "소포모어 증후군" 영향 인자 파악
- EDA를 통해 소포모어 증후군과 연관되어 있는 영향인자 파악
3) 투/타별 징크스 유무 예측 모델링
- 클러스터링 모델을 이용해 투/타별 징크스 유무 군집 분석 예측 모델 

 

주제를 하고자 한 이유

신인 선수의 등장은 스포츠 세계에서 항상 큰 관심을 끌고 새로운 루키의 탄생은 팀의 분위기를 바꿉니다. 저는 한화를 좋아하는데, 한화의 문동주, 문현빈 선수의 등장은 한화의 성장을 기대하게 만드는 선수들이었습니다. 그런데, 이런 신인 선수들을 잘 발굴해내려면, 이들의 능력을 잘 이끌려면 어떻게 해야할까라는 물음에서 부터 본 프로젝트를 시작했습니다.

전체적인 분석 파이프라인

전체적인 데이터 분석 흐름 과정은 위와 같습니다.

 

 

[3] 분석 과정

제가 맡은 과정은 아래와 같습니다. 전반적으로 참여했으며, 특히 분석 프로세스를 잡고 EDA시각화를 주로 했습니다.

맡은 내용 세부 사항
전체 프로세스 정리 주제 선정 및 분석 파이프 라인 설계
EDA & 모델링 선수 정보 크롤링, 선수 경기력 EDA,
승/패 영향 요소 인자 분석
시각화 태블로를 이용한 신인 선수의 승률, 투수 경기력 시각화
보고서 작성 개요 작성, 분석 맡은 부분 내용 기재

 

맡은 내용의 EDA & 모델링, 시각화 방법은 아래와 같이 진행했습니다. 

 

※ 사실 승/패에 영향을 주는 요인이 무엇이 있는지 찾아내는 모델링을 했었는데, 유의미한 결과를 도출하진 못해, 조금 더 디벨롭을 하면 좋을 것 같습니다. 이 내용은 아래 Appendix부분에 작성했습니다. 

 

[1] EDA 

EDA를 통해, 신인 선수들의 승률 분석을 통한 경기력 차이 유무 입증했습니다.

먼저 아래처럼 신인상 수상자, 비수상자에 따라 승률을 비교해 실력차가 있을 것으로 분석하고, 투수 역량을 비교하며 실제로 신인 선수별로 역량 차가 존재함을 보였습니다. 결론적으로 신인선수별 어떤 역량으로 인해 실력차가 발생하는 지를 분석했습니다. 

 

 

[2] 시각화

 

앞선 시각화를 위해선 크롤링을 통해 선수 데이터를 크롤링 한 후 태블로를 이용해 데이터를 시각화했습니다.

크롤링 방식과 태블로 시각화는 아래 링크를 클릭해 각각 방식을 확인하실 수 있습니다.

데이터 수집 및 시각화
크롤링: 선수 데이터 크롤링
시각화: 태블로 (bar plot, map chart, directed graph)

 

 

 

[4] 느낀점

분석 주제부터 분석 파이프라인을 혼자 짜고 프로젝트를 이끌어 보면서, 분석 방향을 고려하는 과정에 대해 배울 수 있었습니다. 단순한 질문에서부터 시작했던 프로젝트이지만, 여러 분석 기법을 사용하며 데이터 분석부터 특히 분석 개요 잡기, 데이터 시각화 실력을 높일 수 있었던 것 같습니다. 또, 이전에 데이터 분석을 나갈땐 관심 분야가 아닌 분야를 하다보니 분석 주제를 잡고 과정을 떠올리기가 어려웠는데 평소에 좋아하는 야구 관련 분석을 하다보니 재밌게 할 수 있 수 있었습니다!

 

Appendix

실패한 분석 모델링: 승패요인으로 중요하게 생각되는 지표 산출하기 

 

 

위 프로젝트와 관련된 데이터, 코드 자료는 깃허브를 통해 살펴보실 수 있습니다!

'공모전' 카테고리의 다른 글

cost-sensitivity machine learning  (0) 2024.10.28
[천안시] 천안시 빅데이터 분석 - 반려승인  (0) 2024.08.26