2.1 경기 데이터 구조
경기 상황을 분석할 수 있는 요소를 선정하여 피처로 구성했다
2.2 모든 피처의 레이블 별 출루 대비 아웃 비율 분석
그림 1. 데이터의 모든 피처별 출루, 아웃 수 시각화
Figure 1. Visualization of On-Base and Out Counts for each Feature
전반적으로 아웃 카운트가 출루 카운트보다 높은 경향을 보이는 가운데 유일하게 3 ball 상황에서는 출루 카운트가 아웃 카운트보다 높은 결과를 보였다. 반면, 2 strike 상황에서는 아웃 카운트와 출루 카운트가 2배 이상의 차이를 벌렸다. 차례대로 볼넷과 삼진 아웃을 목전에 둔 3 ball과 2 strike 상황에서의 결과 대비로 미루어 심리적 요인이 타격의 질에 유의미한 영향을 미친다는 사실을 확인할 수 있었다. 1 ball과 2 ball 상황에서도 출루 대비 아웃 카운트가 높게 합산되었으나 이처럼 중간적 성질을 띤 상황에서는 strike 카운트와 같은 다른 요인들을 무시할 수 없으므로 보다 세밀한 분석이 필요할 것으로 추정된다.
3.1 데이터 전처리
그림 2. 데이터의 모든 피처의 스케일링 전 분포 시각화
Figure 2. Visualization of the Distribution of All Features Before Scaling