[스타트업] [Insight] 사운들리 점심데이터 이야기: 파트 1 - 준비하기

[스타트업] [Insight] 사운들리 점심데이터 이야기: 파트 1 - 준비하기


“식사합시다!” 처럼 늘 반가운 소식을 전하는 사운들리입니다 :)


 오늘 점심 식사는 맛있게 하셨나요? 이번주에는 사운들리 직원들의 점심 식사에 대한 이야기를 해볼까 합니다. 사실 직장인들에게 점심 식사는 단순한 밥 한 끼 이상의 의미를 가집니다. 오전 업무로 인한 피로나 스트레스를 풀고 오후 업무를 위한 에너지를 충전하기 위한 중요한 시간이지요. 사운들리 팀원들도 그런 꿀~맛 같은 점심시간에 조금 더 꿀~맛 같은 식사를 할 수 있는 방법이 있지 않을까 고민하던 필자는 조그만 프로젝트를 진행하게 되었습니다.
오늘 점심시간에 무엇을 먹어야 할지 고민할 필요 없이 모든 팀원들이 만족할 만한 점심 메뉴를 예측한다!
 멋지지 않나요? 사운들리 팀원들의 점심 식사에 대한 현상을 파악하고 데이터로 분석한다면 궁극적으로 모든 팀원의 점심 식사 만족도를 높일 수 있다고 판단하였습니다. 필자는 전문적인 데이터 과학자는 아니지만 생활에서 데이터를 수집해서 간단하게 분석하여 의사 결정 수단으로 많이 활용해 왔습니다. 이번에도 그런 경험을 살려서 “사운들리 점심 데이터 분석 프로젝트"를 진행해보고자 합니다. :-) 

 이번 포스트에서는 프로젝트의 준비단계인 1) 문제 정의와 2) 데이터 수집, 3) 분석도구와 데이터 정제를 수행한 것에 대해서 얘기해 보겠습니다.

문제 정의


 본 프로젝트에서 풀고자 하는 문제 정의는 다음과 같습니다.
  • 목표
    1. 사운들리 팀원들의 점심 식사 만족도 데이터를 바탕으로 현재의 메뉴 선택의 패턴을 분석하고 미래의 선호도를 예측한다.
    2. 재미를 위해 각 팀원들의 메뉴 선택 성향 또는 패턴를 분석한다.

  • 범위/데이터 수집: 참가자는 사운들리 팀원들이며 2월 23일~4월 29일까지(약 두 달 간) 점심 식사 직후 간단한 설문조사를 진행하여 데이터 측정했다.
 목표달성을 위해서 확인되어야할 “지표”와 “탐색적 가설”들을 아래와 같이 리스트업 하고 데이터를 수집/분석하여 검증하고자 합니다.
지표
탐색적 가설
  • 점심 식사 출석률
  • 최고/최저 가성비 메뉴
  • 평균 만족도가 가장 높은/낮은 식당
  • 식당별 팀원 방문수
  • 가성비가 높은 메뉴를 보유한 식당은 재 방문 빈도가 높다.
  • 식사 만족도가 높으면 재 방문 빈도가 높아진다.
  • 가격이 싸면 재방문 빈도가 높아진다.
  • 팀원들 간 메뉴 선택에 대한 상관이 존재한다.

데이터 수집


좋은 데이터를 수집하기 위해서는 두 가지가 만족되어야 한다고 생각합니다.
  • 데이터 속성 모델링: 데이터에 가설을 증명하기 위해 필요한 속성이 모두 포함되어야 한다.
  • 데이터 수집: 수집방법이 쉬워야 한다.
 가설 증명에 필요한 속성이 모두 포함되지 않을 경우 데이터분석 단계에서 어려워 질 수 있습니다. 그런 경우에는 데이터 속성을 리모델링하여 재수집 해야할 수도 있습니다. 필자는 위 문제 정의 단계에서 세운 가설을 증명하기 위해서 <표1>과 같이 데이터 속성을 모델링 하였습니다. 매일 점심식사 후에 팀원들에게 설문조사를 의뢰하였고 구글 스프레드시트를 이용하여 데이터를 수집하였습니다. 이러한 수집방식의 장,단점을 짧게 분석해 본다면,
  • 장점: 데이터 입력이/공유가 용이하고 바로 데이터 처리에 적용할 수 있음
  • 단점: 반면, 매번 수동으로 데이터입력을 요청하고/입력해야 하는 번거로움이 있음
수집방법의 단점은 데이터의 누락/ 데이터 품질의 저하로 이어지기도 합니다. 실제로 이번 프로젝트에서도 수집된 점심 데이터에서 많은 오타가 발견되었고, 식사는 같이 했음에도 데이터 레코드에는 누락되는 경우가 종종 있었습니다.
이름날짜날씨식사전 피로도식당이름메뉴금액식사시간만족도
팀원이름yyyy.mm.dd매우맑음/맑음/흐림/비/눈/추움/더움식사전 피로도/배고픔 정도 (1~5)식당이름(한글)식사한 메뉴식사비용 (KRW)hh시 mm분식사후 만족도 (1~5)
<표1> 설문조사 형식

분석 도구와 데이터 정제


 본격적인 데이터 분석을 전에 두 가지 사항을 먼저 고려해야합니다.

사용할 분석 도구

 첫 번째로는 “어떤 분석 도구를 사용해야하는가?”입니다. 본 프로젝트에서 필자는 데이터 분석을 위해서 데이터 수집에서와 마찬가지로 <구글 스프레드시트>와 <엑셀>을 도구로 선택하였는데 그 이유는 다음과 같습니다.
  1. 데이터의 양이 크지 않아서 계산량이 많지 않았다. (9종류 속성, 145개 데이터)
  2. 시각화가 편하다.
  3. 사용 및 공유가 편하다.
이외에도 데이터 분석을 위한 도구에는 R/파이썬/하둡 등이 있습니다. 참고로 이들 도구들은 각자 포지션이 다르며 매우 간단하게 아래와 같이 요약 해볼 수 있습니다.
  • 구글 스프레드시트/엑셀: 기획자 + 스몰-데이터, 데이터 중심, 커뮤니케이션 중심, 배움의 도구
  • R: 스몰-데이터 + 좀 더 개발자
  • 파이썬: 개발자 + 좀 더 빅-데이터, 코드 중심, 개발 중심, 필요한 곳에 강력하게, 실행의 도구
  • 하둡: 진짜 빅-데이터 + 완전 개발자

데이터 정제 방식

 두 번째로는 “어떻게 데이터를 정제하는가?”입니다. “Garbage in, garbage out” 이라는 말로 알려져 있듯이 정확성이 높은 분석을 위해서 데이터의 정제는 반드시 필요한 단계입니다. 이 단계에서 데이터수집방법의 불완전성으로 인한 데이터 품질의 저하를 어느정도 막을 수 있습니다. 수집된 데이터레코드가 정해진 형식을 따르지 않는 경우도 많이 있습니다. 그러한 레코드는 R/파이썬/하둡과 같은 다른 도구에서 예외처리를 통해 쉽게 정제될 수 있지만, 구글 스프레드시트/엑셀에서는 수작업으로 정제해야 합니다. 예를 들어 필자는 아래와 같은 정제 작업을 수작업으로 진행하였습니다.
  • 메뉴명의 통일
  • 띄어쓰기 통일
  • 날씨 표현 통일 (쌀쌀 → 추움) , (구름 → 흐림), (화창함 → 맑음)
  • 시간 표시 통일 (12:40 → 12시 40분), (1시→ 13시)
  • 식당 이름 오타 수정 (남원추워탕 → 남원추어탕), (청키면가 → 청계면가)
  • 개인적인 메뉴표현 (라밥 → 라면밥)

데이터 분석 맛보기


 이번 포스팅에서는 본격적인 데이터 분석을 진행하지 않지만 맛보기로 위에서 언급한 몇가지 지표를 계산해보고 그 계산결과로 부터 간단한 결론을 도출해 보겠습니다. 우선 사운들리 점심식사 출석횟수부터 한번 살펴 보겠습니다.

1. 점심 식사 출석 횟수



<그림1> 사운들리 점심식사 출석횟수

결론1: 백엔드1님 출석횟수 1등!!

 가장 눈에 띄는 것은 백엔드1 님의 출석횟수 입니다. 총 35회로 전체 1등을 하셨습니다. 축하드립니다!!! 이것은 다르게 말하자면 필자에게 작은 일이지만 꾸준하게 점심데이터 축척해 주신것으로도 해석 됩니다. 정말 감사드립니다. :-)


결론2: 점심식사참석, 제품개발팀 > 사업개발팀

 또 한가지 데이터로부터 유추해 볼 수 있는 사실은 제품개발팀(코어+백엔드+PM+SDK)이 사업개발팀(CEO+CCO+CTO)에 비해서 식사참석횟수가 높다는 것입니다. 그 이유는 아무래도 외근을 자주 나가시는 사업팀 분들 보다 회사에 상주해 제품개발을 하시는 분들이 참석율이 높기 때문이 아닐까 생각합니다.
결론3: 수동데이터수집의 한계점이 들어남

 본 분석에서 수동 데이터수집방식의 우려 했던 부분이 들어났습니다. 그것은 "식사는 같이 했음에도 데이터 레코드에는 누락되는 경우"가 생각 보다 많이 발생하여 결과가 실제현상을 약간 왜곡되게 표현하게 되었습니다. CCO님과 CEO님은 외근이 많으셔서 다른 팀원들에 비해서 참석은 많이 못하시긴 하나, 실제로는 <그림1> 에 나타나는 정도는 아니랍니다.

2. 팀원 최빈 방문 식당



<그림2> 사운들리 팀원 방문식당 TOP10


 사운들리 사무실이 위치한 무교동에는 수많은 직장인들의 점심시간을 유혹하는 다양한 맛집들이 있습니다. 그 중 사운들리 팀원들이 가장 많이 방문한 TOP10을 꼽아 보았는데요. 다음과 같은 결론을 내릴 수 있었습니다.


결론1: 1위 푸드코트, 2위 오군순두부, 3위 고냉지김치찌개!!!

 이 세 식당은 사운들리 팀원들이 자주 가는 식당인 만큼 명불허전!입니다. 여러분도 기회가 되다면 한번 방문해서 드셔보세죠. “청계천+ 식당이름”으로 검색 고고~!

결론2: 도시락 데이 / 회식데이에 방문한 식당들이 상위에 랭크!!

 사운들리에서 매주 화요일은 “도시락데이” (싸오는게 아니고 시켜먹는 -_-)로 또한 매주 금요일은 “회식데이”로 정해서 모든 팀원들이 함께 점심식사를 갖는 시간이 있습니다. :-) (주로 한솥도시락, 종로빈대떡). 그리고 일부 팀원들께 대접 받아 전원이 함께 방문한 식당들(청계면가, 도미노피자)도 함께 TOP10에 랭크되어 있습니다. 아무래도 모든 팀원이 함께 참석하는 기회에 방문했던 식당들이 상위에 랭크되어 있네요.

3. 최고/최저 가성비 메뉴

 종로빈대떡, 청계면가, 도미노피자는 팀원들이 스스로 점심값을 지불한 식사가 아니였기 때문에 이 세 곳을 제외하고 그 외에 상위 TOP5 식당 중 가성비가 가장 좋은 메뉴들을 랭크해봤습니다. 참고로 여기서 가성비는 다음과 같이 계산했습니다.
가성비 = (식사 만족도 1~5) / (가격 KRW) *1000
그리고 다음과 같은 몇가지 결론을 얻었습니다.

결론1: 푸트 코트 메뉴들의 약진

 사운들리 평균 점심값은 6,800원입니다. 실제로 무교동+청계천 인근 대부분의 식당메뉴 가격이 7,000원 이상인 것에 비해 낮은 수준으로 유지되었습니다. 실제로 최고의 가성비를 보인 메뉴는 편의점의 “라면+김밥” 메뉴였고 푸드코트의 메뉴들이 6000원 이하의 가격대를 보이며 강력한 가성비로서의 조건으로 그 뒤를 있고 있었습니다.

결론2: 오군 순두부는 방문 횟수에 비해서 가성비는 높지 않음
 또 한 가지<[그림3>에서 주목할 부분은 오군 순두부는 팀원 방문수에서는 상위에 랭크되어 있으나 가성비는 평균값 수준이라는 사실 입니다. (평균값 0.58) 그럼에도 불구하고 사운들리 팀원들은 여전히 오군순두부를 자주 방문합니다. 궁금해지는 대목이네요.



<그림3> TOP5식당 메뉴별 가성비

데이터 분석을 마치며


 사운들리 점심 데이터 프로젝트 첫번째 포스트를 마쳤습니다. 어떠셨나요? 일상에서 소소하게 지나칠수 있는 회사 식구들과의 점심식사의 작은 데이터들이 모이니 생각보다 다양한 결과를 보여준다는 점이 흥미롭네요. 필자는 지금까지 데이터 분석을 개인적으로 조금씩 해보긴 했지만 이를 바탕으로 블로그를 써보는 것은 처음이었습니다. 이번 블로그 작성을 통해 역시 데이터분석은 분석 그 자체보다 수치적인 결과 속에 감춰진 의미를 찾아내고 때로는 새로운 가치를 보여주는 이야기를 풀어나가는 것까지도 중요함을 새삼 깨닫게 됩니다!

 또한 몇 가지 보완점에 대해서 생각하게 되었는데, 크게 요약하면
  1. 사진이 필요하다는 점
  2. 가성비와 같은 측정 값을 정의할때는 더 신중해야 한다는 점
  3. 데이터 수집을 더 편하게 해야 한다는 점
입니다. 독자 여러분들이 코멘트 많이 주시면 점점 더 보완해 나가겠습니다 (jwkang@soundl.ly로 주세요~!).

 다음 포스트에서는 좀더 많이 데이터를 축척해 가설 검증에 도전하여 재미있는 결과로 찾아 뵙겠습니다. 모쪼록 이번 데이터 분석이 사운들리 팀원들의 점심만족도 개선을 위한 좋은 첫걸음이 되도록 저도 꾸준히 노력하겠습니다! 화이팅!!

현재 사운들리에서는 안드로이드 개발자와 마케팅 담당자를 채용하고 있습니다. 관심 있으신 분들은 언제든지 사운들리의 문을 두드려주세요! 감사합니다 :) -> 채용 링크 바로 가기

댓글 쓰기