번역 블로그: 게임 개발 성과 측정 프로젝트 파트4: 야근은 게임을 망친다

원문: The Game Outcomes Project, Part 4: Crunch Makes Games Worse

이 기사는 5편 시리즈 중 4번째입니다..

파트1: 최고와 나머지 (한글) (Gamasutra) (BlogSpot) (Chinese)
파트2: 효율적인 팀 만들기 (한글) (Gamasutra) (BlogSpot) (Chinese)
파트3: 성과 요인들 (한글) (Gamasutra) (BlogSpot) (Chinese)
파트4: 야근은 게임을 망친다 (한글) (Gamasutra) (BlogSpot) (Chinese)
파트5: 위대한 팀은 어떻게 일하는가? (한글) (Gamasutra) (Chinese)
저희의 설문조사 방법론에 대한 상세한 정보는 이 블로그를 참고해주세요.
설문 조사의 로우 데이터(개인정보 제외)는 이곳에서 볼 수 있습니다.

게임 개발 성과 측정 프로젝트팀의 구성원은 다음과 같습니다. Paul Tozour, David Wegbreit, Lucien Parsons, Zhenghua “Z” Yang, NDark Teng, Eric Byron, Julianna Pillemer, Ben Weber, and Karen Buro.

게임 개발 성과 측정 프로젝트 파트4: 야근은 게임을 망친다

연속된 초과근무("크런치")는 우리 업계에서 중대한 논란의 주제입니다. 수많은 개발사가 크런치를 거쳤고, 때때로는 주당 80-100시간의 근무를 의무적으로 1년씩이나 요구하기도 합니다. 게임 업계에 있는 사람에게 크런치에 대한 의견을 묻는다면, 자신의 개인적 경험에 근거한 매우 확고한 입장을 들을 수 있을 것 입니다.

하지만 이러한 입장들은, 각각의 입장을 뒷받침할 근거가 되는 실제 데이터는 전혀 없습니다.

연속된 초과근무를 진정으로 과학적이고 객관적으로 분석하기 위해서 우리는 개별 프로젝트는 아무 의미가 없다는 인식부터 시작하였습니다. -단 하나의 입증되지 않은 사례이며 특정한 게임 프로젝트가 크런치를 얼마나 했느냐, 그리고 그 프로젝트가 성공하였느냐 실패하였느냐로부터 배울 수 있는 것은 전혀 없습니다. 그 프로젝트가 크런치를 다른식으로 수행했을 경우 어떻게 될지 반증할 수 없기 때문입니다. - 다시 말해 크런치를 했던 프로젝트가 안 했을 경우, 반대로 크런치를 안 했던 프로젝트가 크런치를 했을 경우 어떻게 되었을지 반증할 수 없습니다.

당신은 반사실적으로 더 낫다고 증명하거나 낫지 않다고 증명할 수 없습니다. - 다른 선택을 하였을 경우 어떻게 되었을지 알려면 타임머신이 필요할 것입니다.

게다가 크런치를 하면서 성공한 게임, 크런치를 안 하면서 성공한 게임 반대로 크런치를 안 하면서 성공한 게임과 실패한게임 모든 경우의 사례가 다수 존재합니다. 따라서 우리는 하나의 게임 프로젝트 성과를 크런치만 떼어놓고 크런치가 성공을 좌우한 요소라 공을 돌리거나, 실패를 결정한 요소라 책임을 지울 수 없습니다. 다른 요인들이 모두 게임 개발 성과에 영향을 끼쳤기 때문입니다. 진정으로 크런치의 영향을 측정하려면, 우리는 대규모 표본을 살펴보아야 합니다. 수백 개의 게임 프로젝트가 표본이라면 이상적이겠지요.

다행히도 우리는 게임 개발 성과 측정 프로젝트를 통해 바로 그 일을 할 수 있었습니다. 앞선 기사들을 통해 우리는 게임 개발 성과 측정 프로젝트의 기원과 기초 연구 결과를, 그리고 팀 효율성과 관련된 연구 결과와 게임 개발에만 존재하는 고유의 요인들을 추가로 살펴보았습니다. 우리는 또한 별도의 블로그 페이지에서 기술적 세부사항과 우리의 연구방법론을 설명하였습니다.

우리는 이번 기사에서 설문조사 데이터를 통해 도출된 연속된 초과근무에 대한 연구결과를 다룰 것입니다.

크런치에 대한 태도

개발자들은 크런치의 사용에 대해 놀라울 정도로 다른 태도를 보였습니다. 게임인더스트리.비즈 사이트에 실렸던 인터뷰 기사에서는 유명 개발자인 워렌 스펙터과 제이슨 루빈의 발언을 인용하였습니다:

"크런치는 나쁘다. 하지만 만약 팀원들이 스스로 환상적인 근무 환경을 위해 지불해야 하는 정당한 비용으로 생각하고, 창조적이고 성공적인 결과물을 만들어 내는 오너쉽을 고된 노동보다 더 중요하게 생각한다면, 가까운 친구들과 오랜 시간 협업하는 게 최종적으로 보람있는 일이라 판단한다면, 그리고 그들 스스로 정당한 보상을 받고 있다고 생각한다면 왜 굳이 그렇게 하지 말라고 하겠는가?" 라고 루빈은 묻습니다.

[...] "분명 크런치 없이도 완성되는 게임이 있을 겁니다. 그러나 저는 그런 곳에서 일해보거나, 그런 팀을 이끌어 본 적이 없어요. 이것이 저 자신과 제가 몸담은 사업에 대해 많은 것을 시사합니다." 스펙터가 말했다.

[...] "제가 말하고 싶은 것은 게임들은 - 후속작이나 복제품도 아닌 - 근본적으로 미리 알 수 없고, 예측할 수 없고, 관리할 수 없는 것이란 점입니다. 크런치 없는 게임 개발? 다른 게임을 그대로 베끼거나 야심 없는 후속작을 만드는 경우를 제외하면 게임 개발에서 그런 게 가능할 것 같지 않군요."

[...] "크런치는 창조적 매체에서 미지의 요인을 가지고 일하기 때문에 발생하는 결과입니다. 게임 개발은 항상 미지로 가득하기 때문에 퀄리티를 높이려 분투하는 개발사에서는 항상 크런치를 하게 돼요. [...] 30년간 게임을 만들었는데 전 아직도 크런치 없이 인정할 만한 수준의 게임을 만드는 마법사는 본적이 없어요."

다른 편에는 Stardock의 데릭 팩스턴이 Gameranx 인터뷰에서 이런 이야기를 했습니다.

"크런치는 게임을 망치기 때문에 전혀 말이 안 되요. 특정한 게임에서 크런치를 밀어붙이는 기업들이 있는데, 장기적으로 재능있는 개발자, 아티스트, 프로듀서 그리고 기획자들이 번 아웃해서 업계를 떠나버리게 됩니다."

"게임 업계의 기업들과 사람들은 크런치에 써버린 시간을 훈장처럼 자랑하는짓을 그만둬야 해요. 크런치는 망가진 업무 절차와 관리의 결과입니다. 크런치로 직원들이 희생됩니다. 전 왜 크런치가 다른 업계에서는 이슈가 되지 않는데 왜 게임회사들에만 이슈가 되는지 묻고 싶군요."

누가 옳은 걸까요? - 스펙터와 루벤? 아니면 팩스턴?

[사실공개: 게임 성과 측정 프로젝트의 구성원인 Paul Tozour은 Stardock이 퍼블리싱 하는 게임을 만들고 있는 Mothership Entertainment의 대표입니다.]

우리는 게임 개발 성과 측정 프로젝트 설문조사의 끝 부분에 3개의 답안지를 추가해서 응답자들이 업계 경험을 적을 수 있도록 하였습니다. 크런치에 대한 항목에서, 응답자들은 모두 크런치가 전체적으로 부정적인 영향을 끼친다고 이야기했습니다. 한 응답자의 답변을 가져오자면:

"우리가 가진 가장 큰 문제는 리더가 '초과 근무는 게임 개발의 일부분이다.'라고 말하면서 절대로 개선하려 노력하지 않는다는 것입니다. 수면 부족에 시달리고, 직원들은 의욕을 상실하고 희망을 잃어버리고... 모든 게 다 무너져버립니다. 주당 백 시간씩 9달 동안(절대 과장이 아닙니다) 인간은 이런 환경에선 동작할 수 없습니다 ... 내 답변을 인용하고 싶다면 편하게 사용하세요. 수많은 개발자에게 익숙한 이야기일 겁니다."

또 다른 개발자는 더 직설적으로 말했습니다.

"주당 40시간 일 시키면 38을 받고, 주당 50시간 일 시키면 39를 받고 모두가 직장을, 삶을 그리고 당신을 증오하기 시작한다. 주당 60시간 일 시키면 32를 받고 아내가 이직할 자리를 찾아보라고 요구하기 시작한다. 주당 80시간을 일 시키면 고소당한다 이 새끼야."

우리는 이번 기사에서 이 주제에 대해 아직 인터뷰하지 않은 사람으로부터 최후 변론을 들어볼 것입니다. 그는 바로 데이터입니다.

"비범한 노력" 주장

우리는 우선 "크런치 찬성"쪽의 담론을 테스트 가능한 가설로 정립했습니다. 물론 그 누구도 직접 크런치가 좋은 것이라고 말하는 사람도 없고, 크런치가 전혀 해로운한 효과를 내지 않는다고 주장하는 사람도 없지만, 앞서 보았듯이 스펙터와 루빈은 분명히 크런치는 종종(자주, 혹은 항상이 아니라면) 필요악이라고 주장했습니다.

위와 같은 생각을 따라가 보면, 평범한 일정으로 진행하는 평범한 게임 개발은 비범한 결과를 낳을 수 없다는 결론에 도달합니다. 우리는 gamesindustry.biz의 기사에서 이러한 관점을 정확히 나타내는 문구를 찾았습니다: "비범한 결과물은 비범한 노력을 요구하고, 비범한 노력은 장시간의 노동을 요구한다."

이러한 입장은("비범한 노력 주장"이라고 부르겠습니다) 반증 가능한 두 개의 가설로 나타낼 수 있습니다:

1. 만약 "비범한 노력 주장"이 옳다면, 크런치와 게임 개발 성과 사이에는 양의 상관관계가 존재해야 한다. 크런치의 증가는 게임 개발 성과에도 측정 가능한 증가를 나타내야 한다.

2. 만약 "비범한 노력 주장"이 옳다면, 크런치 없이 크게 성공한 프로젝트는 상대적으로 적거나 없어야 한다.

다행히도 우리에게는 연구 과제에 대한 사전지식 없이 우리의 설문지에 응답한 수백 명의 개발자들의 데이터가 있습니다. 이렇게 수집된 설문 데이터를 이용해 위의 두 가설을 모두 증명할 수 있습니다. 우리는 위의 두 가설 중 하나만이라도 데이터들을 통해 입증된다면 크런치-찬성 진영의 승리를 선언할 것입니다.

수치 계산

우리는 어떤 데이터가 의미가 있고, 어떤 데이터가 의미가 없는지 세심하게 살펴보며 여러 단계로 나눠서 분석을 수행하였습니다.

2014년 설문조사에서 크런치에 대해서 5개의 아래의 설문을 수행하였습니다. 크런치와 관련된 설문들은 전체 설문지에 무작위로 훑어서 배치하였습니다.

난 이 프로젝트에서 아주 장시간의 초과근무 혹은 "크런치"를 하였다.
난 종종 강제적으로 혹은 압박을 받아서 초과근무를 하였다.
우리 팀은 때때로 끝없이 반복되는 크런치 / 초과근무의 악순환에 빠진 것처럼 보였다.
초과근무를 하게 되는 이유는 스튜디오의 리더들이나 프로듀서가 프로젝트의 범위를 제대로 파악하지 못했기 때문이라 생각한다(인력부족, 너무 촉박한 일정, 팀 능력 이상의 기능 구현 장담)
내가 스스로 자원한 경우에만 초과근무를 하였다.

아래는 위 설문의 답변과 통합성과점수 간의 상관관계를 나타낸 것입니다(조사 방법론 페이지). 가로축의 -1.0은 "매우 그렇지 않다"이고 +1.0은 "매우 그렇다"입니다.

그림1. 각각의 크런치 설문과 프로젝트 통합 성과 점수의 상관관계. 가로축이 4초 간격으로 각각의 크런치 설문으로 전환된다.

상관계수는 다음과 같습니다: -0.24, -0.30, -0.47, -0.36, +0.36 (위의 설문 목록 순서대로). 5개의 설문 항목 모두 p값이 0.001미만으로 통계적으로 유의미한 것으로 나타났습니다. 크런치가 자발적이었는지를 물은 마지막 설문을 제외하고는 크런치는 프로젝트 성과와 모두 음의 상관관계를 나타내고 있습니다.

"하지만 기다려," 크런치의 지지자는 이렇게 말할 것입니다. "통합 성과 점수와 비교했기 때문에 당연히 이런 결과가 나오죠." 통합 성과 점수는 '내부 목표를 달성했다'와 같은 점수를 합쳐놨기 때문에 주관적 판단에 따라 낮은 점수를 주기 때문이죠. 크런치에 불만이 있는 사람들은 당연히 내부 목표 달성에 낮은 점수를 줄 것입니다. 날조할 수 있는 요인이 결과를 왜곡하는 겁니다. 빼 버리세요! 비평적 성공, 일정 지연, 내부 목표 달성 전부 빼버리고 투자수익률만 비교해보세요. 분명히 다른 양상이 나타날 겁니다.

좋아요. 그 결과는:

그림2. 각각의 크런치 설문과 투자수익률(ROI)의 상관관계. 그림1과 마찬가지로 가로축이 4초 간격으로 각각의 크런치 설문으로 전환된다. 세로축에 많은 점이 겹치는데, 세로축의 축척에 대해서는 방법론 페이지에 상세한 설명이 있습니다.

추세선은 그림1과 근본적으로 같은 경사를 보이고 있습니다. ROI와의 상관계수는 다음과 같습니다(똑같은 순서로): -0.18, -0.26, -0.34, -0.23, +0.28. 모든 상관계수는 p값이 0.012미만입니다.

아직도 납득이 안되나요? 아래는 리뷰 / 메타크리틱 점수와의 상관관계를 나타낸 그래프입니다.

그림3. 5개의 크런치 연관 설문과 통합 성과 점수 / 메타크리틱 점수의 상관관계(세로축은 실제 메타크리틱 점수가 아니라 정규화된 값이다; 상세한 정보는 방법론 페이지를 참고하세요). 그림1, 2와 마찬가지로 가로축이 4초 간격으로 각각의 크런치 설문으로 전환된다. 많은 점이 겹치는 모습을 보입니다.

결과는 근본적으로 동일하고, p값은 0.05미만이었습니다.

크런치가 완전히 자발적인 경우(얼마나 크런치를 했는지는 명시하지 않은)를 제외한 모든 크런치 연관 설문은 통합 성과점수와 음의 상관관계를 보였습니다. 따라서 "비범한 노력 주장"은 틀렸다는 의미입니다. 크런치와 게임 개발 성과와의 상관관계는 양의 상관관계가 아니라 분명하게 음의 상관관계입니다.

아래의 그림4에서 우리는 프로젝트의 전체 크런치 정도에 관련된 두 개의 설문을 살펴보았습니다. 세로축은 통합 성과 점수이고, 가로축의 -1.0은 "매우 그렇지 않다"이고 +1.0은 "매우 그렇다"입니다. 검은선은 추세선인데 두 개의 설문 모두가 동의 점수가 높을수록 열등한 프로젝트 성과를 나타냄을 볼 수 있습니다.

그림4. 전체 크런치 정도와 관련된 두 설문과 통합 성과점수의 상관관계

파란색과 주황색의 가로 선을 추가했는데, 파란색은 80점, 주황색은 40점입니다. 80점은 우리가 임의로 정한 "매우 성공적"인 프로젝트의 기준점이고 40점은 "크게 실패"한 프로젝트의 기준점입니다.

파란선 위의 점들은 분명한 이야기를 전달합니다:두 설문 모두 크런치를 안 하고 성공적인 프로젝트가 크런치를 하고 성공적인 프로젝트보다 더 많습니다.

하지만 이 그래프만으로 완전한 결론을 내릴 수 있는 건 아닙니다; 수많은 데이터 포인트들이 정확히 똑같은 점에 뭉쳐져 있으므로 하나의 점은 하나의 데이터 포인트가 아닌 여러 개의 데이터 포인트를 의미합니다. 따라서 더 심층적인 통계 분석이 필요합니다. 우리는 특히나 도표의 4곳의 가장자리에 흥미를 느꼈는데요 - 파란선 위의 점들 중 가장 왼쪽과 오른쪽에 위치한 점들(가로축 -0.6 미만과 +0.6이상)과 주황선 아래의 데이터 점들 중 가장 왼쪽과 오른쪽에 위치한 점들입니다.

그림4의 위쪽 그래프에서("난 이 프로젝트에서 아주 장시간의 초과근무 혹은 "크런치"를 하였다")우리는 아래의 도표와 같은 패턴을 볼 수 있습니다. %는 각 그룹의 모든 데이터를 모수로 산정된 수치입니다. (가로축 -0.6미만과 0.6이상)

크런치가 없는 프로젝트에서 분명하게 더 높은 성공률 (17% vs 10%)을 보이고 있습니다. 크런치가 많은 프로젝트의 실패율이 성공률보다 훨씬 높고(32% vs 13%), 크런치가 없는 프로젝트에서는 성공률이 실패율보다 높습니다.(17% vs 13%) 크런치가 많은 프로젝트와 크런치가 없는 프로젝트의 실패율은 (32% vs 10%)로 크런치가 많은 프로젝트의 실패율이 높습니다.

이번에는 그림4의 아래 그래프의 설문도("우리팀은 때때로 끝없이 반복되는 크런치 / 초과근무의 악순환에 빠진 것처럼 보였다.") 도표로 그려보았습니다.

위의 도표는 더 주목할만한 값을 보여주고 있습니다. "대체로 그렇지 않다" / "전혀 그렇지않다"라고 답변한 응답자는 그렇지 않은 응답자들에 비해 2.5배나 매우 성공적인 프로젝트에서 일하고 있었습니다. (23% vs 9%) 한편 "대체로 그렇다" / "매우 그렇다" 라고 답변한 응답자들은 그렇지 않은 응답자들에 비해 실패한 프로젝트에서 일하고 있을 확률이 무려 10배나 높았습니다.(41% vs 4%).

설문 응답을 이런 식으로 통합 성과점수와 비교하는 것은 내부 목표 달성 점수를 포함하고 있어서 - 주관적인 지표이므로 - 올바르지 않은 방식이라고 생각할 수 있습니다. 그렇다면 투자수익률(ROI)만 비교하면 어떨까요?

아래는 ROI와의 그래프입니다.

그림5. 전체 크런치 정도와 관련된 두 설문과 투자수익률의 상관관계

첫 번째 설문 (위쪽 그래프)의 값은 아래와 같습니다:

두 번째 설문 (아래쪽 그래프)의 값은:

그림5에서 보이는 값도 근본적으로는 그림4에서 확인한 값들과 같습니다. 정확한 확률은 조금 다르지만 결과값은 바뀌지 않습니다. 메타크리틱 점수를 포함하여 우리가 연구한 모든 성과 요인과 크런치 설문과의 비교는 같은 결과값을 나타내고 있습니다.

추가적인 입증을 위해 우리는 그림4와 그림5의 데이터를 더 상세하게 통계적으로 분석해보았습니다. 각각의 그래프의 왼쪽과 오른쪽 가장자리의 모든 데이터( -0.6미만이거나 +0.6이상인 모든 데이터 포인트)를 두 개의 모집단으로 나누어서 윌콕슨 순위합 통계로 비교하였습니다.

p값은 모두 0.006 미만에서 0. 사이로 모두 통계적으로 유의합니다.

앞서서 "비범한 노력 주장"에서 도출한 반증 가능한 두 개의 가설이 모두 우리의 데이터들을 통해서 기각되었습니다. 하지만 Paxton의 반-크런치 편의 승리를 선언하기 전에 또 다른 반론을 살펴보겠습니다.

"크런치 구난 가설"

이 반론은 대략 아래처럼 이어집니다:

"당신의 상관관계는 헛소리야, 왜냐하면 애초에 문제가 있는 프로젝트가 크런치를 하게 될 가능성이 높기 때문이죠. 처음부터 크런치와 고생하는 프로젝트는 기저 요인에서 상관관계가 있고, 그 기저 요인이 당신의 결론을 왜곡하고 있어요. 당신은 크런치가 나쁜 결과를 가져온다고 말하지만, 실제 인과관계는 그 반대 - 프로젝트에 문제를 만드는 숨겨진 세 번째 원인이 있고, 그 숨겨진 원인 때문에 크런치와 프로젝트의 성과가 나빠지는 겁니다. 크런치가 상황을 개선하긴 하지만, 기저 요인 때문에 생기는 문제를 완전히 상쇄하기에는 부족하여서 음의 상관관계가 나타나는 것입니다."

이러한 입장은 추가 연구를 요구 합니다. 앞서 스펙터/루빈이 인터뷰에서 말하듯이, 문제가 없는 프로젝트의 개발자들이 크런치를 기꺼이 감수하는 경우도 있습니다.("퀄리티를 높이려 분투하는 개발사에서는 항상 크런치를 하게 되요."), 최소한 일부는 아직 문제가 없는 프로젝트가 크런치를 하고 있습니다. 그러나 크런치가 이미 문제 있는 프로젝트에서 더 많은 발생한다는 생각도 충분히 그럴듯한 생각입니다.

그럼 이 반론을 검증해보겠습니다. 인과관계가 A=크런치, B=저조한 프로젝트 성과, 그리고 C가 프로젝트에 문제를 일으키는 모호한 요인들의 집합이라고 할 때 A -> B 가 아니라 C -> (A와 B)라고 가정하겠습니다.

우리는 이를 "크런치 구난 가설"이라고 부르겠습니다. 크런치는 이미 문제가 있는 프로젝트에서 발생하며, 이 "문제"가 저조한 프로젝트 성과를 내는 진짜 원인이고, 문제가 있는 상황에서 크런치를 하면 그나마 안 한 것보다는 덜 저조한 성과를 낸다는 생각입니다.

이 가설의 모든 부분을 따지진 않겠습니다.: 우리는 앞의 두 부분은(프로젝트에서 문제가 발생하고, 크런치는 이 문제를 해결하기 위한 대응책) 사실로 인정하고(그게 입증된 사실인지 아닌지는 이 기사와는 직접적인 관련은 없습니다)

우리가 확인하고자 하는 것은, 우리가 테스트할 수 있는 이 가설의 세 번째 부분입니다. - 크런치를 했을 때 크런치를 안 했을 경우보다 덜 저조한 성과를 낸다는 가정입니다. 다시 말하면, 프로젝트에 문제가 발생하였을 때 크런치가 효과적은 대응책일까요?

"크런치 구난 가설"이 옳다면 크런치는 다른 변수가 모두 동일하다는 전제하에 크런치를 안 했던 프로젝트에 비해 크런치를 했던 프로젝트가 더 나은 성과 점수를 나타내야 합니다.

이 가론을 테스트하기 위해 우리는 크런치/초과근무와 관련된 5개 설문만을 제외한 선형 회귀분석 모델을 계산해 보았습니다. 이 모델은 "크런치-제외 모델"이라고 부르겠습니다.

그림6. "크런치-제외 모델"과 통합 성과 점수의 상관관계(크런치와 관련된 설문을 제외하여 만든 선형 회귀분석)

"크런치-제외 모델"과 통합 성과 점수의 상관계수는 0.811이었습니다.(p값은 0.001 미만). 모든 기준에서 이는 매우 강한 상관관계입니다.

이어서 우리는 크런치-제외 모델의 오차항을 계산하였습니다 - 실제 통합 성과점수와 각각의 설문지를 통해 계산된 크런치-제외 모델의 예측 통합 성과 점수를 비교하였습니다. 예측 통합 성과 점수에서 실제 통합 성과 점수를 뺀 값을 계산하였습니다. 양의 오차값은 프로젝트가 예상보다 더 나은 성과를 냈음을 의미하고, 음의 오차값은 프로젝트 성과가 예상보다 좋지 않은 성과를 내었음을 의미합니다.

크런치-제외 모델이 게임 성과를 추정하는 좋은 예측 모델이라고 가정한다면(매우 높은 상관계수와 작은 p값이 이를 시사합니다), "크런치 구난 가설"이 증명되려면 크런치를 했던 프로젝트의 성과가 크런치를 안했던 경우에 비해 최소한 측정 가능한 만큼의 성과가 좋아져야 합니다. 크런치를 더 많이 할 수록 게임 개발 성과가 더 많이 좋아져야 합니다.

다시 말해, 만약 크런치가 정상작동한다면 크런치를 많이 한 프로젝트에서 "성과 상승"을 보여야 합니다. 크런치를 한 프로젝트는 양의 오차값을 보여야 하고(크런치를 했던 프로젝트는 크런치-제외 모델의 예측에 비해 더 좋은 프로젝트 성과를 보여야 합니다), 크런치를 하지 않거나 조금 한 프로젝트는 음의 오차값을 보여야 합니다.

이 관점에서 본다면 크런치를 많이 할수록 크런치-제외 모델의 예측에 대해 명백하게 더 큰 양의 오차값을 보여야 합니다.

아래의 두 그래프는 크런치에 대한 두 주요 설문과 오차항의 상관관계입니다.

그림7. 크런치에 대한 두 개의 주요 설문과 크런치-제외 모델의 오차항 비교. 세로축은 크런치-제외 모델의 오차값(양의 값 = 모델의 예측보다 성과가 좋다; 음의 값 = 나쁘다), 가로축은 각각의 설문에 대한 답변(-1.0 = 매우 그렇지 않다, +1.0 매우 그렇다).

그림에서 볼 수 있듯이 약간의 음의 상관관계를 나타내고 있습니다. 하지만 통계적으로 유의미한 값이 아닙니다(위의 그래프는 p값 0.24, 아래 그래프는 p값 0.1). 설사 통계적으로 유의미했다 하더라도 상관계수는 -0.07과 -0.1로 음의 상관관계입니다.

"크런치 구난 가설"에서는 통계적으로 유의미하고 강한 양의 상관관계가 나타날 것으로 예상하였지만, 실제 상관관계는 통계적으로 무의미하고 약한 음의 상관관계였습니다.

크런치에 대한 다른 설문에 대한 계산도 모두 위와 비슷한 결과를 나타냈습니다.

여태까지의 계산에 앞서 세웠던 가정을 따져본다면 결론은 더 많은 크런치는 우리가 측정 가능한 어떠한 영역에서도 크런치를 하지 않은 경우에 비해 더 나은 프로젝트 성과를 가져오지 않았습니다. 오히려 많은 경우에는 크런치가 프로젝트 성과를 오히려 깎아 먹는 모습을 보였습니다.

우리 연구를 통해, 크런치는 어떠한 방식으로도 게임 프로젝트의 성과를 높이지 않으며, 문제가 있는 프로젝트가 문제를 해결하는 데 도움이 되지도 않는다는 결론에 도달하였습니다.

자발적 크런치

하지만 크런치가 자발적이었다면 어떨까요? 앞선 우리의 분석은 크런치가 전적으로 자발적이라면 프로젝트 성과가 두드러지게 개선됨을 보였습니다. 의무적인 크런치가 없다면 크런치로 인한 부정적인 효과도 사라질까요? 자발적 크런치를 많이 한다면 프로젝트 성과에 끼치는 크런치의 총 영향이 음에서 양으로 바뀔까요?

결론적으로는 아닙니다. 우리는 자발적 크런치에 대한 설문의 긍정적 답변과 부정적 답변을 ("난 이 프로젝트에서 아주 장시간의 초과근무 혹은 "크런치"를 하였다."에 대해 대체로/매우 그렇다를 "많은High" 크런치, 대체로/매우 그렇지 않다를 "적은Low"크런치로 분류) 크런치가 자발적이었느냐 아니었느냐에 대하여 비교하였습니다(7점 척도의 답변을 3개 범주로 요약하여 - "강제적", "복합적", "자발적"). 우리는 이 3개 범주의 분류를 크러스칼-왈리스 검정을 통해 통계적으로 검증하였습니다.

이 분석을 통해 우리는 크런치가 자발적인 경우 덜 해롭긴 하지만, 강제적, 복합적, 자발적 모든 경우에서 일관되게 크런치가 많을 때보다 적을 때에 더 좋은 성과를 낳는다는 사실을 확인하였습니다.

무엇이 크런치를 유발하는가?

앞에서 본 결론을 통해 다음과 같은 질문을 하게 됩니다: 무엇이 진짜로 크런치를 유발하는 걸까요? 처음에 보았던 스펙터/루빈의 인터뷰에서는 연속된 초과근무를 지향하는 일부 개발자들의 태도를 보여주고 있지만, 우리는 데이터가 어떤 말을 할지 궁금했습니다.

만약에 크런치가 더 좋은 성과와 상관관계가 없다면, 크런치는 무엇과 상관관계가 있을까요? 정말로 탁월해지려는 욕망에서 시작되는지, 아니면 문제가 있는 프로젝트에 대한 대응책으로 시작되는지, 혹은 다른 곳에 근원이 있을까요?

이를 찾아내기 위해 우리는 우리의 크런치에 관련된 5개의 설문을 설문지의 다른 모든 항목과 일일이 비교 대응하여 분석하였습니다. 크런치와 관련된 설문과 가장 강한 상관관계를 보인 4개의 설문항목은 다음과 같습니다.

+0.51: "프로젝트를 진행하는 동안 인력변동이 많았다."
+0.50: "팀 구성원들은 종종 몇 주 동안이나 리더나 관리자한테 아무런 피드백을 받지 못한 채 일하였다."
+0.49: "팀의 리더와 관리자들은 팀의 개발자들과 상호 존중하는 관계를 형성하지 못했다."
-0.49: "게임 개발 계획이 명확하고 팀 구성원들에게 분명하게 전달되었다.

(양의 상관관계는 크런치가 더 많이 발생하는 상관관계를 의미;음의 상관관계는 크런치가 덜 발생하는 상관관계를 의미)

이 결과는 크런치가 실제로는 탁월함을 위한 어떠한 종류의 근본적인 욕구에서 시작되는 게 아님을 시사합니다. 그랬다면 전혀 다른 설문 항목들과 높은 상관관계를 나타내야 합니다. 실제로는 불충분한 계획, 조직의 분열, 높은 이직률 그리고 개발자 간의 기본적인 상호존중의 부재에서 크런치가 자라나는 것으로 보입니다.

결론: 우리는 유일무이한 존재가 아니다.

이쯤에서 우리가 학술 논문을 쓰려는 게 아니라는 사실을 분명히 밝혀야 될 것 같습니다. 우리의 연구 결론은 논문 상호심사를 받지도 않았으며, 따라서 우리는 데이터 분석과 해석 사이의 아슬아슬한 길을 걷고 있습니다.

하지만 어떤 방식으로 데이터를 분석하더라도, 우리는 확실하고 명백하게 반-크런치편의 입장을 지지하는 결과를 내놓았습니다. 여태까지의 연구 결과는 명료하고 강력하게 우리가 객관적인 입장에서 벗어나서 반-크런치를 옹호하도록 이끌고 있습니다.

한편, 경영학에서는 방대한 규모의 입증된 연구결과를 통해 연속된 초과근무는 건강, 생산성, 인간관계, 사기, 조직 몰입도, 의사 결정 능력을 망치고 심지어 알콜 남용의 위험성을 높인다는 사실이 확인되어 있습니다.

대량의 입증된 경영학 연구에서는 근로자들의 총 생산성이 겨우 몇 주만 초과근무해도 음수로 변한다는 사실을 보여주고 있습니다. 근무시간을 일간 8시간에서 9시간으로 늘리면 총 생산성은 무려 16-20%가 감소합니다. 겨우 몇 주만 50시간을 근무해도 해당 기간 동안의 총 누적 생산량이 주당 40시간 근무했을 때보다 오히려 더 줄어듭니다. - 추가적인 주당 10시간의 근무는 실제로는 근로자들의 총 생산량을 감소시킵니다. 동시에 근로자들의 스트레스를 증가시키며, 인간관계를 목 조르고, 제품의 결함률을 높입니다.

게임 산업은 너무나 배타적이고 최첨단의 성공적인 산업이기 때문에, 우리가 이러한 데이터에 놀라울 정도로 무지한 것으로 보입니다. 우리는 태평하게 이러한 연구결과들이 우리에게는 적용되지 않는다고 무시하는 경향이 있습니다. 좀 더 일반화시켜 말한다면, 게임 업계는 업계에서 쌓은 실무 경험을 중요시하는 반면 기초적인 경영/관리 기술은 저평가하는 성향을 가지고 있습니다. 그 결과로 우리는 내부에서 관리자를 뽑아 승진시키는 반면, 관리자들에게 적절한 경영학 교육을 해서, 관리자들이 부하들의 역량을 최대로 끌어내도록 만드는 능력을 키워주지는 않습니다.

이런 상황에서 게임 업계가 크런치가 해롭다는 사실을 명백하게 입증하고 있는 엄청난 분량의 경영학 연구들로부터 격리되어 있는 현실이 놀라운 일일까요?

우리가 제작한 게임 개발 요인과 성과에 대한 다양한 설문에 응답한 수백 명의 익명의 응답자들은 개인적으로 참여하였으며, 우리 연구의 전체 목적에 대해서는 어떠한 단서도 없이 참여하였습니다. 단순히 설문참여자 전체 응답들의 상관관계를 추적하는 것으로 우리는 어떤 방식으로 데이터를 분석하더라도 크런치가 프로젝트 전체에 나쁜 영향을 끼친다는 압도적인 결론을 얻었습니다. 심지어 크런치는 적게 하면 도움이 되다가 많이 하면 해롭게 되는것도 아닙니다; 우리는 호르메시스 효과를 뒷받침하는 어떠한 증거도 찾지 못하였습니다.

크런치가 게임 산업의 이직률을 높이고 재능있는 사람들을 떠나게 하며, 높은 스트레스를 유발하고, 건강에도 문제를 일으키며, 제품의 결함률을 높이는 것은 일반상식입니다.- 그리고 종종 각 개인의 인간관계까지 엉망으로 만듭니다. 크런치가 정당화된다고 믿는 사람들도 이를 잘 알고 있지만, 크런치가 일으키는 해로운 부작용들을 막으려 노력하지는 않습니다. 그들은 끝까지 "비범한 결과물은 비범한 노력을 요구 한다."라는 관념에 매달려 있습니다.

하지만 이러한 관념은 틀린 생각입니다. 우리의 분석은 게임 산업이 성숙하기 위해서는 그런 관념을 버려야 된다고 가리키고 있습니다.

우리의 결과물은 명백하게 크런치가 비범한 결과물을 낳지 않는다는 사실을 보여줍니다. 실제로는 크런치는 항상 게임을 덜 성공적으로 만듭니다. 프로젝트가 크런치를 이용해서 구덩이에서 빠져나오려고 발버둥 치면, 발밑의 구덩이가 더 깊어지는 결과를 낳을 뿐입니다.

어쩌면 "비범한 결과물은 비범한 노력을 요구한다"라는 관념은 잘못 이해되고 있는 걸지도 모릅니다.

"노력" - 을 근무시간의 연장을 통해 더 많은 성취를 이룬다. - 라고 정의한다면 이는 실제로 역효과를 낳습니다.

우리의 연구는 진짜 "비범한 결과물"을 낳는 요인은 - 위대한 게임을 위대하게 만드는 요인 - 단순한 "노력"과는 아무 상관이 없고 팀 집중력, 응집력, 강렬한 방향성, 심리적 안정감, 리스크 관리, 그리고 효율적 팀을 만드는 수많은 문화적 요인들에 있음을 보여주었습니다.
초과 근무를 남용하면 위대한 게임을 위해 필요한 수준의 팀 집중력과 응집력 달성은 더욱더 어려워지고, 초과 근무에서 얻을 수 있는 모든 긍정적 효과를 상쇄시켜버립니다.

우리는 이 주제에 대한 열린 토론과 담화를 환영합니다. 우리의 결과물을 재검증해보고 싶다면 저희 데이터를 다운받아서 자유롭게 분석하시고, 다른 결과를 발견한다면 저희의 @GameOutcomes 트위터를 통해 연락해주시기 바랍니다.

게임 성과 측정 프로젝트를 위해 설문조사에 참여해주신 수백 명의 전/현직 게임 개발자들에게 감사드립니다. IGDA 프로덕션 SIG 멤버인 Clinton Keith와 Chuck Hoover는 설문 문항 설계에 도움을 주셔서 감사합니다. Kate Edwards, Tristin Hightower, 그리고 IGDA는 설문지 배포에 도움을 주었습니다. Christian Nutt과 가마수트라 편집진 또한 설문지 배포에 도움을 주었습니다.

번역 블로그

2015년 2월 21일 토요일

게임 개발 성과 측정 프로젝트 파트4: 야근은 게임을 망친다

댓글 1개: