본문 바로가기

Daily JennPM

[W6D4] Coursera에 대한 가설을 데이터로 증명해보자 - 코드스테이츠 PMB 11기

 

자기계발을 위해 시간적, 물질적 투자를 아끼지 않는 MZ 세대에게

세계적인 수준의 대학 및 기업에서 제공하는 강좌를 통해

수료증과 학위를 취득할 수 있는 Coursera가 바로 오늘 제가 선정한 프로덕트입니다.

 

저 역시 지인의 추천으로 Coursera에서 요금을 지불하고

6개월 코스를 수강하여 수료증을 받은 적이 있어

기회가 되면 다시 한번 사용해보고 싶은 프로덕트입니다.

 

Coursera에서 사용자가 원하는 코스를 찾을 때 사용할 수 있는 필터링 기준은

과목, 능력, 레벨, 지속 시간, 학습 프로그램, 교육자, 언어가 있습니다.

 

[과목] Business, Computer Science, Data Science, Health, Information Technology etc.
[능력] Accounting, Accuracy and Precision, Advertising, Algorithms etc.
[레벨] 고등, 믹스, 중급, 초급
[지속 시간] 1~3개월, 1~4주, 2시간 미만, 3개월 이상
[학습 프로그램] 강좌, 대학교 수료증, 안내 프로젝트, 전문 자격증, 특화 과정, 프로젝트, 학위, Master Track 자격증
[교육자] Alberta Machine Inteeligence Institute, Amazon Web Services, Google, KAIST etc.
[언어] 영어, 독일어, 네팔어, 러시아어 등

 

이에 대하여 제가 세운 가설은 3가지입니다.

 

[가설 1] 수업 난이도가 어려울수록 수업 만족도가 낮을 것이다.
[가설 2] 수강의 진입 장벽을 낮추기 위해 Beginner Level이 가장 많이 개설되어 있을 것이다.
[가설 3] 수업 난이도가 쉬울수록 수강률이 높을 것이다.

 

가설을 증명하기 위해 Kaggle에서 Coursera와 연관된 datasets를 다운로드하였습니다.

Coursera Courses Dataset 2021 | Kaggle

Coursera Courses | Kaggle

 

해당 데이터셋에서 확인할 수 있는 데이터로는

Difficulty Level, Course Rating, University, Course Description, enrollments 등이 있었습니다.

 

 

 

[가설 1] 
수업 난이도가 어려울수록 수업 만족도가 낮을 것이다.

추측

수업 난이도가 어렵다는 것은

수강한 사용자가 수업을 이해하는 것에 시간을 많이 투자해야 하며

자칫하다 수업을 이해하지 못할 가능성이 쉬운 난이도의 수업보다 많을 것입니다.

또한 Coursera는 비대면으로 수업이 진행되는 온라인 코스이기 때문에

어려움이 생겼을 때 대면으로 진행되는 수업보다

즉각적인 피드백을 받기 어렵다고 생각되었습니다.

따라서 저는 '난이도가 높다 -> 이해하기 어렵다 -> 힘들다 -> 만족도가 낮다'라고 생각하였습니다.

 

분석 과정

이를 증명하기 위해 저는 

Coursera Courses Dataset 2021을 데이터셋을 cgv 파일로 다운로드 받아보았습니다.

우선 가설을 증명하기 위해 필요한 데이터는 Difficulty Level과 Ratings입니다.

저는 다운로드한 데이터 중 입력 오류가 난 항목을 제외하고

Difficulty Level를 기준으로 데이터를 정렬하였습니다.

이후 Advanced, Mixed, Intermediate, Beginner의 4가지 항목마다

수강한 사용자들의 average ratings를 계산해보았고

이를 시각화하면 다음과 같습니다.

 

결론

Ratings가 높은 순서는

Mixed - Advanced - Intermediate - Beginner 입니다.

 

제 가설은 틀렸음이 입증되었습니다.

강좌가 어려우면 오히려 만족도가 낮을 것이라 생각되었지만

데이터를 분석한 이후 제 경험을 다시 생각해보니

오히려 초급 레벨이 너무 쉬워서 배운 것이 없다고 느껴지거나

시간을 낭비했다고 느껴질 수 있다고 생각합니다.

물론 해당 결과는 소수점 6번째 자리까지 본 결과이기 때문에

모두 총점 5점 중 평균 4.5로 데이터 상 큰 차이가 없습니다.

 

 

[가설 2]
수강의 진입 장벽을 낮추기 위해 Beginner Level이 가장 많이 개설되어 있을 것이다.

추측

Coursera의 특징 중 하나는

사용자가 무료로 수업을 수강할 수 있지만

해당 과정을 완료했다는 것을 증명할 수 있는 수료증을 받기 위해서는

추가적으로 요금을 지불하는 형식의 강좌가 존재한다는 것입니다.

 

혹은 한 달 단위로 돈을 지불하여 강좌를 완료하는

일종의 구독 모델 형식의 BM도 존재합니다.

이와 같은 경우, 사용자가 수강하는 수업이 3개월 코스라도

자율적으로 수강 스케줄을 조정할 수 있기 때문에

한 달 안에 수료할 수도, 6개월만에 수료할 수도 있습니다.

즉, 똑같은 3개월 코스라도 누구는 한달 비용만 내고 수료할 수 있다는 것입니다.

 

저는 Coursera의 이러한 BM을

한 명의 사용자가 다수의 수업을 수강할수록 수익이 창출되는 구조로 이해하였습니다.

무료로 수강을 시작하여 코스를 완료하고

스스로 성취감을 느껴 추가적인 돈을 지불하여 수료증을 받은 사용자는

해당 프로세스에서 느낀 긍정적인 경험을 통해

또 다른 코스를 수강하는 행동을 보여줄 것이라 생각하였습니다.

따라서 수강의 진입장벽을 낮추기 위해

Beginner Level이 가장 많이 개설되었을 것이라 추측했습니다.

 

 

분석 과정

이를 증명하기 위해 가설 1에서 쓴 데이터를

Difficulty Level로 정렬하여 데이터의 수를 파악했습니다.

총 3514개의 데이터 중 입력 오류가 난 것을 제외하면

3455개의 데이터가 남습니다.

해당 데이터를 Difficulty Level에 따라 원형 차트로 시각화하였습니다.

 

결론

데이터에 따르면 4개의 Difficulty Level 중

Beginner Level의 강좌가 가장 많이 개설되었다는 것을 알 수 있습니다.

제 가설이 맞았다는 것이 입증되었지만

해당 데이터가 도출된 이유가

정말 사용자로 하여금 수강의 진입장벽을 낮추기 위해서인지는

추가적인 조사가 필요하다고 생각합니다.

 

 

[가설 3]
수업 난이도가 쉬울수록 수강률이 높을 것이다.

추측

해당 가설을 세운 이유는 앞서 제시한 두 번째 가설과 같은 맥락을 가지고 있습니다.

수업의 난이도가 낮을수록 수강에 대한 진입장벽을 낮출 수 있기 때문에

더 많은 사용자가 수강하지 않았을까 추측하였습니다.

 

 

분석 과정

이전의 가설에 쓰였던 데이터셋의 경우

가설 3을 증명하기 위해 필요한 enrollment에 관한 데이터를 포함하지 않기 떄문에

Kaggle에서 enrollment가 포함된 또 다른 데이터셋을 사용하여 분석해보았습니다.

 

다운로드된 데이터셋에서 enrollment 항목을 보았을 때

강좌마다 수강한 사용자의 수를 간결성을 위해 k와 m으로 표시한 것을 발견했습니다.

데이터 계산에서 오류를 사전에 방지하기 위해

저는 해당 데이터에서 k를 000, m을 000000으로 바꾸었습니다.

 

해당 데이터를 정렬하고 Difficulty Level마다 enrollment의 평균값을 내어

차트로 시각화하면 다음과 같은 결과를 얻을 수 있습니다.

 

결론

데이터에 따르면 4개의 Difficulty Level 중

수강한 사용자 수가 가장 높은 것은 Mixed였습니다.

가장 많은 수강자 수가 있을 것이라 추측했던 Beginner Level은

Mixed - Beginner - Intermediate - Advanced의 순서로 2위를 차지하였지만

차트에서 보실 수 있다시피 1위인 Mixed와의 간격보다

3위인 Intermediated과의 간격이 더 좁은 것을 볼 수 있었으므로

제 가설이 틀렸다는 것이 입증되었습니다.