유튜브 알고리즘은 마음을 읽지 않는다.

6분 분량

유튜브, 세상을 다루다.

지금 시대의 유튜브는 인터넷의 아카식레코드에 비견될 정도로 방대한 정보의 집합체가 되었다. 이렇게 되기까지에는 2006년 구글이 인수하여 인터넷 비디오 서비스의 춘추전국시대를 견디고 왕좌를 차지했다. 많은 비디오를 제공하는 서비스가 있었고, 한국의 전통강자 네이버와 다음 포털에서도 이런 비디오 서비스를 제공했었지만 들어가는 투자에 비해 수익이 나지 않아 하나 둘 사라졌지만 유튜브는 구글의 도움을 받아 그 고된 기간을 견뎠다. 그리고 살아남은 승자가 되었다. netflix, google과 같이 youtube라는 단어가 서비스를 호칭하는 명사일 뿐만 아니라 유튜브 비디오를 본다는 의미를 가지는 동사로 이해될만큼 유튜브는 우리 생활에 가까이 자리잡았다.
인터넷의 처음은 텍스트로 시작했었다. 모든 것이 문자였고 문자로 대화하고 문자로 또 하나의 세상을 만들어내었다. 네트워크 기술과 속도가 발전함에 따라 문자가 하나 둘 이미지로 바뀌기 시작했다. ‘짤방’이라고 부르는 작은 이미지 한 조각에 의미를 담고, 울고 웃었다. 그리고 이젠 문자가 이미지로 대체되었듯 이미지가 영상으로 바뀌는 모습을 보고있다. gif가 아무리 비 효율적이고 예쁘지 않은 파일 포맷이라지만, 동영상을 담을 수 있고 호환성이 높다는 이유로 같은 역할을 하는 최신 포맷인 apng나 webm이 밀어내지 못하고 아직도 널리 사용되고 있다. 통신속도가 빨라져서 동영상을 보는 데 부담이 없고, 사람들이 깊은 생각보다는 빠른 자극을 원하기에 동영상이 인기를 얻는다. 새로운 아이들은 세상을 동영상으로, 유튜브로 접하기 시작했기에 유튜브에 친숙하고, 모든 지식이 유튜브에 있음을 믿는다. 이들은 전통적인 네이버와 구글과 같은 검색엔진보다도 유튜브의 검색 건수가 많고, 앱의 구동횟수, 이용시간이 제일 길다.# 유튜브의 시대가 온 것이다.

구글, 유튜브를 품다.

앞에서도 말했듯, 구글이 있었기에 현재의 유튜브가 있다. 구글은 구글 자신의 목적을 위해 유튜브와 한 가족이 되었고, 지금도 그 목적을 성취하고 있다. 구글은 데이터의 힘을 믿고, 그 힘을 이용하는 회사다. 빅데이터라는 키워드가 뜨기 전에, 빅데이터를 다루고, 세상에 끌어올렸다. 그리고 그 데이터를 다루는 도구를 갈고 닦았다. 데이터를 모아 통계를 내 유의미한 정보를 도출했다. 그리고 그 정보를 이용해 데이터를 더 모으고, 더 깊은 연구를 위해 수익을 내서 다른 분야에 뛰어든다. 그 과정의 하나로 유튜브가 있었던 것이다. 모바일, 자율주행, 구텐베르크 프로젝트, 인공지능과 같이 구글이 여러 일을 벌이고 있지만 이 모든 것의 공통분모가 데이터인 것이다. 유튜브를 품으면서 얻을 수 있는 잠재적 데이터를 구글이 알아봤고, 그렇기에 많은 적자를 감내하면서도 유튜브를 끌고왔던 것이다.
구글은 유튜브 서비스를 유지하면서 동영상을 보여준다는 것을 보지 않고, 이 서비스에서 얻을 수 있는 데이터를 본다. 동영상 그 자체뿐만이 아니라 누가 어떤 동영상을 언제 어떻게 보고, 그 다음 무엇을 보고, 어떤 항목에 댓글을 달고, 좋아요를 누르고, 어떤 것을 언제 검색했는지 기록하고, 쌓아놓는다. 이러한 데이텀(datum)은 그 자체로 아무 의미가 없어보이지만, 그 규모가 커지고 취합되면서 궁극적으로 힘이 된다. 정보왕국인 구글이 놓치기엔 너무 아까운 데이터였었던 것이기에, 구글은 유튜브를 품었다.

유튜브, 사용자를 읽다.

그리고 유튜브는 이러한 데이터를 더 정확하게, 더 많이 얻기 위해 해야 할 것이 사람들이 유튜브에 오래 잔류하는 것임을 알았다. 그렇게 하기 위해 유튜브는 진화해왔고, 지금도 진화중이다.

2012년 전

지금은 인터넷 동영상 서비스의 대명사이자, 하루에 10억시간이 재생되는 유튜브지만, 이 입지를 처음부터 가지고 있었던 것은 아니다. 많은 다른 비디오 서비스가 있었고, 그들 중 몇몇은 유튜브보다 더 잘나갔었다. 40억시간이 재생되려면 나흘이 걸리지만, 2012년전에는 한 달이 걸렸다. 그 시절의 유튜브는 데이터가 충분히 쌓이지 않았기에 단순한 전략을 썼다. 가장 많이 보는 비디오가 매력적이다라는 판단으로 가장 많이 보는 비디오를 다음 보여줄 비디오를 추천하거나 노출시켰다. 이 시절의 검색엔진과 TV 프로그램, 뉴스에서 ‘인기 검색어’를 메인에 띄우고, 알려줄 만큼 인기가 있었던 것처럼, 많이 본 것일수록 검증이 된 것이고, 다른 사람도 볼 것이다는 생각이다. 사람들이 많이 보긴 하지만, 그 영상이 사용자에게 유용한지 여부는 따지지 않기에 재생은 많이 되었지만 바로 빠져나가는 비율이 높아 오랫동안 잡아두는 것에는 별 효과가 없었다.

2012년 이후, 2016년 전

그래서 유튜브는 CTR(클릭율),CVR(전환율),이탈율과 같은 통계의 힘을 빌려 의미 있는 추천을 하기 위해 고심했다. 그리고 재생시간과 유튜브에 머문 시간(세션시간)을 따지기 시작했다.# 단순히 많이 본 것이 좋은 영상이 아니고, 그 영상을 얼마나 봤는 지 계산해 좋은 영상을 가려낸 것이다. 하지만 이러한 ‘좋은 영상’을 생산하는 것은 손이 많이 가는 일이었고, 최저한의 퀄리티는 보장되면서 분량을 길게 할 수 있는 ‘게임 플레이 실황’과 같은 영상이 큰 점수를 얻었다.

2016년 이후

2016년은 전부터 머신러닝 알고리즘을 연구하던 구글이 알파고를 공개했던 해이다. 그 충격이 전세계를 덮쳤을 때, 구글은 알파고에 쓰인 머신러닝-딥러닝 기술이 다른 분야에 적용하기에 무르익었다 판단했다. 구글에서 제공하는 번역, 자율주행등과 같이 여러 분야에 적용되었고, 유튜브의 영상을 추천하는 알고리즘에 딥러닝을 적용했다고 공개했다.# 초기에는 음모론과 관련된 영상이나 가짜뉴스를 추천하는 등 단점이 있었지만, 알고리즘이 차츰 개선되면서 지금의 유튜브가 되었다. 자세한 알고리즘은 유튜브의 비밀이지만, 유튜브의 공식입장#은 이렇다.

유튜브 검색과 추천 시스템의 목적은 사용자가 보고싶어하는 영상을 찾는 것을 도와주고, 장기적으로 사용자의 만족과 참여율을 높이는 것입니다.

여러 경험과 실험을 통해, 유튜브가 어떤 것을 고려하는 지 부분적으로 알려져 있다. 머신러닝의 도입 이전에도 쓰였던 조회수와 재생시간과 세션시간 이외에도 영상의 인기 상승폭, 좋아요/싫어요, 댓글과 같은 반응 수, 새로운 비디오, 비디오를 올린 채널이 얼마나 비디오를 주기적으로/많이 올리는지, 같은 지역/세대의 사람들의 선호 여부등 여러 차원을 보고 신경망의 인자로 넣어 사용자가 가장 볼 것 같은 영상을 추천하고, 유튜브 홈페이지에 띄우고, 자동재생하고, 채널 메인에 띄운다. ‘유튜브의 늪’은 그 사용자가 얼마나 유튜브를 사용하는 지에 따라 그 깊이와 질척임이 깊어지는 것이다.

알고리즘, 세상을 움직인다.

이 말을 하면 몇 년 전만 해도 이 문장에 동의하기는 커녕 ‘알고리즘’이라는 단어도 몰랐을 것이다. 하지만 딥러닝과 같은 머신러닝이 대두되면서 사람의 마음을 읽는 것 같다고 사람들이 두려워하기 시작했다. 하지만, 단순하게 보자면 그저 더 강력한 도구일 뿐이다. 방직기계가 증기기관에 의해 움직이기 시작했을 때 사람들이 자신의 일자리를 걱정해 기계를 부수고 배척하고 무서워했지만, 사실 일을 더 효율적으로 하는 도구인 것처럼, 알고리즘도 다르지 않다. 기술이 발전하면서 사용자가 축적하는 많은 데이터를 넣으면 결과를 내는 것이다. 시대가 변하고 있다는 사실을 잊지 않고, 그 흐름을 타야한다.