본문 바로가기

Column

공공데이터화와 빅데이터화

시리즈의 마지막인 이 글은 1차적으로는 공공의 영역에서 E스포츠 산업을 활성화시키기 위한 구체적인 방안을 고민하고 계시는 공공기관 또는 단체를 위한 글이지만, 크게는 학부생을 대상으로 하는 전공과목을 준비하는 분들도 같이 참고하시면 좋을 듯합니다. 추가로 E스포츠의 학술적 접근(*논문, 발표 자료 등)을 고민하고 계시는 분들에게는 어떤 식으로든 적용에 있어 유의미할 듯합니다. 다만 언급드린 어디에도 속하지 않으시다면 오늘은 '대체 이게 뭔 소리인가, 이 이야기를 왜 하나' 하실 수도 있습니다. 

 

공공데이터화 된 빅데이터의 의미에 대해서는 일전에 설명드린 바 있습니다. 그 포스트를 보시는 것이 가장 좋지만 여기서 재차 간략하게 정리해 드리면 제 개인적이 주장은 E스포츠에서는 그 '파편화된 데이터를 아카이빙(*모으기)하는 것을 공공의 영역에서 하는 것도 좋다'입니다. 공공의 영역에서 파편화된 데이터를 아카이빙 하는 것을 공공데이터화라고 말할 수 있습니다. 공공데이터의 보증을 공공기관이 하게 되면 설득력이 있게 됩니다. 간단하게 예를 들어보면 국내 E스포츠 시장 규모가 얼마다 라고 (*투자를 받을 목적의) 기업이 직접 산출하는 것과 한국콘텐츠진흥원이 산출해서 내보내는 것을 활용하는 것은 (*그 정확도를 떠나서) 신뢰에 대한 차이가 있습니다.

 

물론 일반 리서치 기업이 절대 못하는가를 물으시면 그렇지는 않습니다. 딜로이트나 골드만삭스가 발표하는 자료들이 활용가치가 공공기관에 비해 떨어지는 것이 아닙니다. 그렇지만 (*조심스럽게) 이것은 할 수 있는가 없는 가의 문제가 아니라는 사실을 명확히 하고자 합니다. 엄밀히 말하면 한국콘텐츠진흥원이 실태조사를 (*입찰로 하지) 직접 리서치하는 것도 아닙니다. 결국 이는 역량의 문제가 아니라 환경의 문제라고 말씀드리고 싶습니다. 

 

그런데 저는 오히려 반대로 그래서 기관이 있다고 생각합니다. 무슨 의미인가 하면 분명 데이터가 필요한데, 그 데이터를 누군가만을 위해서(*개인의 이익)는 사업성이 없어 만들 수 없으나 누군가들(*공공의 이익)을 위해서는 사업성을 고려하지 않은 채 만들 수 있기 때문입니다. 장단점이 있다는 생각입니다. 전문성이 떨어질 수 있지만 대신 공개가 자유로워 많은 사람들이 혜택을 볼 수 있습니다. 따라서 만약 공공기관이 전문성을 높일 수 있다면 그것이 항상 가장 최선이 됩니다.

 

저는 기본적으로 정보는 공유되어야 한다고 생각합니다. 구글이 바라보는 세상을 움직이는 힘은 돈과 정보입니다. 한 사회가 그중 정보 조차 평등화되지 않는다면, 그 사회의 구조는 더 심하게 고착화될 것입니다. 사람들은 성공을 위한 희망을 잃어갈 것이라고 믿습니다. 저는 이 구글의 철학을 믿습니다. 그렇지 않은 나라는 미래가 없다고 생각합니다. 그래서 이 나라의 미래를 위해 공공의 영역에서 해야 하는 일 중 가장 가치가 있는 일은, 누군가의 수고를 통해서만 얻어지는 그 가치 있는 정보를, 무상으로 많은 사람들에게 제공하는 일이라고 믿습니다.    


빅데이터란 기본적으로는 자료의 양입니다. 여기서의 자료의 양이란 자료 자체의 가짓수를 의미하기도 하지만 한 자료 자체가 가지는 물리적인 크기를 말하기도 합니다. 따라서  저는 빅데이터는 그 자체가 굳이 ~화(~izing)를 포함할 필요는 없다고 생각합니다. 저는 필요에 기반해서 정의를 내린 것으로 그렇지 않다고 해도 상관은 없습니다. 

 

빅데이터화란 가공의 의미를 포함합니다. 그래서 정확히 말씀드리면 여기서 빅데이터화란 빅데이터가 아닌 것을 빅데이터로 만든다는 개념이 아니라 이미 잠재적 빅데이터인 소재를 가공이 가능한 형태로 전환(*치환)시킨다는 개념입니다. 즉, 일종의 프로세스입니다. 따라서 빅데이터는 말 그대로 과업의 결과 값으로만 이해하는 게 맞아 보입니다. 비슷한 것을 예로 들어서 이해해보면 아카이빙은 프로세스이고 아카이브는 과업의 결과입니다.  

 

따라서 빅데이터화란 잠정적 빅데이터 대상을 진정한 의미의 빅데이터일 수 있도록 프로세스를 밟는 과정이라고 말 할 수 있습니다. 그러한 의미로 보면 빅데이터화 된 빅데이터를 (본래의 의미에) 빅데이터라고 부르는 것도 본질적 의미에서 보면 가능하지 않는 것은 아닙니다. 다만 저는 그렇게 사용하지는 않습니다. 그 이유는 그렇게 되면 반드시 보여야 할 그 '기술'의 영역이 보이지 않기 때문입니다. 

 

단정적으로 말씀 드리면 빅데이터화에는 기술(*Tech)이 중요합니다. 여기서의 이 기술은 100% Tech를 말하는 것입니다. 그러나 사실은 그보다 무엇을 기반으로 하는 기술인가를 서술하는 것이 더 중요합니다. 여기서 빅데이터는 아키텍처(*Architecture)를 기반으로 합니다. 여기서 아키텍처란 (*프로세스를 처리하기 위한) 시스템이 어떻게 구성되어 있는지를 보여주는 구조를 말합니다.  

 

정리를 하면 빅데이터화란 잠정적 빅데이터 대상이 본래적 의미의 빅데이터가 되는 과정을 말하는데, 그 과정이 가지는 수준은 '아키텍처를 기반으로 하는 기술에 얼마나 수준이 높은 논리가 들어가 있는가'입니다. 결론적으로 말씀드리면 기술 자체에 얼마나 최신 기술이 투입되는가가 결정의 요인이 아니기 때문에 빅데이터화의 핵심은 얼마나 산업에 대한 전문 인력이 투입되는가가 관건입니다.

 

저는 공공데이터와는 다르게 공공데이터의 빅데이터 화하는 것도 과연 공공의 영역이 맞는지 아직 고민 중입니다. 그런데 만약 공공데이터를 빅데이터화 하는 것이 공공의 영역이라고 결론을 맺는다고 하더라도, 어느 수준까지 구현해야 맞는지에 대해서도 고민을 계속해봐야 할 듯합니다. 그 이유는 원래 같으면 공공데이터 화만 하는 것이 맞습니다. 그런데 E스포츠는 추가로 고려해야 하는 (*유니크한 건 아니지만 충분히) 특수점이 있기 때문입니다. 


특수점에 대해서 본격적으로 설명을 드리기 전에 공공데이터에 대해서 선행해서 좀 더 이해를 하셔야 할 것이 있습니다. 이 공동 데이터화라는 것은 결과적으로 보면 '메타데이터화' 하는 것을 말합니다. 메타데이터라는 것은 단순히 말하면 데이터에 라벨링을 하는 것이라고 생각하시면 됩니다. 데이터에 라벨링을 하는 이유는 단순히 검색을 잘 하기 위해서입니다. 따라서 공공데이터화란 메타데이터 작업을 하는 것이라고 매우 쉽게 이해를 하셔도 무방합니다. 

 

공공데이터 작업에 있어 이 메타데이터화는 그래서 사실상 가장 중요합니다. 그런데 메타데이터화는 빅데이터화와 다르게 일반적으로 '아키텍처'라는 단어를 사용하지 않고 알고리즘이라 표현합니다. 그 이유는 메타데이터는 절차적 관점으로만 다소 축소하여 이해하기 때문입니다. 여기서 절차란 어떤 인풋에 대해서 그 해답을 찾아내 출력하는 방식을 말하는 것으로, 단순히 미리 입력된 일종의 정형화된 과정입니다. 이것 역시 기반은 기술인데 여기에 더 기술 구현적 논리가 들어가면 아키텍처라고 볼 수도 있습니다.  

 

이제 E스포츠가 특수한 이유를 말씀드리면, E스포츠는 이 메타데이터화가 너무 어렵습니다. 제가 '너무'라고 말씀 드릴 정도로 심하게 어렵습니다. 그런데 더욱이 이 심하게 어렵다는 의미는 단순히 알고리즘이 매우 복잡하다는 의미를 넘어섭니다. 무슨 의미인가 하면 그 알고리즘을 만든다고 해도 그것을 기술적으로 구현해야 하는 개발자가 그것을 이해하는 것도 어렵다는 의미입니다. 

 

그래서 E스포츠가 특수하다는 의미는 결국 이해를 바탕으로 해야 하는 작업 전체가 매우 전문적이라는 의미입니다. 왜 메타데이터화가 어려운지를 여기서 모든 케이스를 다 설명해 드릴 수는 없어 매우 단순한 한 가지만 예를 들어 알려드리도록 하겠습니다. 여러분은 만약에 E스포츠 아카이브 검색창에 "콩"이라는 단어를 치면 어떤 것이 보여야 한다고 생각하십니까? 당연히 우리가 일반적으로 말하는 그 진짜 식물 콩이 나와서는 안될 것입니다.

 

학술적으로 설명드리면, 문화적으로는 E스포츠는 본래가 마이너라서 처음부터 이렇게 형성되어 있어 왔습니다. 플랫폼적으로는 생성 데이터가 근본적으로 온라인 기반이기 때문에 주요 및 중심 자료 자체가 처음부터 정형화된 형태로 뿌려진 것이 아니고, 더욱이 양 자체도 방대합니다. 이를 테면 독자님은 '원정'이라는 단어를 E스포츠 아카이브 검색창에서 검색할 수 있다고 생각하십니까? 정답은 'E스포츠라면 충분히 가능하다'입니다. 그리고 심지어 우리 사용자는 그 단어를 검색했을 때 간접적으로 연관된 기타 많은 것들도 함께 출력되어야 한다고 믿습니다. 

 

결국 높은 수준의 공공데이터화란 그간의 역사를 정리하는 것을 말한다고 볼 수 있습니다. 단편적인 사실을 모으는 것이 아니라 역사적 사실과 그 사실 속 시대에서 파생된 문화를 함께 정의하는 것이라고 말할 수도 있습니다. 반대로 말씀드리면 E스포츠 아카이브만큼 집단 지성이 필요한 사업도 없습니다. 집단 지성을 어떻게 권위화 할 것인가 하는 추가 고민이 필요한 것은 차치하더라도 말입니다. 결과론적으로는 위키만으로는 답이 되지 않지만 위키가 상당한 답이 될 수도 있다는 뜻이기도 합니다. 


공공데이터의 빅데이터화에 있어 제가 확인하는 대부분의 문제들은, 처음부터 부실한 알고리즘에 기반하기 때문에 해답을 말하는데 있어, 그 의미 자체가 별로 없습니다. 이를 테면 사진 메타데이터에 연도, 게임명, 인물명, 대회명 등만 적어 업로드합니다. 위에서 말씀드린 바와 같이 이는 전혀 우리 전문성에 기인하지 않는 것들입니다. '콩'으로 검색하면 '홍진호'의 '콩' 스토리가 나오지 않습니다. 심지어 어떤 사진은 그 사진을 왜 올리는 조차도 모르고 올립니다. 어떤 역사적 사실을 서술하는지, 당시 어떤 문화를 대변하는지, 사람들의 기억 속에 어떻게 남아 있는지, 그 어느 것도 투영하지 않습니다.

 

이것이 없는데 왜 사용자가 그 아카이브를 활용하겠습니까?

전혀 사용할 이유가 없는 것입니다.

애써 구축한 공공데이터가 전혀 활용되지 않게 됩니다. 

 

아카이브 이야기를 할 때 항상 빼놓지 않는 것은 우리가 익히 알고 있듯이 소실될 위험이 있는 자료의 디지털화입니다. 그런데 그 소실될 위험이 있는 그 자료가 오늘날의 누군가에게 어떤 의미를 주는가에 대해서는 아무도 대답하지 않습니다. 그런 질문을 해야 하는지 조차도 생각을 못해본 것입니다. 이것은 하는 일에 대해서 아무런 이유도 모른 채 그냥 하는 것 밖에는 안 되는 것입니다.

 

그런데 심지어 그냥 아무것도 모르는 정도의 이해도 마져도 없어 보이는 경우가 있습니다. 어떤 자료를 디지털화시켜야 한다는 내용밖에 없다거나, 심지어 그 어떤 자료가 어떤 것인지 구체적으로 적시도 안된 개념도 있습니다. 그러니 이 사업이 (*본래가 가지고 있는 그 귀한 가치와 다르게) 당연히 누가 봐도 매력이 없어 보일 수밖에 없는 것입니다. 이 글은 결국 그렇게 볼 때 그러한 현실들이 너무 아쉬워서 쓰는 것일 수도 있습니다.


마지막으로 한 가지만 더 안내해 드리고 긴 글을 정리하도록 하겠습니다. 아카이브는 빅데이터화로 나아가는 과정입니다. 누군가는 공공데이터를 축척하고 누군가는 공공데이터 축척을 위한 알고리즘을 개발 디벨롭시키고, 누군가는 아키텍처를 적용시켜 그중 일부 데이터를 가공하는 일을 해야 합니다. 그런데 이게 끝이 아닙니다. 가동된 데이터는 저와 같은 역할을 하는 사람들이 시장에서의 의미를 분석을 통해 알려줘야 합니다. 그것이 진정한 의미의 트렌드 리딩이라고 말할 수 있습니다. 

 

이것을 기반으로 하지 않는데 어떻게 세미나가 열리겠습니까?, 어떻게 포럼이 열리겠습니까?, 어떻게 컨퍼런스에서 유의미한 내용이 발표되겠습니까? 하단에 깔린 빙산이 없는데 어떻게 물 위에 뜬 일각을 보려 하십니까? 구조가 그렇게 되지 못하니 아무것도 제대로 될 수가 없는 것입니다. 그래서 늘 그저 이름만 거창하게 달리는 것입니다.   

 

우리는 우리만 담당하는 진흥원이 없습니다. 스포츠와 같이 스포츠개발원도 인재개발원도 정책 과학원도 없습니다. 반대로 말씀드리면 E스포츠는 그래서 다 열려 있는 것입니다. 심지어 우리나라에만 없는 게 아니라 전 세계에 없습니다. 그런데 이 일을 하기 위해서는 투자가 필요합니다. 그런데 심지어 아카이브는 빅데이터화와는 다르게 거의 필요한 게 인건비밖에 없습니다. 진심으로 고민 좀 해주셨으면 좋겠습니다. 정책이란 정책 담당자가 아는 지식 만큼과 쏟은 나라에 대한 열정만큼 실현된다는 것을 기억해주시기를 바랍니다. 

 

 

by erdc.kr

구마태