Changes in TV Service Environment and Web Technologies

Jungcheol Park

Team Lead/Web Platform, Platform Dept., Altimedia Corp.

The current TV platform is being reorganized into a browser-driven web and a mobile based Android TV. Recently, Google's Android TV has successfully entered and rapidly expanded the market by incorporating flourishing mobile services such as YouTube and Google Assistant into the TV market. On the other hand, the OIPF/HBBTV which advocates a public standard platform and the Web platform that represents the open source-based RDK, also called as hybrid web platform, appears to be lacking in service development and dissemination compared to the development of web-based technology and its potential. The centralized development of a giant company Google and the fertile ecosystem of Android built on it are powerful drivers behind Android's service innovation. Fortunately, TV users do not seem to make as many demands as mobile. At least as far as now. Moreover, these TV user-required services are well-implemented using today’s existing web technologies.

•   Changes in media consumption - OTT
Live channels are no longer the only means of media consumption. A TV connected to the Internet by IP, enabled active media consumption from the existing passive media consumption and is positioned as another media consumption method. Major OTTs such as YouTube, Netflix, Amazon Prime Video, and Disney+ are becoming a primary means of the media consumption. Most of the major OTT services operate their own platform but the underlying technologies can be seen as MSE (Media Source Extensions) and EME (Encrypted Media Extensions). MSE enables media playback without browser plug-in, also can maintain the quality of media playback independently from the device. EME is a technology responsible for content security, which is a prerequisite for video on demand. Media playback and security, which are key functions of OTT, can be implemented by using these two technologies.

•   Changes of UI – Zero UI For a long time, TV input devices seemed to have no other option but a remote control. However, advances in technology are showing different aspects of input devices that were unlikely to be possible. Zero UI represents the usage of a device or application without a screen. Behavior and voice recognition are typical and show different usability than conventional screen-based UI. New interfaces always require adaptation efforts from the users. There are many technologies that fail to overcome the awkwardness, but at least voice recognition is unlikely to be like this. This is because voice recognition is already a part of our life through other devices such as smart speakers. Particularly, it provides a tool which is new innovation, for TV input devices that had no other alternative than remote controls that were not suitable for modern services. Voice recognition allows us to no longer move the focus of the on-screen-keyboard while searching for media content and escape the inconvenience of pressing remote control buttons dozens of times. The Web provides WebSpeech as a technology for voice recognition. By converting input speech audio to text (STT) or providing the opposite function (TTS), web application can recognize the user's voice. Currently, voice recognition is widely used for simple word recognition such as search in most applications, but the possibilities are limitless. For example, Altimedia's voice solution (Voiceable™) deserves a higher level of voice recognition. This is because it is possible to understand and interpret the current screen UI and context to implement actions that best suit the input voice. It also could be called as a web 3.0 type TV service that aims to provide personalized information using artificial intelligence.

•   Web technologies worth for TV services The fact that the latest web technologies are based on H/W device support and cannot be used on our common TV sets is a concern for web platforms with the diversity characteristics of uncontrolled devices. Nevertheless, since most technologies are supported by PC browsers, pilot development will be possible, and considering the recent rapid development of H/W, it will become a technology that will gradually increase the value of major TV services. Here are some useful technologies in developing TV services.

─   WebRTC : Voice, video, and file can be exchanged between p2p. Microphone, camera, and call/chat services can be implemented
─   WebVR, XR : Augmented Reality (AR) and Virtual Reality (VR) can be implemented. It makes to feel realistic with a three-dimensional screen that is different from the conventional flat screen
─   WebGL : Originally a technology for 3D graphics, but nowadays it is becoming an accelerator for Deep learning on the browser. If you use Local deep learning, you will be able to provide personalized services that have evolved from recommendations

Services using Web technology have clear advantages over platform-dependent services such as Android because they have very weak platform dependencies. In other words, it provides an environment that is easy to run the same application on various devices with browsers such as PC, STB, and mobile, and it is also easy to transplant to a heterogeneous platform in the form of platform-dependent native service using WebView. In addition, as mentioned above, the technical infrastructure for implementing services is not lacking compared to other platforms. The general nature of the web and the TV-Friendly application of trendy technologies may lead to the transformation of TV from image quality to user service and further expansion of the ecosystem of web TV services.

TV 서비스 환경 변화와 Web 기술의 적용

지금의 TV 플랫폼은 Browser를 구동 엔진으로 하는 웹과 모바일 OS 를 기반으로 하는 Android TV 로 재편되고 있다. 최근 몇 년간 Google의 AndroidTV 는 유튜브나 Google Assistant 와 같은 성공적인 모바일 서비스들을 TV 에 접목함으로써 시장에 성공적으로 진입하였고 빠른 속도로 시장을 넓혀 가고 있다. 이에 비해 공공 표준 플랫폼을 표방하는 OIPF/HBBTV, 그리고 hybrid 웹 플랫폼이라고 할 수 있는 open source 기반 RDK 로 대표되는 웹 플랫폼은 웹 기반 기술의 발전과 그것이 가지고 있는 잠재력에 비해 이를 이용한 서비스 개발 및 보급은 안드로이드에 비해 미흡해 보이는 것이 사실이다. Google 이라는 거대 기업의 중앙집중형 개발과 그 위에 구축된 안드로이드가 가지고 있는 비옥한 생태계는 안드로이드의 서비스 혁신을 뒷받침하는 강력한 원동력이라 하겠다. 다행히도 TV 사용자들은 모바일만큼 다양한 요구를 하지는 않는 듯하다. 최소한 현재까지는 말이다. 그리고 이러한 TV 사용자 요구 서비스는 현존하는 웹 기술을 이용해 충분히 구현이 가능한 것들이다.

•   미디어 소비의 변화 - OTT
라이브 채널은 더 이상 유일한 미디어 소비 수단이 아니다. IP 로 인터넷과 연결된 TV 는 기존의 수동적인 미디어 소비에서 능동적인 미디어 소비를 가능하게 했고, 또 다른 미디어 소비 방법으로 자리하고 있다. 유튜브, 넷플릭스, 아마존 프라임 비디오, 디즈니+ 와 같은 주요 OTT 는 미디어 소비의 주요 수단이 되고 있다. 대부분의 주요 OTT 서비스는 자체 플랫폼을 운용하고 있지만 기반 기술은 MSE (Media Source Extensions), EME (Encrypted Media Extensions) 로 볼 수 있다. MSE 는 browser plug-in 없이도 미디어 재생을 가능하게 해주며, 미디어 재생의 품질을 디바이스에 독립적으로 고품질로 유지시켜 줄 수 있다. EME 는 주문형 비디오의 필수 조건이라 할 수 있는 컨텐츠 보안을 담당하는 기술이다. OTT 의 핵심 기능인 미디어 재생과 보안을 두 기술을 이용해 구현할 수 있는 것이다.

•   UI의 변화 - 제로 UI
오랫동안 TV 입력 디바이스는 리모콘 외에는 이렇다 할 대안이 없어 보였다. 그러나 기술의 발전은 가능할 것 같지 않던 입력 디바이스의 다른 모습을 보여주고 있다. 제로 UI 는 화면 없이도 기기나 어플리케이션을 사용하는 것을 의미한다. 동작이나 음성 인식 등이 대표적이며 종래의 화면 기반 UI 와는 다른 사용성을 보여준다. 새로운 인터페이스는 항상 기존 사용자에게 적응 노력이 요구되고 이로 인한 어색함을 극복하지 못하고 사장되는 기술이 많지만 최소한 음성 인식은 이렇게 될 가능성은 없어 보인다. 음성 인식이 smart speaker 등 다른 디바이스를 통해 이미 우리 생활의 한 부분을 차지하고 있기 때문이다. 특히 현대적인 서비스에 어울리지 않는 리모콘 외 이렇다 할 대안이 없었던 TV 입력 디바이스로서는 가히 혁신으로 불릴 수 있는 도구를 제공해 주고 있다. 음성 인식을 통해 우리는 더 이상 미디어 컨텐츠 검색을 하면서 on-screen-keyboard 의 포커스를 이동하며 수십 번 리모콘 버튼을 누르는 고통에서 벗어날 수 있게 되었다. 웹은 음성 인식을 위한 기술로 WebSpeech 를 제공한다. 입력되는 speech audio 를 text (STT) 로 변환해 주거나, 반대의 기능 (TTS) 을 제공해 줌으로써 web application 은 사용자의 음성을 인식할 수 있게 되는 것이다.

현재 음성 인식 기능이 대부분의 application 에서 검색 등 간단한 단어 인식 정도에 많이 사용되고 있지만 그 가능성은 무한하다. 가령 알티미디어의 voice solution (Voiceable™) 은 한 차원 높은 음성 인식의 활용이라고 할 만하다. 현재의 화면 UI 와 context 를 이해하고 해석하여 입력되는 음성에 가장 적합한 액션을 하도록 구현하는 것이 가능하기 때문이다. 인공지능을 활용한 개인 맞춤형 정보 제공을 목표로 하는 웹 3.0 형 TV 서비스라고 불러도 좋겠다.

•   TV 서비스를 위한 웹 기술
최신 웹 기술들은 H/W 장치 지원이 바탕이 되기 때문에 우리가 흔히 접하고 있는 TV 에서 사용 가능할 수 없다는 사실은 제어되지 않는 디바이스의 다양성 특성을 가진 웹 플랫폼에서 고민 거리가 아닐 수 없다. 그럼에도 대부분의 기술이 PC browser 에서는 지원되는 것들이 많으므로 pilot 개발은 가능할 것이고 근래의 H/W 빠른 발전 속도를 감안하면 점점 주요 TV 서비스의 value 를 높여 줄 기술이 될 것이다. 몇 가지 TV 서비스 개발 시 유용한 기술을 소개해 본다.

─   WebRTC : 음성, 영상, 파일등을 p2p 간 주고 받을 수 있다. 음성(microphone), 화상(camera), 통화/채팅 서비스를 구현할 수 있다
─   WebVR, XR : 증강 현실 (AR), 가상 현실 (VR) 을 구현할 수 있다. 기존의 평면적인 화면과는 다른 3차원 화면과 현실감을 느끼게 해준다
─   WebGL : 본래 3D graphics 를 기술이지만, 요즘은 browser 상에서 Deep learning 을 위한 가속 도구로 관심을 받고 있다.
Local deep learning 을 활용한다면 추천 등에서 한층 진화된 개인 맞춤형 서비스가 가능할 것이다

웹 기술을 이용한 서비스는 플랫폼 의존성이 매우 약하기 때문에 안드로이드와 같은 플랫폼 의존적 서비스 대비 분명한 이점을 가지고 있다. 즉, PC와 STB 그리고 모바일 등 Browser 가 탑재되는 다양한 디바이스에 동일한 Application 을 구동하기 쉬운 환경을 제공해 주며 WebView 를 이용해 플랫폼 의존적 Native 서비스 형태의 이종 플랫폼에 이식도 용이하다. 또한, 앞서 살펴본 것처럼 서비스를 구현하기 위한 기술적 인프라 역시 다른 플랫폼에 비해 부족하지 않다. 이러한 웹의 범용성과 트렌디한 기술들의 TV-Friend 한 적용은 TV 가 영상 품질에서 사용자 서비스 중심으로 변화, 발전하고 나아가 웹 TV 서비스의 생태계 확장을 이끌 수 있지 않을까 한다.