Wereldwijd is het dataverkeer van 100 Gigabytes (GB) per dag in 1992 omhooggeschoten tot 2000 GB per seconde in 2007. In 2017 was dit equivalent aan 46.000 GB per seconde en er wordt geschat dat dit in 2022 150.700 GB per seconde zal zijn (Cisco, 2020). Deze snelle ontwikkeling is het gevolg van het streamen van video's met een hogere kwaliteit, videostreaming voor gaming, augmented reality (AR), kunstmatige intelligentie (AI)-training, autonome voertuigen met streaming camera's en blockchaintoepassingen.

Een punt van zorg is de enorme toename van internetgegevensverkeer van videostreamingdiensten in de afgelopen jaren (Marks et al., 2020). De term videostreaming verwijst naar de levering van videobestanden die worden gehost op fysieke servers die losstaan van de individuele gebruikers van de inhoud en hun apparaten (tv's, smartphones, pc's, laptops, tablets, enz.). Streaming verwijst naar een leveringsmethode waarbij media-inhoud continu wordt geleverd aan de consument, die geen videobestanden meer hoeft te downloaden op zijn apparaatpunten. Online videostreamingdiensten omvatten verschillende gebruiksdoeleinden, waaronder met name "video op aanvraag" zoals films en series (bijv. Netflix, Disney+ of Amazon Prime), en sociale netwerktoepassingen (bijv. Facebook, Instagram, Twitter of TikTok). Verwacht wordt dat het streamen en downloaden van video zal groeien van ongeveer 72% in 2017 tot ongeveer 82% van het totale wereldwijde internetverkeer voor consumenten in 2022 (CISCO, 2019). Deze ontwikkeling houdt verband met de technologie van online video's, die een zeer dicht medium van informatie vormt. Er wordt een verdere toename van het videostreamingverkeer verwacht wanneer beeldschermen met een resolutie van 4K/8K op grotere schaal worden gebruikt.

De meeste online video's vertrouwen op een programma dat een codec heet om de video bij de bron te comprimeren of te coderen, over het internet naar de kijker te sturen en vervolgens te decomprimeren of decoderen om af te spelen. Deze codecs nemen meerdere beslissingen voor elk frame in een video. Een van deze beslissingen heeft betrekking op de bitrate. Bitrate is een belangrijke factor in hoeveel rekenkracht en bandbreedte nodig is om video te leveren en op te slaan. Het beïnvloedt alles, van de laadtijd van een video tot de resolutie, het bufferen en het gegevensgebruik.

Met de toename van video tijdens de COVID -19 pandemie en de verwachte toename van het totale internetverkeer in de toekomst, is videocompressie een steeds belangrijker probleem. Decennia lang is er gewerkt aan het optimaliseren van deze codecs. Maar omdat reinforcement learning bijzonder geschikt is voor sequentiële beslissingsproblemen zoals codecs, zou MuZero kunnen helpen om dit proces te optimaliseren.

Planningsalgoritmen op basis van "lookahead search" hebben al opmerkelijke successen geboekt in de kunstmatige intelligentie. Menselijke wereldkampioenen zijn verslagen in klassieke spellen zoals dammen, schaken, Go en poker, en planningsalgoritmen zijn in de echte wereld geaccepteerd in toepassingen variërend van logistiek tot chemische synthese. Deze planningsalgoritmen zijn echter allemaal afhankelijk van kennis over de dynamiek van de omgeving, zoals de regels van een spel of een nauwkeurige simulator, waardoor ze niet direct kunnen worden toegepast op echte domeinen waar de dynamiek meestal onbekend is, zoals robotica, intelligente assistenten of zelfs het comprimeren van videobestanden.

Modelgebaseerd versterkingsleren (RL) probeert dit probleem op te lossen door eerst een model van de dynamiek van de omgeving te leren en vervolgens te plannen gegeven het geleerde model.
Bijvoorbeeld MuZero, DeepMind's nieuwe benadering van modelgebaseerde RL die bovenmenselijke prestaties bereikt bij precisieplanningstaken zoals schaken, shogi en Go, zonder voorafgaande kennis van de dynamica van het spel. MuZero bouwt voort op de krachtige zoek- en iteratiealgoritmen van DeepMind's eerdere algoritme AlphaZero, maar integreert een aangeleerd model in de trainingsprocedure.

MuZero richt zich op VP9, de open-source codec van Google, omdat deze veel wordt gebruikt door YouTube en andere streamingdiensten. Door de dynamiek van videocodering te leren en te bepalen hoe bits het beste kunnen worden toegewezen, kan MuZero Rate-Controller de bitrate verlagen zonder kwaliteitsverlies. Hoewel tientallen jaren van onderzoek en engineering hebben geresulteerd in efficiënte algoritmen, leert MuZero automatisch deze coderingsbeslissingen te nemen om de optimale afruil tussen rate en vervorming te verkrijgen en heeft een gemiddelde bitrateverlaging van 4% aangetoond over een grote, diverse set video's.

"Het belangrijkste idee van het algoritme is om die aspecten van de toekomst te voorspellen die direct relevant zijn voor de planning. Het model ontvangt de observatie (bijvoorbeeld een afbeelding van het Go-bord) als invoer en zet deze om in een verborgen toestand. De verborgen toestand wordt vervolgens iteratief bijgewerkt door een terugkerend proces dat de vorige verborgen toestand en een hypothetische volgende actie ontvangt. Bij elk van deze stappen genereert het model een strategie (voorspelling van de te spelen zet), een waardefunctie (voorspelling van de cumulatieve beloning, bijv. de uiteindelijke winst) en een voorspelling van de onmiddellijke beloning (bijv. de punten die worden verdiend door het spelen van een zet). Het model wordt getraind met als enige doel het nauwkeurig schatten van deze drie belangrijke grootheden om de verbeterde strategie en waardefunctie te bereiken die door het zoeken wordt gegenereerd, evenals de waargenomen beloning. Er is geen directe eis of beperking dat de verborgen toestand alle informatie moet bevatten die nodig is om de oorspronkelijke waarneming te reconstrueren, waardoor de hoeveelheid informatie die het model moet vasthouden en voorspellen drastisch wordt verminderd. Er is ook geen vereiste dat de verborgen toestand overeenkomt met de onbekende werkelijke toestand van de omgeving en er zijn geen andere beperkingen op de semantiek van de toestand. In plaats daarvan kunnen de verborgen toestanden elke toestand vertegenwoordigen die de strategie, waardefunctie en beloning correct inschat. Intuïtief kan de agent intern elke dynamiek uitvinden die leidt tot accurate planning.