Giv YouTube en runde af [APPLAUSE] - Lyde er nu automatisk billedtekst

youtube tv live streaming service lancering 28691186 mlYouTube fortjener en bifald - fordi videoplatformen nu automatisk kan inkludere [APPLAUSE] og andre lydeffekter i en video. Tekstudvidelsen, der blev annonceret torsdag 23. marts, er muliggjort af dybe neurale netværk, en form for kunstig intelligens.

For nu kan YouTube kun automatisk mærke bifald, musik og latter, men disse tre lydeffekter var beskrivelserne, som indholdsskabere tilføjede manuelt over enhver anden støj til undertekster. Den seneste funktion bygger på den automatiske billedtekstfunktion, der blev lanceret i 2009 til tekst, men tilføjer de første lydeffekter til systemet.

YouTube siger, at programmet fungerer på samme måde som at detektere objekter i billeder, men stod over for nogle få vanskeligheder over genkendelse af objekter. For at få programmet til kun at genkende disse tre lyde, måtte YouTube-ingeniører lære programmet at opdage disse lyde, adskille dem midlertidigt og derefter indsætte den genkendte lyd i billedteksterne.

Systemet havde også en tendens til at kæmpe med lydeffekter, der opstod på samme tid som andre lyde, som latter og tale. En anden udfordring var at finde et stort nok datasæt til at træne systemet, der ikke allerede var tilstrækkeligt mærket ved manuelt at indtaste dataene.

Deep learning-netværket analyserer korte segmenter i rækkefølge og er i stand til at forudsige sandsynligheden for disse lydeffekter med en hastighed på ca. 100 billeder i sekundet. YouTube-ingeniører byggede dog systemet på en måde, der gør det muligt at tilføje yderligere lydeffekter til systemet senere.

Så hvorfor bifald, musik og latter? Udover blot at være de hyppigst manuelt justerede etiketter i tæt billedtekstsystem, har hver af disse lyde også kun en betydning. En “ring”, forklarede YouTube ved at tilbyde et eksempel, kunne være en ring fra en dørklokke, en telefon eller en alarm, der præsenterede en helt ny udfordring for softwaren.

Ifølge YouTube ses over 15 millioner videoer med automatiske billedtekster hver dag. I en test af den seneste opdatering til de automatiske billedtekster sagde to tredjedele, at lydeffektmærkerne forbedrede den samlede oplevelse.

Seneste indlæg

$config[zx-auto] not found$config[zx-overlay] not found