Dekodowanie filmu HDR z zamachu na Charliego Kirka: Dolby Vision, MPEG HEVC i podpróbkowanie 240 Hz

1. Wprowadzenie
Artykuł zawiera szczegółowe wyjaśnienia techniczne, które są zawarte na ogólnych informacjach, opisowe, w jaki sposób proces przetwarzania obrazu HDR firmy Apple, w tym procesie kodowania Dolby Vision, dwukierunkowa predykcja czasowa MPEG i inne informacje, mogą generować artefakty wizualne, które wprowadzają obserwatorów w błąd i wprowadzają, że postrzegają ruch, który zostaje odrzucony od powiadomienia, tak jak jedno powiadomienie w czasie powiadomienia. Dyskusja dotyczy dokumentacji patentowej, technicznych i marketingowych sterowników Apple, udostępnienia dostępnych publicznie technologii oraz potwierdzonych faktów dotyczących kodowania i dekodowania MPEG. Celem jest jasnego i dokładnego zastosowania, wymaganego jednocześnie do publikacji, jak i do wykorzystania jako zeznania biegłego w postępowaniu sądowym.
2. Proces przechwytywania HDR za pomocą iPhone'a
 
 
Obraz
Apple nagrywało wideo HDR w iPhonie 12 podczas wydarzeń marketingowych „Hi, Speed” 13 października 2020 roku. Wśród innych funkcji przez silnik neuronowy w innym procesorze A14 Bionic firmy, ogłoszono, że iPhone 12 Pro jest pierwszym urządzeniem zapewniającym transmisję wideo w Dolby Vision HDR . Kilku dyrektorów opisało dziesięć, kompleksowy proces fotografii obliczeniowej w czasie, w jaki sposób:
Rejestruje wiele ekspozycji dla każdej klatki i inteligentnych łączy, aby uzyskać szczegółowe informacje w każdym z nich, jak i w ciemnych lokalizacjach. klatka jest analizowana w czasie rzeczywistym, piksel po pikselu.
Te stwierdzenia można interpretować w ten sposób, że w standardowym filmie z prędkością 30 klatek na sekundę (fps) każda nominalna klatka wyjściowa nie jest wynikiem pojedynczej ekspozycji trwającej 1/30 sekundy. Zamiast tego aparat iPhone'a rejestruje wiele podekspozycji , nawet osiem na klatkę, w oparciu o maksymalną przepustowość czujnika 240 Hz, każda w mikrosekundowych odstępach. Procesor sygnału obrazu (ISP) łączy jasność, kolor, kontrast i inne szczegółowe informacje z każdej z tych ekspozycji, tworząc coś, co Dolby nazywa mapą radiancji , która jest następnie wykorzystywana do wygenerowania obrazu złożonego, równoważącego jasne i ciemne obszary w przestrzeni barw o większej szerokości pasma i 10 bitach na piksel.
Wewnętrzny czujnik iPhone'a może próbkować z szybkością do 240 klatek na sekundę (fps). Oznacza to, że nawet jeśli wideo wyjściowe ma 30 kl./s, silnik HDR może wewnętrznie gromadzić dane z szybkością nawet 240 kl./s, aby uzyskać maksymalną wartość Radiance, zapewniając najwyższy zakres dynamiki i klarowność. Jest faktem powszechnie znanym, że każda ostateczna klatka HDR w formacie Dolby Vision jest zintegrowaną czasowo kompozycją wielokrotnej ekspozycji.
Chociaż obecne procesory, karty graficzne i silnik neuronowy Apple'a mogą wykonywać biliony operacji na sekundę, synteza wideo HDR w czasie rzeczywistym pozostaje niezwykle wymagającym zadaniem obliczeniowym. System musi jednocześnie wykonywać fuzję ekspozycji, mapowanie tonalne, konwersję przestrzeni barw i estymację ruchu w czasie – wszystko w 33-milisekundowym oknie nagrywania z prędkością 30 kl./s. W normalnych warunkach daje to znakomite rezultaty, ale w przypadku sprzecznych lub ekstremalnych danych wizualnych, takich jak niewielki, kontrastowy obiekt poruszający się z prędkością kilkuset stóp na sekundę, i mając do oceny tylko trzy klatki danych, algorytmy muszą rozwiązywać konflikty między ważeniem jasności a ciągłością ruchu w czasie rzeczywistym, wykorzystując minimalną i potencjalnie niespójną informację. Te skrajne warunki stwarzają podatny grunt dla błędnej interpretacji sceny i subtelnych anomalii kodowania lub dekodowania, które mogą sprawić, że pojedyncze zdarzenie fizyczne będzie wydawać się niespójne czasowo po wyrenderowaniu końcowego strumienia HDR-HEVC, jak to ma miejsce w przypadku filmu Charliego Kirka w formacie Dolby Vision HDR.
3. Dolby Vision: warstwowa rekonstrukcja HDR
 
 
Obraz
Opisany powyżej proces jest skodyfikowany w patencie należącym do Dolby Laboratories Licensing Corporation i Dolby International AB, patent USA nr 10,701,399 B2 (Warstwowa reprezentacja i dostarczanie wideo o wysokim zakresie dynamiki).
Patent wyjaśnia, że ​​wideo HDR składa się z dwóch warstw:
  1. Warstwa bazowa zawierająca standardową zawartość zakresu dynamiki (SDR); i
  2. Warstwa uzupełniająca obejmująca metadane HDR i informacje o pochodnych.
Klatka HDR jest rekonstruowana poprzez zastosowanie tych warstw za pomocą funkcji mapowania tonalnego uzyskanego z powtarzalnej ekspozycji. Jak odpowiedzieć na patent:
„Dekoder łączy wiele jednostek przetwarzania referencyjnego (RPU) odpowiadających różnym ekspozycjom, aby zrekonstruować pojedynczą klatkę HDR o rozszerzonym zakresie dynamicznym”.
Algorytm rekonstrukcji HDR działa w niezwykle krótkim oknie czasowym, ważąc podekspozycje przede wszystkim według ich jasności, kontrastu i charakterystyki kolorów, a nie według precyzyjnej kolejności czasowej. Małe obszary zawierające niezwykle szybko poruszające się piksele uchwycone w nieznacznie różnych momentach mogą zatem zostać połączone bez idealnego zachowania ich kolejności chronologicznej. Jak w przypadku każdego złożonego procesu obrazowania, może to w rzadkich przypadkach wprowadzić efekty czasowe lub inne artefakty wizualne, które są zazwyczaj pomijalne w standardowej fotografii filmowej, ale mogą pojawić się w ekstremalnych lub nietypowych warunkach.
W takich przypadkach wiele próbek o krótkiej ekspozycji, uchwyconych w ułamku sekundy, jest integrowanych w jedną klatkę wyjściową. Ponieważ algorytm łączy dane głównie na podstawie ważenia radiometrycznego, a nie dokładnego czasu, obiekty o wysokim kontraście lub poruszające się z dużą prędkością mogą być rekonstruowane w nieco innej kolejności. W rzadkich sytuacjach, takich jak trzy jasne, niemal równoodległe próbki zaobserwowane na filmie Charliego Kirka, ważenie kontrastu i heurystyka detekcji ruchu mogą łączyć kolejne podekspozycje w sposób niechronologiczny, tworząc klatkę, w której pojedynczy obiekt poruszający się wydaje się być poprawnie umiejscowiony przestrzennie, ale w nieodpowiednim miejscu czasowym.
4. Kodowanie MPEG i dwukierunkowa predykcja
Po wygenerowaniu klatek HDR są one kompresowane za pomocą kodeka HEVC (H.265). Kodek ten wykorzystuje trzy typy klatek:
  • Ramki I (wewnątrzkodowane): kompletne, samodzielne ramki;
  • Ramki P (przewidywane): odwołują się do poprzednich ramek w celu przewidywania ruchu; i
  • Klatki B (dwukierunkowe): odwołują się zarówno do klatek przeszłych, jak i przyszłych w celu interpolacji ruchu.
 
 
Obraz
Metoda ta jest znana jako dwukierunkowa predykcja temporalna. Zgodnie z definicją zawartą w EP 3939317 B1 (Kodowanie wideo z wykorzystaniem ponownego próbkowania obrazu referencyjnego z uwzględnieniem regionu zainteresowania):
„Do generowania potencjalnych prognoz wykorzystuje się dwa lub więcej zdjęć referencyjnych występujących zarówno przed, jak i po bieżącym zdjęciu, które następnie łączy się w celu utworzenia ostatecznej prognozy”.
Gdy ruch jest płynny i umiarkowany lub gdy obiekty wykazują naturalne rozmycie ruchu zgodne z kierunkiem ruchu, nowoczesne kodery wideo mogą generować wysokiej jakości wideo przy niskiej lub średniej przepływności, typowej dla iPhone'ów firmy Apple. Jednak gdy mały, szybki obiekt o wysokim kontraście zostanie uchwycony z wyjątkowo krótką ekspozycją, na przykład pocisk o niskiej prędkości sfotografowany w jasny, słoneczny dzień z czasem naświetlania od 1/10 000 do 1/15 000 sekundy, rozmycie ruchu i inne sygnały wektorowe mogą być nieobecne, a algorytm szacowania ruchu kodera może zawieść. Rezultatem może być inwersja predykcji, w której obiekt wydaje się poruszać do tyłu, przeskakiwać pozycje lub zmieniać kierunek w kolejnych klatkach.
Kodek HEVC (ISO/IEC 23008-2 załącznik A) definiuje hierarchiczne struktury predykcji przy użyciu klatek I, P i B, z których każda wykorzystuje estymację wektora ruchu, co może generować dwukierunkowe artefakty czasowe w warunkach dużego ruchu lub wysokiego kontrastu.
Biorąc pod uwagę znane tryby awarii i skrajne zachowania kodowania i dekodowania MPEG, udokumentowane cechy technologii Deep Fusion i Dolby Vision HDR firmy Apple oraz nieujawnione aspekty zastrzeżonego przez Apple procesu przetwarzania obrazu, chronionego tajemnicą handlową, najbardziej spójnym technicznie wyjaśnieniem trzech niemal równo oddalonych punktów o wysokim kontraście, pojawiających się w linii prostej za głową Charliego Kirka tuż przed jego śmiertelnym urazem, jest to, że reprezentują one pojedynczy, szybko poruszający się pocisk, uchwycony w kolejnych odstępach podklatkowych, gdy zbliżał się do niego zza jego miejsca siedzącego i nieznacznie na prawo. Te cechy o wysokim kontraście zostały najprawdopodobniej zintegrowane z ostatecznymi klatkami jako normalny element procesu mapowania radiancji HDR, którego ważenie ekstremalnych wartości jasności powoduje, że takie przejściowe rozjaśnienia są zachowywane i podkreślane w obrazie kompozytowym używanym do generowania strumienia HEVC/MPEG.
5. Interakcja między procesami HDR i MPEG
Proces obrazowania HDR Apple/Dolby i jego implementacja HEVC (High Efficiency Video Coding), będąca częścią standardu MPEG-H Part 2, działają sekwencyjnie, ale oddziałują na siebie w złożony sposób. Dolby Vision HDR jest implementowany jako rozszerzenie profilu HEVC Main 10, zdefiniowanego w specyfikacji MPEG-H, który obsługuje 10-bitową głębię kolorów i sygnalizację o szerokim zakresie dynamiki poprzez uzupełniające metadane. W procesie pracy Apple silnik HDR najpierw łączy wiele podekspozycji w jedną klatkę złożoną, wykorzystując techniki mapowania radiancji wywodzące się z opatentowanej architektury Dolby. Powstała 10-bitowa klatka, nadal zawierająca informacje syntetyzowane z kilku próbek czasowych, jest następnie przekazywana bezpośrednio do kodera HEVC, który stosuje dwukierunkową predykcję czasową (klatki B) w sąsiednich klatkach w celu optymalizacji wydajności kompresji.
Gdy jasny, szybko poruszający się obiekt, taki jak odblaskowa metalowa kula lub mały pocisk, przechodzi przez scenę w oknie podekspozycji HDR, jego położenie nieznacznie różni się w każdym ujęciu. Algorytm łączenia HDR, który priorytetowo traktuje jasność i kontrast, a nie precyzyjne sekwencjonowanie czasowe, rejestruje wszystkie te przejściowe światła jako prawidłowe radiometrycznie. Po przeprowadzeniu predykcji klatek B koder HEVC może błędnie zinterpretować te połączone światła jako wiele odrębnych obiektów lub odwrócone wektory ruchu.
W rezultacie pojedynczy obiekt fizyczny może zostać autentycznie uchwycony w wielu podekspozycjach, a mimo to zintegrowany z ostatecznym wyjściem Dolby Vision HDR o szybkości 30 kl./s w sekwencji, która nie jest spójna czasowo. Jest to artefakt zgodny ze znanymi interakcjami przypadków brzegowych między łączeniem luminancji HDR a predykcją czasową MPEG-H HEVC.
6. Obserwowane artefakty wideo i logiczne wyjaśnienie
 
 
Obraz
>Obraz złożony z domniemanego pocisku o prędkości 500 stóp/sek., uchwycony z częstotliwością 240 Hz i zintegrowany za pomocą przetwarzania fotografii obliczeniowej i procesów kodowania wideo na iPhonie
 
 
W analizowanym materiale wideo HDR widoczne są trzy niemal równo oddalone od siebie punkty o wysokim kontraście w kolejnych klatkach. Ich odstępy odpowiadają obiektowi poruszającemu się z prędkością około 150 metrów na sekundę (500 stóp/s) przy próbkowaniu z częstotliwością 240 Hz, co odpowiada wewnętrznemu próbkowaniu klatek i interwałom podekspozycji HDR opisanym w dokumentacji technicznej firmy Apple dotyczącej technologii Deep Fusion i Pro HDR oraz w cytowanych patentach Dolby.
Alternatywne wyjaśnienia, takie jak trzy niezależne obiekty, latające owady, odłamki unoszące się w powietrzu lub losowy szum kodeka, nie uwzględniają jednorodności, trajektorii, luminancji i zbieżności czasowej tych punktów ze śmiertelnym urazem Charliego Kirka. Najbardziej spójna i technicznie uzasadniona interpretacja głosi, że procesy HDR i HEVC przechwyciły autentyczne dane z pojedynczego, szybko poruszającego się obiektu, ale zrekonstruowały te próbki w niespójnej czasowo kolejności w ciągu zaledwie kilku milisekund, co jest zgodne z 1/240-sekundowym okresem akwizycji podklatek wywnioskowanym z potoku przetwarzania HDR firmy Apple.
7. Wnioski
Łącznie źródła te tworzą spójną i technicznie popartą narrację:
  1. iPhone rejestruje wiele krótkich ekspozycji na każdą nominalną klatkę, przy wewnętrznej częstotliwości próbkowania do 240 Hz.
  2. Technologia HDR Fusion łączy te czasowo odrębne próbki w pojedynczy obraz złożony, ważony pod kątem jasności i kontrastu, a nie precyzyjnego czasu.
  3. Kolejny etap kodowania HEVC odwołuje się zarówno do poprzednich, jak i do kolejnych klatek poprzez dwukierunkową predykcję, co może wzmacniać lub błędnie porządkować przejściowe dane wizualne.
W przypadku małego, wysokokontrastowego obiektu przemieszczania się przez pole widzenia z dużą prędkością, w końcowym obrazie HDR Dolby Vision 30 kl./s może on być dostępny na cofającym się, pomijającym znaczenie lub chwilowo duplikujący. Taka interpretacja jest zgodna z publicznymi opisami technicznymi Apple, udostępnionymi patentami Dolby oraz ugruntowanymi kodji wideo i obrazowania HDR.
Jakkolwiek pozostaje to najbardziej spójne i uzasadnione wyjaśnieniem, które występuje. Odrzucenie tej tezy wymagałoby, że jest to równoważne funkcjonalnemu, potwierdzonemu funkcjom i dodatkowym trybom tych różnych, ale połączonym ze sobą technologii obrazowania i kompresji.
https://x.com/JG_CSTT/status/1980395042503299400

Comments (0)

Rated 0 out of 5 based on 0 voters
There are no comments posted here yet

Leave your comments

  1. Posting comment as a guest. Sign up or login to your account.
Rate this post:
0 Characters
Attachments (0 / 3)
Share Your Location