PROJET DE NOUVELLE RECOMMANDATION UIT-R BT.1683 ... - ITU
Le codeur peut utiliser diverses méthodes de compression (par exemple Groupe
...... Par exemple, on peut également utiliser la différence absolue. ......
Alignement spatial: Processus utilisé pour évaluer et corriger les décalages
spatiaux ...... Les comparaisons Ctd permettent de corréler la tième image traitée
avec chaque ...
part of the document
hodes d'évaluation subjective,
recommande
1 d'utiliser les lignes directrices, les paramètres et les limites indiqués dans l'Annexe 1 pour appliquer les modèles d'évaluation objective de la qualité vidéo décrits dans les Annexes 2 à 5;
2 d'utiliser les modèles d'évaluation objective de la qualité vidéo décrits dans les Annexes 2 à 5 pour effectuer des mesures objectives de la qualité vidéo perçue.
Annexe 1
Résumé
La présente Recommandation spécifie les méthodes à utiliser pour estimer la qualité vidéo perçue d'un système de transmission vidéo unidirectionnel. Elle s'applique aux signaux en bande de base. Les méthodes d'estimation qui y sont décrites sont valables pour:
l'évaluation du codec, ses spécifications et les essais d'homologation;
le contrôle de qualité pendant le service, éventuellement en temps réel, à la source;
le télécontrôle de qualité à la destination, lorsqu'une copie de la source est disponible;
la mesure de qualité d'un système d'archivage vidéo ou d'un système numérique vidéo qui utilise des techniques de compression et de décompression numériques, par application unique ou concaténation de ces techniques.
Introduction
Il n'est plus à démontrer depuis longtemps qu'il est précieux pour l'industrie de pouvoir mesurer automatiquement la qualité d'une séquence vidéo diffusée. En effet, les radiodiffuseurs ont besoin de tels outils pour remplacer ou compléter les essais d'évaluation subjective de la qualité qui soit coûteux et chronophages. Jusqu'à présent les mesures objectives de la qualité ont été faites par calcul de la valeur de crête du rapport signal/bruit (PSNR). Ce rapport est certes un indicateur utile de la qualité mais il a été montré qu'il donnait une représentation moins que satisfaisante de la qualité perceptuelle. Pour s'affranchir des limites liées au rapport PSNR, on s'est orienté dans les recherches vers la définition d'algorithmes permettant de mesurer la qualité perceptuelle d'une séquence vidéo diffusée. De tels outils de mesure objective de la qualité perceptuelle peuvent être utilisés pour tester les performances d'un réseau de radiodiffusion, comme aide d'achat d'équipements et pour la mise au point de nouvelles techniques de codage vidéo de radiodiffusion. Ces dernières années beaucoup de travaux ont été consacrés à la mise au point d'outils fiables et précis susceptibles d'être utilisés pour mesurer objectivement la qualité perceptuelle d'une séquence vidéo diffusée. La présente Recommandation définit des modèles de calcul objectif dont il a été montré qu'ils étaient de meilleurs outils de mesure automatique que le rapport PSNR pour évaluer la qualité d'une séquence vidéo diffusée. Les modèles ont été testés sur des séquences à 525 lignes et à 625 lignes conformes à la Recommandation UIT-R BT.601 qui caractérise la distribution secondaire de signaux vidéo numériques de qualité télévision.
Les résultats obtenus avec les modèles d'évaluation de la qualité perceptuelle ont été évalués dans le cadre de deux évaluations parallèles de la séquence vidéo soumise à l'essai1. Dans la première évaluation, on a utilisé une méthode d'évaluation subjective normalisée, la méthode d'échelle de qualité continue à double stimulus (DSCQS) pour obtenir auprès de groupes d'observateurs humains des indices subjectifs de la qualité de la séquence vidéo. Voir la Recommandation UIT-R BT.500 Méthode d'évaluation subjective de la qualité des images de télévision. Dans la seconde évaluation, les indices objectifs ont été calculés à l'aide de modèles de calcul objectif. Pour chaque modèle, on a procédé à plusieurs calculs pour mesurer l'exactitude et la cohérence avec lesquelles les indices objectifs permettent de prévoir les indices subjectifs. Trois laboratoires indépendants se sont chargés de la partie évaluation subjective du test. Deux laboratoires, Communications Research Center (CRC, Canada) et Verizon (EtatsUnis d'Amérique), ont effectué les tests avec des séquences 525/60 Hz et un troisième laboratoire Fondazione Ugo Bordoni (FUB, Italie) avec des séquences 625/50 Hz. Plusieurs laboratoires ont élaboré des modèles de calcul objectif de la qualité vidéo des mêmes séquences vidéo testés avec des observateurs humains par CRC, Verizon et FUB. Les résultats des tests sont donnés dans l'Appendice 1.
La présente Recommandation comprend les modèles de calcul objectif indiqués dans le Tableau 1.
Une description complète des quatre modèles de calcul objectif est donnée dans les Annexes 2 à 5.
On peut utiliser les équipements d'essai de la qualité vidéo existants en attendant que de nouveaux équipements d'essai utilisant l'un quelconque des quatre modèles ci-dessus soient facilement disponibles.
TABLEAU 1
Numéro du modèleNomInitiateur Groupe d'experts en qualité vidéo (VQEG)PaysAnnexe1British TelecomDRoyaumeUni22Yonsei University/Radio Research Laboratory/SK TelecomECorée (Rép. de)33Centre de recherche et de développement en télécommunication (CPqD)FBrésil44National Telecommunications and Information Administration (NTIA)/Institute for Telecommunication Sciences (ITS)HEtatsUnis d'Amérique5
Pour envisager l'inclusion d'un modèle quelconque dans la partie normative de la présente Recommandation, le modèle doit être vérifié par un organe indépendant ouvert (par exemple, le VQEG) qui effectuera l'évaluation technique dans le respect des lignes directrices et des critères de performance fixés par la Commission d'études 6 des radiocommunications. L'intention de la Commission d'études 6 des radiocommunications est de recommander à terme une seule méthode de référence complète normative.
1 Champ d'application
La présente Recommandation spécifie les méthodes à utiliser pour évaluer la qualité vidéo perçue d'un système vidéo unidirectionnel. Elle s'applique aux signaux en bande de base. Les estimateurs de la qualité vidéo objective sont définis pour la qualité de bout en bout entre les deux points. Les méthodes d'estimation sont basées sur le traitement d'une séquence vidéo à composante numérique à 8 bits telle qu'elle est définie dans la Recommandation UIT-R BT.6012. Le codeur peut utiliser diverses méthodes de compression (par exemple Groupe d'experts pour les images animées (MPEG), Recommandation UIT-T H.263, etc.). Les modèles proposés dans la présente Recommandation peuvent être utilisés pour évaluer un codec (combinaison codeur/décodeur) ou une concaténation de diverses méthodes de compression et dispositifs d'archivage de mémoire. Le calcul des estimateurs de qualité objectifs décrit dans la présente Recommandation aura peut-être tenu compte des dégradations dues aux erreurs (erreurs sur les bits, perte de paquets) mais on ne dispose pas actuellement de résultats d'essai indépendants permettant de valider l'utilisation des estimateurs pour des systèmes présentant des dégradations dues à des erreurs. Le matériel d'essai de validation ne contenait pas d'erreurs sur les canaux.
1.1 Application
La présente Recommandation donne des estimations de la qualité vidéo pour différentes classes de télévision (TV0-TV3), et pour la classe vidéo multimédia (MM4) définie dans l'Annexe B de la Recommandation UIT-T P.911. Les applications des modèles d'estimation décrits dans la présente Recommandation sont notamment les suivantes:
évaluation du codec, spécification du codec, essai d'homologation, contenu de la précision limitée décrite ci-dessous;
contrôle de la qualité pendant le service, éventuellement en temps réel, à la source;
télécontrôle de la qualité au point de destination lorsqu'on dispose d'une copie de la source;
mesures de qualité d'un système d'archivage ou de transmission qui utilise des techniques de compression ou de décompression vidéo, par passage unique ou concaténation de telles techniques.
1.2 Limitations
Les modèles d'estimation décrits dans la présente Recommandation ne peuvent être utilisés pour remplacer les essais subjectifs. Les valeurs de corrélation entre deux essais subjectifs conçus et exécutés avec soin (par exemple dans deux laboratoires différents) se situent normalement dans la fourchette 0,92-0,97. La présente Recommandation ne donne pas de moyens permettant de quantifier d'éventuelles erreurs d'estimation. Les utilisateurs de la présente Recommandation devraient comparer les résultats des évaluations subjectives et objectives disponibles pour avoir une idée de la fourchette des erreurs d'estimation des indices de qualité vidéo.
Les performances prévues des modèles d'estimation ne sont pas actuellement validées pour des systèmes vidéo comportant des dégradations dues à des erreurs sur les canaux de transmission.
Annexe 2Modèle 1
TABLE DES MATIÈRES
Page
1 Introduction 5
2 Modèle d'image de BTFR 5
3 Détecteurs 6
3.1 Conversion des séquences d'entrée 6
3.2 Recadrage et décalage 7
3.3 Adaptation 8
3.3.1 Statistiques d'adaptation 10
3.3.2 Rapport PSNR adapté 10
3.3.3 Vecteurs d'adaptation 10
Page
3.4 Analyse fréquentielle dans le domaine spatial 11
3.4.1 Transformée pyramidale 11
3.4.2 Rapport SNR pyramidal 13
3.5 Analyse de la texture 13
3.6 Analyse des contours 14
3.6.1 Détection des contours 14
3.6.2 Différenciation des contours 14
3.7 Analyse du rapport PSNR adapté 15
4 Intégration 15
5 Alignement 16
6 Références bibliographiques 16
Annexe 2a 17
1 Introduction
L'outil d'évaluation automatique de la qualité vidéo avec une image de référence complète de BT (BTFR, BT full-reference) permet d'avoir des prévisions de la qualité vidéo qui sont représentatives des jugements de qualité de l'être humain. Cet outil de mesure objective simule numériquement les caractéristiques du système visuel humain (HVS, human visual system) pour donner des prévisions précises de la qualité vidéo et constitue une alternative viable aux évaluations subjectives classiques qui sont coûteuses et chronophages.
Une mise en oeuvre logicielle du modèle a été intégrée dans les tests VQEG2 et les résultats correspondants ont été présentés dans un rapport sur les essais1.
2 Modèle d'image de BTFR
L'algorithme BTFR effectue une détection suivie d'une intégration (voir la Fig. 1). Par détection, on entend le calcul d'un ensemble de paramètres du détecteur perceptuellement significatifs à partir de la séquence vidéo non déformée (de référence) et de la séquence vidéo déformée (dégradée). Ces paramètres constituent alors les données d'entrée pour l'intégrateur qui donne une estimation de la qualité vidéo perçue avec une pondération appropriée. Le choix des détecteurs et des facteurs de pondération est fonction de caractéristiques de masquage spatial et temporel connues du HVS et déterminé par étalonnage.
Le modèle accepte des séquences vidéo d'entrée de type 625 (720 ( 576) entrelacées à 50 trames/s et 525 (720 ( 486) entrelacées à 59,94 trames/s en format YUV422.
3 Détecteurs
Le module de détection de l'algorithme BTFR effectue un certain nombre de mesures fréquentielles dans le domaine temporel et le domaine spatial à partir des séquences d'entrée formatées YUV (voir la Fig. 2).
3.1 Conversion des séquences d'entrée
Tout d'abord, les séquences d'entrée sont converties du format entrelacé YUV422 à un format desentrelacé de bloc YUV444 de sorte que chaque trame successive est représentée par des tableaux RefY, RefU et RefV:
EMBED Equation.3 (1)
EMBED Equation.3 (2)
EMBED Equation.3 (3)
où:
X : nombre de pixels horizontaux dans une trame
Y : nombre de pixels verticaux.
Pour une séquence d'entrée YUV422, chaque valeur de U et chaque valeur de V doivent être répétées pour obtenir les matrices (2) et (3) avec une résolution complète.
3.2 Recadrage et décalage
Cette routine recadre, avec décalage, la séquence d'entrée dégradée et recadre, sans décalage, la séquence d'entrée de référence. Les paramètres de décalage XOffset et YOffset, déterminés extérieurement, définissent de combien de pixels horizontaux et verticaux la séquence est décalée par rapport à la séquence de référence. L'origine de l'image est située dans le coin supérieur gauche, avec un déplacement positif horizontal vers la droite et vertical vers le bas. Une valeur du paramètre XOffset de 2 indique que les trames dégradées sont décalées vers la droite de 2 pixels et une valeur du paramètre YOffset de 2 indique un décalage vers le bas de 2 pixels. Pour une trame d'entrée avec des valeurs YUV archivées en format YUV444 (§ 3.1) dans des tableaux InYField, InUField et InVField, la séquence de sortie recadrée et décalée est calculée selon les expressions (4) à (20).
EMBED Equation.3 (4)
EMBED Equation.3 (5)
EMBED Equation.3 (6)
EMBED Equation.3 (7)
EMBED Equation.3 (8)
EMBED Equation.3 (9)
EMBED Equation.3 (10)
EMBED Equation.3 (11)
X et Y donnent respectivement la dimension de trame horizontale et la dimension de trame verticale et Cx et Cy le nombre de pixels à recadrer depuis la gauche et la droite ainsi que le haut et le bas.
Pour des séquences à 625 lignes,
EMBED Equation.3 (12)
Pour des séquences à 525 lignes,
EMBED Equation.3 (13)
Xstart, Xend, Ystart et Yend définissent maintenant la région de chaque trame qui sera copiée. Les pixels situés en dehors de cette région sont initialisés selon les équations (14) et (15), dans lesquelles YField, UField et VField sont les tableaux de pixels de sortie XxY contenant respectivement les valeurs Y, U et V.
Les barres verticales à gauche et à droite de la trame sont initialisées selon:
EMBED Equation.3 (14)
EMBED Equation.3 (15)
Les barres horizontales en haut et en bas de la trame sont initialisées selon:
EMBED Equation.3 (16)
EMBED Equation.3 (17)
Enfin, les valeurs des pixels sont copiées selon:
EMBED Equation.3 (18)
EMBED Equation.3 (19)
EMBED Equation.3 (20)
Pour la séquence d'entrée dégradée, le recadrage et le décalage génèrent des tableaux de trame de sortie DegYField, DegUField et DegVField tandis que le recadrage sans décalage pour la séquence de référence génère RefYField, RefUField et RefVfield. Ces tableaux bidimensionnels XxY servent de données d'entrée pour les routines de détection décrites ci-après.
3.3 Adaptation
Le processus d'adaptation produit des signaux destinés à être utilisés dans d'autres procédures de détection, ainsi que des paramètres de détection destinés à être utilisés dans la procédure d'intégration. Pour les signaux d'adaptation, on cherche, pour de petits blocs dans chaque trame dégradée, dans une mémoire tampon de trames de référence voisines les trames qui correspondent le mieux. On obtient ainsi une séquence, la séquence de référence adaptée, destinée à être utilisée en lieu et place de la séquence de référence dans certains des modules de détection.
L'analyse d'adaptation est réalisée sur des blocs de pixels 9 ´ð 9 des tableaux d'intensité RefYField et DegYField. Si l'on ajoute la dimension nombre de trames aux tableaux d'intensité, le pixel (Px, Py) de la trame de référence N peut être représenté comme suit:
EMBED Equation.3 (21)
Un bloc de pixels 9 ´ð 9 avec un pixel central (Px, Py) dans la Nième trame peut être représenté comme suit:
EMBED Equation.3 (22)
Deg(n, x, y) et BlockDeg(n, x, y) peuvent être définis de la même manière.
Pour BlockDeg(N, Px, Py), on calcule une erreur d'adaptation minimale E(N, Px, Py) en cherchant les trames de référence voisines selon l'équation:
EMBED Equation.2 (23)
où N est l'indice de la trame dégradée contenant le bloc dégradé qui fait l'objet de l'adaptation.
Si l'équation (23) permet de déterminer que la meilleure correspondance avec BlockDeg(N, Px, Py) est BlockRef(nm, xm, ym), alors un tableau de référence adaptée MRef est mis à jour selon:
EMBED Equation.2 (24)
Le processus d'adaptation de recherche de la meilleure correspondance pour un bloc dégradé suivie de la copie du bloc résultant dans le tableau de référence adapté est répété pour l'ensemble de la zone d'analyse souhaitée. Cette zone d'analyse est définie par les points centraux de blocs Px() et Py() selon:
EMBED Equation.3 (25)
et
EMBED Equation.3 (26)
où Qx et Qy définissent le nombre de blocs d'analyse horizontaux et verticaux.
L'analyse d'adaptation de la Nième trame produit donc une séquence de référence adaptée décrite par:
EMBED Equation.3 (27)
et un ensemble de valeurs d'erreur pour la meilleure correspondance:
EMBED Equation.3 (28)
Un ensemble de tableaux de décalage MatT, MatX et MatY peuvent être définis de façon que:
EMBED Equation.3 (29)
Les paramètres d'adaptation pour des séquences de radiodiffusion à 625 lignes ou 525 lignes sont donnés dans le Tableau 2.
TABLEAU 2
Paramètres de recherche pour la procédure d'adaptation
Paramètre625525Qx8787Qy3328
La zone d'analyse définie par les équations (26) et (27) ne couvre pas l'ensemble de la trame. MRef doit donc être initialisé selon l'équation (29) de façon à pouvoir être utilisé ailleurs sans restriction.
EMBED Equation.3 (30)
3.3.1 Statistiques d'adaptation
Les statistiques d'adaptation horizontales sont calculées à partir du processus d'adaptation et destinées à être utilisées dans le processus d'intégration. La meilleure correspondance pour chaque bloc d'analyse, déterminée selon l'équation (23), est utilisée dans la construction de l'histogramme histX pour chaque trame selon:
EMBED Equation.3 (31)
où le tableau histX est initialisé à zéro pour chaque trame. L'histogramme est ensuite utilisé pour déterminer la mesure fXPerCent selon:
EMBED Equation.3 (32)
Pour chaque trame, la mesure fXPerCent donne la proportion (%) de blocs adaptés qui interviennent dans la crête de l'histogramme d'adaptation.
3.3.2 Rapport MPSNR
L'erreur minimale, E(), pour chaque bloc adapté est utilisé pour calculer un rapport SNR adapté selon:
EMBED Equation.3 (33)
EMBED Equation.3 (34)
3.3.3 Vecteurs d'adaptation
Le vecteur horizontal, le vecteur vertical et le vecteur retard sont archivés en vue d'une utilisation future selon:
EMBED Equation.3 (35)
EMBED Equation.3 (36)
EMBED Equation.3 (37)
3.4 Analyse fréquentielle dans le domaine spatial
Le détecteur fréquentiel dans le domaine spatial est basé sur une transformation "pyramidale" des séquences de référence dégradée et adaptée. Tout d'abord, chaque séquence est transformée pour donner un tableau pyramidal de référence et un tableau pyramidal dégradé. Ensuite, les différences entre les tableaux pyramidaux sont calculées à l'aide d'une mesure de l'erreur quadratique moyenne et les résultats en sortie sont présentés sous forme d'un rapport SNR pyramidal.
3.4.1 Transformée pyramidale
Tout d'abord, la trame d'entrée F est copiée dans un tableau pyramidal P selon:
EMBED Equation.3 (38)
Ce tableau pyramidal est ensuite mis à jour par analyse horizontale et verticale en trois étapes (étape =ð 0..2). L'analyse horizontale Hpy(stage) est définie par les équations (39) à (43).
Tout d'abord, il est fait une copie temporaire de l'ensemble du tableau pyramidal:
EMBED Equation.3 (39)
Ensuite les limites x et y sont calculées selon:
EMBED Equation.3 (40)
EMBED Equation.3 (41)
Les moyennes et les différences des paires horizontales d'éléments du tableau temporaire sont ensuite utilisées pour mettre à jour le tableau pyramidal selon:
EMBED Equation.3 (42)
EMBED Equation.3 (43)
L'analyse verticale Vpy(stage) est définie par les équations (44) à (48).
EMBED Equation.3 (39)
EMBED Equation.3 (45)
EMBED Equation.3 (46)
Les moyennes et les différences des paires verticales d'éléments du tableau temporaire sont ensuite utilisées pour mettre à jour le tableau pyramidal selon:
EMBED Equation.3 (47)
EMBED Equation.3 (48)
Pour l'étape 0, l'analyse horizontale Hpy(0) suivie de l'analyse verticale Vpy(0) met à jour l'ensemble du tableau pyramidal avec les quatre quadrants Q(étape, 0...3) structurés comme suit:
L'analyse étape 1 est ensuite réalisée sur Q(0,0) pour obtenir les résultats Q(1,0...3) qui sont archivés dans la pyramide selon:
L'analyse étape 2 traite Q(1,0) et le remplace par Q(2,0...3).
A l'issue des trois stades de l'analyse, le tableau pyramidal résultant comporte un total de 10 blocs de résultats. Trois blocs Q(0,1...3) proviennent de l'analyse des pixels 2 ´ð 2 , étape 0, trois Q(1,1...3) de l'analyse des pixels 4 ´ð 4, étape 1 et 4 Q(2,0...3) de l'analyse des pixels 8 ´ð 8, étape 2.
L'analyse en trois étapes de la séquence de référence adaptée et de la séquence dégradée produit les tableaux pyramidaux Pref et Pdeg. Les différences entre ces tableaux sont ensuite mesurées dans le module SNR pyramidal.
3.4.2 Rapport SNR pyramidal
On mesure l'erreur quadratique entre le tableau pyramidal de référence et le tableau pyramidal dégradé sur les quadrants 1 à 3 des étapes 0 à 2 selon:
EMBED Equation.3 (49)
où, x1, x2, y1 et y2 définissent les limites horizontales et verticales des quadrants dans les tableaux pyramidaux et sont calculés selon:
EMBED Equation.3 (50)
EMBED Equation.3 (51)
EMBED Equation.3 (52)
Les résultats de l'équation (49) sont ensuite utilisés pour mesurer le PSNR pour chaque quadrant de chaque trame selon:
EMBED Equation.3 (53)
où le nombre d'étapes s =ð 0...2 et le nombre de cadrans pour chaque étape q =ð 1...3.
3.5 Analyse de la texture
On mesure la texture de la séquence dégradée en enregistrant le nombre de points de transition du signal d'intensité sur les lignes horizontales de l'image, selon les équations (54) à (59).
Pour chaque trame, un compteur de points de transition est tout d'abord initialisé selon l'équation (54).
sum =ð 0 (54)
Puis, chaque ligne y =ð 0...Y ( 1, est traitée pour x =ð 0...X ( 2 selon:
EMBED Equation.3 (55)
EMBED Equation.3 (56)
EMBED Equation.3 (57)
EMBED Equation.3 (58)
EMBED Equation.3 (59)
EMBED Equation.3 (60)
Quand toutes les lignes d'une trame ont été traitées, le compteur, sum, contiendra le nombre de points de transition du signal d'intensité horizontal. Ce nombre est ensuite utilisé pour calculer un paramètre de texture pour chaque trame selon:
EMBED Equation.3 (61)
3.6 Analyse des contours
Chaque trame de la séquence dégradée et de la séquence de référence adaptée subit séparément une routine de détection des bords pour produire des représentations correspondantes des bords de la trame, lesquelles sont ensuite comparées dans une procédure d'adaptation de blocs pour établir les paramètres de détection.
3.6.1 Détection des contours
On a utilisé un détecteur de contours de Canny [Canny, 1986] pour déterminer les représentations des contours, mais d'autres techniques analogues de détection de contours bords peuvent également être utilisées. Les représentations des contours résultantes, EMapRef et EMapDeg, sont des représentations de pixels où un contour est indiqué par un 1 et l'absence de contour par un 0,
Pour la détection d'un contour ou pixel (x, y):
EMBED Equation.3 (62)
Pour la détection d'une absence de contour ou pixel (x, y):
EMBED Equation.3 (63)
3.6.2 Différenciation des contours
La procédure de différenciation des contours permet de mesurer les différences entre les représentations des contours pour la trame dégradée et la trame de référence adaptée correspondante. L'analyse est effectuée dans NxM blocs de pixels ne se chevauchant pas selon les équations (64) à (68).
Tout d'abord, on calcule le nombre de pixels marqués par un bord dans chaque bloc d'analyse où Bh et Bv définissent le nombre de blocs ne se chevauchant pas à analyser dans les directions horizontale et verticale et X1 et Y1 définissent les décalages par rapport au bord de la trame.
EMBED Equation.3 (64)
EMBED Equation.3 (65)
Les limites de sommation sont déterminées selon:
EMBED Equation.3 (66)
EMBED Equation.3 (67)
où l'opérateur, div, représente une division par un nombre entier.
Ensuite, on effectue une mesure des différences sur la totalité de la trame selon:
EMBED Equation.3 (68)
Pour des trames de 720 ´ð 288 pixels pour une séquence vidéo à 625 lignes:
EMBED Equation.3 (69)
Pour des trames de 720 ´ð 243 pixels pour une séquence vidéo à 525 lignes:
EMBED Equation.3 (70)
3.7 Analyse du rapport MPSNR
Un rapport SNR adapté est calculé pour les valeurs du pixel V en utilisant les vecteurs d'adaptation définis dans les équations (35) à (37). Pour chaque ensemble de vecteurs d'adaptation une mesure d'erreur, VE, est calculée selon:
EMBED Equation.3 (71)
On calcule alors une mesure du rapport PSNR segmentaire pour la trame selon:
EMBED Equation.3 (72)
4 Intégration
La procédure d'intégration nécessite tout d'abord une pondération temporelle des paramètres de détection trame par trame selon l'équation (73):
EMBED Equation.3 (73)
où:
N : nombre total de trames des séquences testées
D(k, n) : paramètre de détection k pour la trame n.
Les paramètres de détection pondérés, AvD(k), sont ensuite combinés pour donner une note de qualité prévue, PDMOS, pour la séquence de trame N selon l'équation (74):
EMBED Equation.3 (74)
Les Tableaux 3 et 4 donnent les paramètres de l'intégrateur respectivement pour les séquences à 625 lignes et celles à 525 lignes.
TABLEAU 3
Paramètres d'intégration pour un système de vidéodiffusion à 625 lignes
KNom du paramètreW0TextureDeg0,681PySNR(3,3)0,572EDif+58 913,2943fXPerCent0,2084MPSNR0,9285SegVPSNR1,529Décalage+176,486N400
TABLEAU 4
Paramètres d'intégration pour un système de vidéodiffusion à 525 lignes
KNom du paramètreW0TextureDeg+0,0431PySNR(3,3)2,1182EDif+60 865,1643fXPerCent0,3614MPSNR+1,1045SegVPSNR1,264Décalage+260,773N480
5 Alignement
Le modèle FR nécessite un bon fonctionnement de l'alignement spatial et temporel. Le modèle intègre un alignement inhérent et peut prendre en charge des décalages spatiaux entre la séquence de référence et la séquence dégradée de (4 pixels et des décalages temporels de (4 trames. Les décalages spatiaux ou temporels au-delà de ces limites ne sont pas pris en charge par le modèle et il faudra un module d'alignement distinct pour s'assurer que la séquence de référence et la séquence dégradée sont correctement alignées.
6 Références bibliographiques
CANNY, J. [1986] A computational approach to edge detection. IEEE Trans. Pattern Analysis and Machine Intelligence. Vol. 8(6), p. 679-698.
Annexe 2a
TABLEAU 5
Données objectives et subjectives pour un système à 525 lignesNom du fichierSéquence source (SRC)Circuit fictif de référence (HRC)Note subjective moyenne bruteNote prévue par le modèle sur la base des données brutesNote subjective moyenne corrigéeNote prévue par le modèle sur la base de données corrigéesV2src01_hrc01_525.yuv1138,3075757644,9450490,54023680,69526V2src01_hrc02_525.yuv1239,5621212138,6462710,54832050,58989V2src01_hrc03_525.yuv1325,946969732,8557550,40240970,50419V2src01_hrc04_525.yuv1417,2409090921,0627750,30635280,36089V2src02_hrc01_525.yuv2135,2363636431,2607440,50255580,48242V2src02_hrc02_525.yuv2218,0181818218,7327580,31133460,33715V2src02_hrc03_525.yuv236,2848484858,9145090,18817390,25161V2src02_hrc04_525.yuv246,9833333334,166630,19073470,21776V2src03_hrc01_525.yuv3131,9651515222,3487130,46827240,37461V2src03_hrc02_525.yuv3217,4772727310,447280,30888310,26352V2src03_hrc03_525.yuv331,1045454552,4949110,13003890,20688V2src03_hrc04_525.yuv341,17121212100,12932930,19158V2src04_hrc05_525.yuv4550,6409090940,825260,67420050,6249V2src04_hrc06_525.yuv4628,0545454532,5523220,42508730,49999V2src04_hrc07_525.yuv4723,8757575825,2865980,37626560,40764V2src04_hrc08_525.yuv4816,6075757619,864050,29722940,3485V2src05_hrc05_525.yuv5531,8696969730,8126160,46825590,47645V2src05_hrc06_525.yuv5618,5651515221,4138950,32030240,3646V2src05_hrc07_525.yuv578,15454545515,4464370,20717020,306V2src05_hrc08_525.yuv584,00606060610,8360510,16527520,26662V2src06_hrc05_525.yuv6541,6318181837,3427890,56902910,56967V2src06_hrc06_525.yuv6629,4878787926,6600550,43709610,42391V2src06_hrc07_525.yuv6722,2590909120,8782480,35917880,35896V2src06_hrc08_525.yuv6812,0318181816,8961680,24821690,31941V2src07_hrc05_525.yuv7523,8954545519,0869980,37963620,34067V2src07_hrc06_525.yuv7610,1560606110,694020,22769340,26548V2src07_hrc07_525.yuv774,2409090914,8965460,16444090,22267V2src07_hrc08_525.yuv785,980303031,5550550,18195660,20099V2src08_hrc09_525.yuv8976,252,0941770,95133870,83024V2src08_hrc10_525.yuv81061,3454545547,3952260,7897480,7397V2src08_hrc11_525.yuv81166,0257575852,4575840,84059160,83753V2src08_hrc12_525.yuv81237,2045454537,9318540,52215550,57874V2src08_hrc13_525.yuv81331,2303030330,959850,45720490,4784V2src08_hrc14_525.yuv81431,2681818233,2936020,46141040,51031V2src09_hrc09_525.yuv9964,4287878854,4147720,82629120,87746V2src09_hrc10_525.yuv91049,9287878836,0804250,6603390,55061V2src09_hrc11_525.yuv91153,7318181846,3387910,71001110,72031V2src09_hrc12_525.yuv91234,3696969723,213930,49217080,38409V2src09_hrc13_525.yuv91322,8545454516,9559780,36565590,31998V2src09_hrc14_525.yuv91416,4166666713,6943960,29609570,29046V2src10_hrc09_525.yuv10972,1121212148,1791040,90841710,75433V2src10_hrc10_525.yuv101043,1166666730,7038610,59087840,475V2src10_hrc11_525.yuv101156,1196969752,638870,73023760,84118V2src10_hrc12_525.yuv101219,5590909121,952250,33457030,37033V2src10_hrc13_525.yuv101312,3439393916,239880,25654590,31328V2src10_hrc14_525.yuv101416,0523,2013550,29531440,38395V2src11_hrc09_525.yuv11950,4045454536,3945350,66758530,55531V2src11_hrc10_525.yuv111054,2621212137,8125420,70549290,5769V2src11_hrc11_525.yuv111141,7363636444,1280360,57611930,68087V2src11_hrc12_525.yuv111219,0393939414,6196880,327610,29857V2src11_hrc13_525.yuv111317,7212121214,120410,3104950,29417V2src11_hrc14_525.yuv111419,496969714,9274240,3310510,30132V2src12_hrc09_525.yuv12961,3540,0512540,78833710,61229V2src12_hrc10_525.yuv121046,8454545531,1289730,62953010,48066V2src12_hrc11_525.yuv121151,8015151541,772850,68092880,6406V2src12_hrc12_525.yuv121222,5196969720,8682820,36514020,35886V2src12_hrc13_525.yuv121314,1787878815,0409920,27143560,30234V2src12_hrc14_525.yuv121414,603030313,5215170,27824490,28896V2src13_hrc09_525.yuv13955,2538,6914980,72111940,5906V2src13_hrc10_525.yuv131039,5533,0545040,55457220,50696V2src13_hrc11_525.yuv131140,0393939445,94540,55254940,71318V2src13_hrc12_525.yuv13121416,6310020,27087440,31692V2src13_hrc13_525.yuv131314,3318181815,1139590,275490,30299V2src13_hrc14_525.yuv131414,3196969716,6112860,27337710,31674
TABLEAU 6
Données objectives et subjectives pour un système à 625 lignesNom du fichierSRCHRCNote subjective moyenne bruteNote prévue par le modèle sur la base des données brutesNote subjective moyenne corrigéeNote prévue par le modèle sur la base de données corrigéesV2src1_hrc2_625.yuv1238,8518518531,7642140,594610,47326V2src1_hrc3_625.yuv1342,0740740721,8685610,644360,36062V2src1_hrc4_625.yuv1423,7777777812,1955520,408040,27239V2src1_hrc6_625.yuv1618,148148159,1695120,341090,24887V2src1_hrc8_625.yuv1812,925925936,7380720,26770,23128V2src1_hrc10_625.yuv11011,888888892,5538830,268780,20356V2src2_hrc2_625.yuv2233,5185185231,4927880,541730,46985V2src2_hrc3_625.yuv2346,4814814831,13130,709950,46535V2src2_hrc4_625.yuv2413,3333333320,2417260,274430,34432V2src2_hrc6_625.yuv268,81481481517,390450,227150,31721V2src2_hrc8_625.yuv287,07407407414,9145760,211330,29513V2src2_hrc10_625.yuv2103,4074074077,3523090,166470,23562V2src3_hrc2_625.yuv3248,0740740738,8527150,733140,56845V2src3_hrc3_625.yuv3350,6666666738,2446210,761670,55982V2src3_hrc4_625.yuv3432,1111111127,7332290,498480,42454V2src3_hrc6_625.yuv3622,3333333324,803230,386130,39159V2src3_hrc8_625.yuv3816,3333333323,2967470,345740,37544V2src3_hrc10_625.yuv31011,9629629616,330280,267010,30759V2src4_hrc2_625.yuv4236,1481481542,0415920,585280,61514V2src4_hrc3_625.yuv4355,0370370449,2838360,904460,72942V2src4_hrc4_625.yuv4439,703703738,3221860,623610,56091V2src4_hrc6_625.yuv4638,0370370436,8634570,611430,54053V2src4_hrc8_625.yuv4824,4074074132,465790,433290,48214V2src4_hrc10_625.yuv41012,8888888925,9181230,265480,40388V2src5_hrc2_625.yuv5238,6296296338,957790,619730,56995V2src5_hrc3_625.yuv5344,1851851940,0763130,689870,58609V2src5_hrc4_625.yuv5424,6666666723,1660020,416480,37406V2src5_hrc6_625.yuv5623,6296296320,5922130,42180,34778V2src5_hrc8_625.yuv5812,4074074113,7631520,275430,28531V2src5_hrc10_625.yuv5107,370370378,4183130,20220,24332V2src6_hrc2_625.yuv6222,4814814833,8101650,388520,49949V2src6_hrc3_625.yuv6327,0740740725,0049840,444570,39379V2src6_hrc4_625.yuv6413,1851851920,8893470,279830,35074V2src6_hrc6_625.yuv6614,4444444417,4182220,281060,31747V2src6_hrc8_625.yuv688,74074074115,4865590,237260,30011V2src6_hrc10_625.yuv6105,51851851911,5091920,177930,2669V2src7_hrc4_625.yuv7439,2592592645,2310790,599530,66412V2src7_hrc6_625.yuv7633,8518518543,1315190,550930,63163V2src7_hrc9_625.yuv7927,0740740739,5065350,451630,57784V2src7_hrc10_625.yuv71019,2592592634,4183810,356170,50749V2src8_hrc4_625.yuv8415,8518518540,4089930,325280,59095V2src8_hrc6_625.yuv8617,0370370438,5525740,327270,56418V2src8_hrc9_625.yuv8914,8518518535,5770340,303030,52297V2src8_hrc10_625.yuv81011,4814814830,2785360,263660,45484V2src9_hrc4_625.yuv9428,9629629630,5157780,476560,45775V2src9_hrc6_625.yuv9630,5185185226,9710270,499240,41577V2src9_hrc9_625.yuv9919,6666666723,3513550,391010,37601V2src9_hrc10_625.yuv91020,9259259317,8568610,371220,32152V2src10_hrc4_625.yuv10440,3333333343,6403770,704920,63942V2src10_hrc6_625.yuv10637,3333333340,5525020,582180,59305V2src10_hrc9_625.yuv10930,9259259336,7473910,497110,53893V2src10_hrc10_625.yuv101021,296296330,1610130,378540,45341V2src11_hrc1_625.yuv11150,2592592655,9099080,799190,84263V2src11_hrc5_625.yuv11535,5185185244,0499990,592560,64572V2src11_hrc7_625.yuv11718,703703726,8777540,343370,4147V2src11_hrc10_625.yuv111015,0740740723,4204770,305670,37674V2src12_hrc1_625.yuv12136,3333333343,8370970,614180,64244V2src12_hrc5_625.yuv12538,4444444440,3499030,66610,59008V2src12_hrc7_625.yuv12731,1111111137,2543830,532420,54594V2src12_hrc10_625.yuv121026,1481481528,9535640,447370,43887V2src13_hrc1_625.yuv13143,703703738,3336490,742250,56108V2src13_hrc5_625.yuv13543,296296334,2905540,667990,5058V2src13_hrc7_625.yuv13725,296296326,9900250,420650,41598V2src13_hrc10_625.yuv131015,8888888920,1814630,333810,34373
Annexe 3Modèle 2
TABLE DES MATIÈRES
Page
1 Introduction 21
2 Mesure objective de la qualité vidéo basée sur la dégradation des contours 22
2.1 Rapport PSNR basé sur la dégradation des contours (EPSNR) 22
2.2 Postajustements 29
2.2.1 Désaccentuation d'un rapport EPSNR élevé 29
2.2.2 Prise en considération de contours floutés 29
2.2.3 Mise à l'échelle 30
2.3 Précision d'alignement 30
2.4 Schéma fonctionnel du modèle 30
3 Données objectives 30
4 Conclusion 30
5 Références bibliographiques 30
1 Introduction
Depuis toujours, on utilise pour évaluer la qualité vidéo un certain nombre d'évaluateurs qui évaluent subjectivement la qualité vidéo. L'évaluation peut être faite avec ou sans séquence vidéo de référence. Dans une évaluation avec séquence de référence, on montre aux évaluateurs deux séquences vidéo: la séquence vidéo de référence (source) et la séquence vidéo traitée qui sera comparée avec la séquence vidéo source. En comparant les deux séquences vidéo, les évaluateurs attribuent des notes subjectives à chacune d'elles. Par conséquent, on parle souvent de test subjectif de qualité vidéo. Le test subjectif est considéré comme la méthode la plus précise étant donné qu'il reflète la perception de l'homme, mais il comporte plusieurs limitations. Tout d'abord il suppose la présence d'un certain nombre d'évaluateurs. Il est donc chronophage et coûteux. Par conséquent, il ne peut être fait en temps réel. On s'est donc beaucoup intéressé à l'élaboration de méthodes objectives de mesure de la qualité vidéo. Un critère important pour une méthode objective de mesure de la qualité vidéo est que cette méthode donne des résultats cohérents pour toute une série de séquences vidéo qui ne sont pas utilisées au stade de la conception. Dans cette optique, on a élaboré un modèle facile à mettre en oeuvre, suffisamment rapide pour des mises en oeuvre en temps réel et résistant à toute une série de dégradations vidéo. Ce modèle est un produit élaboré conjointement par Yonsei University, SK Telecom et Radio Research Laboratory, République de Corée.
2 Mesure objective de la qualité vidéo basée sur la dégradation des contours
2.1 Rapport PSNR basé sur la dégradation des contours (EPSNR)
Le modèle de mesure objective de la qualité vidéo est une méthode avec une image de référence complète. En d'autres termes, on suppose qu'une séquence vidéo de référence est fournie. En analysant comment les êtres humains perçoivent la qualité vidéo, on observe que le système visuel humain est sensible aux dégradations autour des contours. En d'autres termes lorsque les zones des contours d'une séquence vidéo sont floues, les évaluateurs ont tendance à donner à cette séquence de mauvaises notes même si l'erreur quadratique moyenne globale est faible. On observe en outre que les algorithmes de compression vidéo ont tendance à produire davantage de défauts (artéfacts) autour des zones des contours. Sur la base de cette observation, le modèle fournit une méthode de mesure objective de la qualité vidéo qui permet de mesurer les dégradations autour des contours. Dans ce modèle on applique tout d'abord un algorithme de détection des bords à la séquence vidéo source pour localiser les zones des bords. Ensuite on mesure la dégradation de ces zones des bords en calculant l'erreur quadratique moyenne. A partir de cette erreur on calcule le rapport EPSNR, rapport que l'on utilise comme mesure de la qualité vidéo après post-traitement.
Dans le modèle, il faut tout d'abord appliquer un algorithme de détection de contours pour localiser les régions des contours. On peut utiliser n'importe quel algorithme de détection de contours même s'il peut y avoir des différences minimes dans les résultats. Par exemple, on peut utiliser n'importe quel opérateur gradient pour localiser les régions des contours. Un certain nombre d'opérateurs gradient ont été proposés. Dans de nombreux algorithmes de détection de contours, on calcule tout d'abord à l'aide d'opérateur gradient l'image du gradient horizontal ghorizontal(m,n) et l'image du gradient vertical gvertical(m,n). On peut ensuite calculer l'image du gradient d'amplitude EMBED Equation.3 comme suit:
EMBED Equation.3
Enfin, on applique un seuillage à l'image du gradient d'amplitude EMBED Equation.3 pour trouver les régions des contours. En d'autres termes, les pixels dont les gradients d'amplitude dépassent une valeur seuil sont considérés comme étant les régions des contours.
Les Fig. 7 à 11 illustrent cette procédure. La Fig. 7 montre une image source. La Fig. 8 montre une image du gradient horizontal ghorizontal(m,n), laquelle est obtenue par application d'un opérateur gradient horizontal à l'image source de la Fig. 7. La Fig. 9 montre une image du gradient vertical gvertical(m,n), laquelle est obtenue par application d'un opérateur gradient vertical à l'image source de la Fig. 7. La Fig. 10 montre l'image du gradient d'amplitude (image des contours) et la Fig. 11 l'image binaire des contours (image de masquage), lesquelles sont obtenues par application d'un seuillage à l'image du gradient d'amplitude de la Fig. 10.
On peut également utiliser une procédure modifiée pour localiser les régions des contours. Par exemple, on peut tout d'abord appliquer un opérateur gradient vertical à l'image source, ce qui donne l'image du gradient vertical. On applique ensuite un opérateur gradient horizontal à l'image du gradient vertical, ce qui donne une image du gradient successif modifié (image du gradient horizontal et du gradient vertical). Enfin, on peut appliquer un seuillage à l'image du gradient successif modifié pour trouver les régions des contours. En d'autres termes, les pixels de l'image du gradient successif modifié qui dépassent une valeur seuil sont considérés comme étant les zones des contours. Les Fig. 12 à 15 illustrent la procédure modifiée. La Fig. 12 montre une image du gradient vertical gvertical(m,n), laquelle est obtenue par application d'un opérateur gradient vertical à l'image source de la Fig. 7. La Fig. 13 montre une image du gradient successif modifié (image du gradient horizontal et du gradient vertical), laquelle est obtenue par application d'un opérateur gradient horizontal à l'image du gradient vertical de la Fig.12. La Fig. 14 montre l'image binaire des contours (image masque) obtenue par application d'un seuillage à l'image du gradient successif modifié de la Fig. 13.
On notera que les deux méthodes peuvent être considérées comme un algorithme de détection de contours. On peut choisir n'importe quel algorithme de détection de contours selon la nature des séquences vidéo et des algorithmes de compression. Toutefois, certaines méthodes peuvent donner de meilleurs résultats que d'autres.
Ainsi, dans le modèle, on applique tout d'abord un opérateur de détection de contours; ce qui permet d'obtenir des images des contours (voir les Fig. 10 et 13). Ensuite, on crée une image de masquage (image binaire des contours) en appliquant un seuillage à l'image des contours (voir les Fig. 11 et 14). En d'autres termes, les pixels de l'image des contours dont la valeur est inférieure au seuil, te, sont mis à zéro et les pixels dont la valeur est égale ou supérieure à ce seuil sont positionnés à une valeur autre que zéro. Les Fig. 11 et 14 donnent des exemples d'images de masquage. On notera que cet algorithme de détection des contours est appliqué à l'image source. On peut appliquer l'algorithme de détection des contours aux images traitées mais il est plus exact de l'appliquer aux images source. Etant donné qu'une séquence vidéo peut être considérée comme une séquence d'images ou de trames, la procédure susmentionnée peut être appliquée à chaque image ou à chaque trame de séquence vidéo. Etant donné que le modèle peut être utilisé pour des séquences vidéo composées de trames ou d'images, on utilisera le terme «d'image» pour parler indifféremment de trame ou d'image.
Ensuite, on calcule les différences entre la séquence vidéo source et la séquence vidéo traitée correspondant aux pixels ayant une valeur autre que zéro de l'image de masquage. En d'autres termes, l'erreur quadratique des régions des contours de la lième trame est calculée comme suit:
EMBED Equation.3 (75)
où:
Sl(i,j) : lième image de la séquence vidéo source
Pl(i,j) : lième image de la séquence vidéo traitée
Rl(i,j) : lième image de la séquence vidéo de masquage
M : nombre de rangées
N : nombre de colonnes.
Lorsque le modèle est mis en oeuvre, on peut sauter la génération de la séquence vidéo de masquage. En fait, sans créer la séquence vidéo de masquage, l'erreur quadratique des régions des contours de la lième image est calculée comme suit:
EMBED Equation.3 (76)
où:
Ql(i,j) : lième image de la séquence vidéo des contours
te : un seuil.
L'erreur quadratique moyenne est utilisée à l'équation (75) pour calculer la différence entre la séquence vidéo source et la séquence vidéo traitée mais on peut utiliser tout autre type de différence. Par exemple, on peut également utiliser la différence absolue. Dans le modèle soumis aux tests VQEG Phase II, te a été mis à 260 et l'algorithme de détection des contours modifié a été utilisé avec l'opérateur de Sobel.
Cette procédure est répétée pour l'ensemble des séquences vidéo et l'erreur quadratique moyenne des contours est calculée comme suit:
EMBED Equation.3 (77)
où:
L: nombre d'images (trames ou images)
K : nombre total de pixels des contours.
Enfin, le rapport PSNR des zones des contours (EPSNR) est calculé comme suit:
EMBED Equation.3 (78)
où:
P : valeur crête des pixels.
Dans le modèle, ce rapport EPSNR est utilisé comme note objective de base de la qualité vidéo. La Fig. 15 donne un schéma fonctionnel de calcul du rapport EPSNR.
2.2 Postajustements
2.2.1 Désaccentuation d'un rapport EPSNR élevé
Lorsque le rapport EPSNR a une valeur supérieure à 35, il surestime, semblet-il, la qualité perceptuelle. On utilise par conséquent la mise à l'échelle linéaire par paliers suivante:
EMBED Equation.3 (79)
2.2.2 Prise en considération de contours floutés
On observe que lorsque les contours sont très flous dans des séquences vidéo de qualité médiocre, les évaluateurs ont tendance à donner des notes subjectives médiocres. En d'autres termes, si les régions des contours de la séquence vidéo traitée sont nettement plus petites que celles de la séquence vidéo source, les évaluateurs donnent de moins bonnes notes. Par ailleurs, on observe que certaines séquences vidéo ont un très petit nombre de pixels ayant des composantes haute fréquence. En d'autres termes, le nombre de pixels des régions des contours est très faible. Pour tenir compte de ces problèmes, les régions des contours de la séquence vidéo source et de la séquence vidéo traitée sont calculées et le rapport EPSNR est modifié comme suit:
EMBED Equation.3
EMBED Equation.3 (80)
EMBED Equation.3
où:
MEPSNR: EPSNR modifié.
EPcommon: nombre total de pixels des contours communs dans les séquences vidéo SRC et HRC (c'est-à-dire pixels des contours apparaissant au même endroit)
EPsrc: nombre total des pixels des contours dans la séquence vidéo (source) SRC.
Pour certaines séquences vidéo, EPsrc peut être très faible. Si EPsrc est inférieur à 10 000 pixels (environ 10 000/240 =ð 41,7 pixels par trame pour des séquences vidéo 525 lignes de 8 s et d'environ 10 000/200 =ð 50 pixels par trame pour des séquences vidéo 625 lignes de 8 s), l'utilisateur peut réduire le seuil te dans l'équation (76) de 20 jusqu'à ce que EPsrc soit supérieur ou égal à 10 000 pixels. Si EPsrc est inférieur à 10 000 pixels même lorsque te est réduit à 80, on ne procède pas au postajustement à l'aide de l'équation (80). Dans ce cas, on calcule le rapport EPSNR en utilisant te =ð 60. Si cette option est retenue, l'utilisateur peut supprimer la condition EPhrc/EPsrc ð 40, puis applique un algorithme à zone croissante le long des lignes de G en utilisant ces pixels comme éléments de départ et en restreignant la croissante aux pixels appartenant à la même ligne pour lesquels G(x, y) >ð 30. Toutes les composantes 4 connexes comportant moins de 6 pixels sont éliminées de ce résultat. L'image binaire finale est dilatée par un élément structurant circulaire d'un diamètre de 5 pixels qui ignore la restriction à la zone des plans. Les pixels de valeur 1 dans cette dilatation sont classés comme appartenant à la zone des contours.
4.3 Région de texture
La région de texture se compose des pixels de Y qui ont été classés comme n'appartenant ni à la région des contours ni à la région du plan.
5 Mesures objectives
Soit Sb l'image d'amplitude du gradient de Sobel calculée pour une composante donnée (Y, CB ou CR) d'une trame donnée f de la scène originale O, et EMBED Equation.3 l'image d'amplitude du gradient de Sobel pour la même composante de la trame f de la scène dégradée I´. L'image Db de la différence absolue au niveau des pixels entre Sb et EMBED Equation.3 est calculée et la zone ( de pixels de l'image Db qui appartient à un contexte donné (plan, contours ou texture) est prise en considération. La différence absolue de Sobel (ASD, absolute Sobel difference) pour cette composante d'image et ce contexte est définie comme étant la moyenne des valeurs de pixels de l'image Db restreinte à (.
Cette procédure donne un ensemble de neuf mesures objectives {m1, m2, ..., m9} pour chaque trame d'image f, f =ð 1, 2, ..., n, tenant compte de l'ensemble des trois contextes et des trois composantes d'image.
Le même processus est appliqué pour créer des mesures objectives {m1(420), m2(420), ..., m9(420)} et {m1(CIF), m2(CIF), ..., m9(CIF)}, pour la trame f, avec un fonctionnement des MPEG-2 4:2:0 et MPEG1 CIF CODEC sur la scène O (voir la Fig. 17). Ces mesures servent de références avec les attributs spatial S et temporel T pour déterminer le modèle de dégradation contextuelle pour I´ (§ 7). L'attribut temporel T est la valeur moyenne de la différence absolue au niveau des pixels entre les segmentations des trames f et f1, normalisée dans l'intervalle [0,1]. L'attribut spatial S est défini comme étant le rapport m7(CIF)/m7(420), normalisé dans l'intervalle [0,1], où m7(CIF) et m7(420) sont les différences ASD correspondantes pour la région de texture de la composante Y de la trame f.
6 Base de données des modèles de dégradation
Le système IES utilise une base de données de modèles de dégradation pour des scènes différentes de la scène de référence O pour évaluer l'indice de qualité vidéo de I´. Cette base de données regroupe des informations sur douze scènes à 60 Hz illustrant divers degrés de mouvement (scènes dynamiques ou statiques), de nature (scènes réelles ou scènes synthétiques), et de contexte (quantité de pixels de texture, de plan ou de contour). Cette base de données a été créée comme suit.
Les valeurs moyennes des mesures objectives EMBED Equation.3 , EMBED Equation.3 , et EMBED Equation.3 ont été calculées pour les trames de chaque scène j, j =ð 1, 2, ..., 12. Les valeurs de Sj et Tj ont été calculées comme étant la moyenne de l'attribut spatial et de l'attribut temporel (voir le § 5) sur les trames de chaque scène j. Toutes les scènes dégradées de la base de données ont elles aussi fait l'objet d'une évaluation subjective, ce qui donne un niveau de dégradation subjective SLj, normalisé dans l'intervalle entre 0% et 100% pour chaque scène j.
Selon l'équation (82), chaque mesure objective mi,j, i =ð 1, 2, ..., 9 et j =ð 1, 2, ..., 12, est rattachée à un niveau de dégradation contextuelle Li,j. Les valeurs de Fi,j et Gi,j dans l'équation (82) ont été calculées pour chaque scène j en minimisant l'espérance de l'erreur quadratique moyenne EMBED Equation.3 . On a par ailleurs calculé les valeurs de Wi,j dans l'équation (83) pour minimiser l'espérance de l'erreur quadratique moyenne:
EMBED Equation.3 (88)
A l'issue du processus, la base de données des modèles de dégradation comprend 9 ensembles EMBED Equation.3 , i =ð 1, 2, ..., 9 de paramètres pour chaque scène j, j =ð 1, 2, ..., 12. Le Tableau 9 contient les valeurs de EMBED Equation.3 et EMBED Equation.3 à utiliser pour calculer les attributs EMBED Equation.3 .
TABLEAU 9
Attribut temporel T et attribut spatial S
Scène jT (temporel)SY (spatial Y)SCb (spatial CB)SCr (spatial CR)127,0136,7925,2038,01225,3326,085,9367,99345,5460,9710,2828,75436,4030,476,4663,07532,0272,5011,7215,78612,6384,222,8512,94728,3861,5311,0827,39810,1946,085,4548,4790,015,895,0789,03107,264,752,0093,25117,6069,169,4121,431214,2769,613,8926,50
7 Estimation des modèles de dégradation
Les modèles de dégradation contextuels pour une trame f de I' se composent des paramètres {Fi, Gi, Wi} des équations (82) et (83), i =ð 1, 2, ..., 9. Le présent paragraphe décrit comment calculer ces paramètres en utilisant les scènes dégradées I(420) et I(CIF) comme référence.
7.1 Calcul de Wi
Les distances locales contextuelles Di,j entre une trame f des scènes dégradées I (420) et I (CIF), et chaque scène j de la base de données sont définies comme suit:
EMBED Equation.3 (89)
EMBED Equation.3 et EMBED Equation.3 sont le niveau de dégradation estimé de la scène d'entrée O, qui sont calculés avec les paramètres EMBED Equation.3 et EMBED Equation.3 dans le contexte i, des scènes j de la base de données.
EMBED Equation.3 (90)
L'algorithme trouve l'ensemble ( des six scènes les plus proches de la base de données sur la base de la distance Di,j et définit Wi,j comme:
EMBED Equation.3 (91)
EMBED Equation.3 (92)
Soit i =ð {1, 2, ..., 9} ( {(plane, Y), (plane, CB), (plane, CR), (edge, Y), (edge, CB), (edge, CR), (texture, Y), (texture, CB), (texture, CR)}, où (edge, C), (plane, C) et (texture, C) représentent les régions contours, plan et texture de la composante d'image C, C =ð Y, CB, CR.
Soit u =ð texture, edge, plane et v =ð Y, CB, CR, les valeurs Wi, i =ð 1, 2, ..., 9, sont calculées comme suit:
EMBED Equation.3
EMBED Equation.3 (93)
7.2 Calcul de Fi et Gi
Les niveaux de dégradation contextuels EMBED Equation.3 et EMBED Equation.3 de la trame f pour CD420 et CDCIF sont calculés comme suit:
EMBED Equation.3 (94)
EMBED Equation.3 (95)
où ( est un facteur limité à [1/2, 2], qui est calculé à partir des distances vectorielles Dj entre les attributs spatial et temporel (voir le § 5), EMBED Equation.3 et EMBED Equation.3 , de la scène d'entrée et de chaque scène de la base de données, respectivement.
EMBED Equation.3 (96)
EMBED Equation.3 (97)
Les paramètres Fi et Gi sont enfin obtenus en résolvant le système d'équations ci-après:
EMBED Equation.3 (98)
EMBED Equation.3 (99)
8 Références bibliographiques
GONZALEZ, R. C. et WOODS, R. E. [1992] Digital Image Processing. Addison-Wesley.
ISO/CEI [1992] Norme ISO/IEC 11172 Information technology Coding of moving pictures and associated audio for digital storage media up to about 1,5 Mbit/s.
TRUCCO, E. et VERRI, A. [1998] Introductory Techniques for 3-D Computer Vision. PrenticeHall.
Annexe 4aRésultats objectifs des essais, Phase II du VQEG
TABLEAU 10
Matrice de données objectives brutes 625/60SRCHRC1234567891010,63430,50830,2870,24610,19510,154820,54830,59660,36490,31850,26680,159730,59980,62990,45510,39270,34280,255340,60550,81590,56840,53970,41580,30950,64830,72680,43580,4180,28740,189860,61460,49080,36710,31390,25620,210770,58650,55360,48410,391780,50230,4570,39490,315890,45630,39270,33990,2667100,70360,65110,60250,5083110,81240,63740,32050,3221120,70150,5470,49970,3922130,7090,50980,41990,3298
TABLEAU 11
Matrice de données objectives brutes 525/60
SRCHRC123456789101112131410,54720,36980,34290,191820,50750,2260,10280,078930,35490,1270,0580,033940,60620,4190,360,310850,44440,29570,21520,163560,6098(1)0,34620,25460,196770,24040,1350,08640,060980,86660,75540,69440,70480,66850,49490,88960,71340,62040,65040,62460,2326100,87760,64190,47880,63920,62370,1571110,86230,72070,57190,56190,57960,3012120,82620,61930,51390,53910,49460,1992130,82230,56090,34540,4370,42460,215(1) La valeur SRC =ð 6, HRC =ð 5 a été tirée de l'analyse car elle dépassait les critères d'alignement temporel du plan d'essai VQEG.
Annexe 5Modèle 4
La présente Annexe contient une description fonctionnelle complète du modèle VQM de la NTIA et des techniques d'étalonnage qui lui sont associées.
Les algorithmes d'étalonnage décrits dans la présente Annexe sont suffisants pour garantir un fonctionnement correct du dispositif d'évaluation de la qualité vidéo de la NTIA. Ils présentent généralement une précision d'alignement spatial de plus ou moins 1/2 pixel et une précision d'alignement temporel de plus ou moins une trame entrelacée.
TABLE DES MATIÈRES
Page
1 Introduction 48
2 Références normatives 48
3 Définitions 48
4 Aperçu du calcul de la qualité VQM 52
5 Echantillonnage 53
5.1 Indexation temporelle des images figurant dans les fichiers vidéo d'origine et traité 54
5.2 Indexation spatiale des images des flux vidéo d'origine et traité 55
5.3 Spécification de sous-régions rectangulaires 56
5.4 Considérations relatives aux séquences vidéo de plus de 10 s 56
6 Etalonnage 56
6.1 Alignement spatial 57
6.1.1 Aperçu 57
6.1.2 Questions relatives à l'entrelacement 59
6.1.3 Variables d'entrée requises par l'algorithme d'alignement spatial 60
6.1.4 Sous-algorithmes utilisés par l'algorithme d'alignement spatial 61
6.1.5 Alignement spatial utilisant des scènes arbitraires 62
6.1.6 Alignement spatial d'un flux vidéo avec balayage progressif 68
6.2 Région valable 69
6.2.1 Algorithme principal de la région valable 70
6.2.2 Application de l'algorithme principal de la région valable à une séquence vidéo 71
6.2.3 Commentaires concernant l'algorithme de la région valable 72
Page
6.3 Gain et décalage 72
6.3.1 Algorithme principal du gain et du décalage de niveau 72
6.3.2 Utilisation de scènes 73
6.3.3 Application des corrections de gain et de décalage de niveau 75
6.4 Alignement temporel 75
6.4.1 Algorithme fondé sur les images pour évaluer les décalages temporels variables entre une séquence vidéo d'origine et une séquence vidéo traitée 76
6.4.2 Application de la correction d'alignement temporel 80
7 Caractéristiques de qualité 80
7.1 Introduction 80
7.1.1 Régions S-T 81
7.2 Caractéristiques fondées sur les gradients spatiaux 83
7.2.1 Filtres d'accentuation des contours 83
7.2.2 Description des caractéristiques fSI13 et fHV13 84
7.3 Caractéristiques fondées sur les informations de chrominance 87
7.4 Caractéristiques fondées sur les informations de contraste 87
7.5 Caractéristiques fondées sur l'information temporelle absolue (ATI) 87
7.6 Caractéristiques fondées sur le produit croisé du contraste et de l'ATI 88
8 Paramètres de qualité 88
8.1 Introduction 88
8.2 Fonctions de comparaison 89
8.2.1 Fonction de rapport et fonction de logarithme 89
8.2.2 Distance euclidienne 90
8.3 Fonctions de regroupement spatial 91
8.4 Fonctions de regroupement temporel 91
8.5 Application d'une correction non linéaire et coupure 93
8.6 Convention pour la dénomination des paramètres 94
8.6.1 Exemples de nom de paramètre 97
9 Modèle général 98
10 Références bibliographiques 100
Annexe 5a 100
1 Introduction
La présente Annexe contient une description technique complète du modèle général de la NTIA et des techniques d'étalonnage qui lui sont associées (par exemple évaluation et correction de l'alignement spatial, de l'alignement temporel et des erreurs de gain/décalage). Le modèle général correspond au modèle H dans les essais de télévision avec image de référence complète de Phase II du VQEG. Il était conçu pour être un modèle VQM universel pour des systèmes vidéo avec une très large plage de niveaux de qualité et de débits binaires. De nombreux essais subjectifs et objectifs ont été effectués afin de vérifier les performances du modèle général avant de le soumettre aux essais de Phase II du VQEG, lesquels ont uniquement porté sur l'évaluation des performances du modèle général pour des systèmes vidéo MPEG-2 et la Recommandation UIT-T H.263. Mais le modèle général devrait fonctionner correctement pour de nombreux autres types de systèmes de codage et de transmission.
Les algorithmes d'étalonnage décrits dans la présente Annexe sont suffisants pour garantir un fonctionnement correct du dispositif d'évaluation de la qualité vidéo. Ils présentent généralement une précision d'alignement spatial de plus ou moins 1/2 pixel et une précision d'alignement temporel de plus ou moins une trame entrelacée.
Le modèle général et les techniques d'étalonnage automatique qui lui sont associées ont été entièrement mis en uvre sous forme de logiciel convivial. Toutes les parties intéressées peuvent accéder à ce logiciel sous réserve de l'acceptation d'un accord de licence d'évaluation gratuite (pour plus d'informations, on se reportera à l'adresse suivante:
HYPERLINK "http://www.its.bldrdoc.gov/n3/video/vqmsoftware.htm" www.its.bldrdoc.gov/n3/video/vqmsoftware.htm).
2 Références normatives
Recommandation UITR BT.601 Paramètres de codage en studio de la télévision numérique pour des formats standards d'image 4:3 (normalisé) et 16:9 (écran panoramique).
3 Définitions
4:2:2 Format d'échantillonnage d'image Y, Cb, Cr pour lequel les plans de chrominance (Cb et Cr) sont échantillonnés horizontalement à une fréquence qui vaut la moitié de la fréquence d'échantillonnage du plan de luminance (Y). Voir la Recommandation UITR BT.601 (voir le § 2).
Alignement spatial: Processus utilisé pour évaluer et corriger les décalages spatiaux de la séquence vidéo traitée par rapport à la séquence vidéo d'origine.
Alignement temporel: Processus utilisé pour évaluer et corriger le décalage temporel (c'est-à-dire le retard vidéo) de la séquence vidéo traitée par rapport à la séquence vidéo d'origine (voir le § 6.4.1).
Big YUV: Format de fichier binaire utilisé pour stocker les clips qui ont été échantillonnés conformément à la Recommandation UITR BT.601. Dans ce format, toutes les images vidéo d'une scène sont stockées dans un seul grand fichier binaire, dans lequel chaque image est échantillonnée conformément à la Recommandation UITR BT.601. Y représente l'information de canal de luminance, U représente le canal de différence de couleur bleue (c'est-à-dire CB dans la Recommandation UITR BT.601) et V représente le canal de différence de couleur rouge (c'estàdire CR dans la Recommandation UITR BT.601). L'ordre des pixels dans le fichier binaire est le même que celui qui est spécifié dans le document 125M de la SMPTE [SMPTE, 1995]. La spécification complète du format de fichier Big YUV figure au § 5 et les routines logicielles permettant de lire et d'afficher des fichiers au format Big YUV sont données dans le document [Pinson et Wolf, 2002].
Caractéristique: Grandeur associée à ou extraite d' une sous-région spatio-temporelle d'un flux vidéo (d'origine ou traité).
Chrominance (C, CB, CR): Partie du signal vidéo qui achemine avant tout l'information de couleur (C), qui peut de plus être séparée en un signal de différence de couleur bleue (CB) et un signal de différence de couleur rouge (CR).
Circuit fictif de référence (HRC, hypothetical reference circuit): Système vidéo testé, par exemple un codec ou un système de transmission vidéonumérique.
Clip: Représentation numérique d'une scène qui est stockée sur support informatique.
Codec: Abréviation pour codeur/décodeur ou compresseur/décompresseur.
Coordonnées de rectangle: Sous-région d'image de forme rectangulaire qui est entièrement contenue dans le format de production et qui est spécifiée par quatre coordonnées (haut, gauche, bas, droite). La numérotation, qui commence à zéro, est telle que le coin (haut, gauche) de l'image échantillonnée a pour coordonnées (0,0). Voir le § 5.3.
Décalage ou décalage de niveau: Facteur additif appliqué par le HRC à tous les pixels d'un plan d'image donné (par exemple luminance, chrominance). Le décalage du signal de luminance est généralement appelé brillance.
Format de production: Grille d'image qui représente le format maximal possible de l'image pour un système standard donné. Le format de production représente le format souhaitable pour l'acquisition, la génération et le traitement de l'image, avant suppression. Pour les séquences vidéo échantillonnées selon la Recommandation UITR BT.601, le format de production est de 720 pixels ´ð 486 lignes pour les systèmes à 525 lignes et de 720 pixels ´ð 576 lignes pour les systèmes à 625 lignes [SMPTE, 1995b].
Format intermédiaire commun (CIF, common intermediate format): Structure d'échantillonnage vidéo utilisée en visioconférence, pour laquelle le canal de luminance est échantillonné à 352 pixels par 288 lignes (Recommandation UITT H.261 Codec vidéo pour services audiovisuels à p ´ð 64 kbit/s).
Gain: Facteur multiplicatif appliqué par le circuit fictif de référence (HRC, hypothetical reference circuit) à tous les pixels d'un plan d'image donné (par exemple luminance, chrominance). Le gain du signal de luminance est généralement appelé contraste.
Groupe d'experts en qualité vidéo (VQEG, Video Quality Experts Group): Groupe d'experts internationaux en qualité vidéo qui réalisent des essais de validation de méthodes objectives de mesure de la qualité vidéo. Les résultats du VQEG sont transmis à l'Union internationale des télécommunications (UIT) et peuvent servir de base à des recommandations internationales sur la mesure de la qualité vidéo.
Groupe d'experts pour les images animées (MPEG, Moving Picture Experts Group): Groupe de travail de l'ISO/CEI chargé d'élaborer des normes pour la représentation codée des séquences audio et vidéo numériques (par exemple MPEG1, MPEG-2, MPEG-4).
H.261: Désigne la Recommandation UITT H.261.
Incertitude (U, uncertainty): Evaluation de l'erreur d'alignement temporel (plus ou moins), compte tenu de la valeur la plus probable du retard vidéo dû au circuit fictif de référence. Voir le § 6.4.
Information temporelle absolue (ATI, absolute temporal information): Caractéristique déduite de la valeur absolue des images d'information temporelle qui sont calculées comme étant la différence entre deux images successives d'un clip vidéo. La caractéristique ATI quantifie la quantité de mouvement présente dans une scène vidéo. Le § 7.5 contient la définition mathématique précise.
Image: Une image de télévision complète.
Images par seconde (FPS, frames per second): Nombre d'images d'origine par seconde transmises par le système vidéo testé. Par exemple, un système vidéo NTSC transmet environ 30 fps.
Information spatiale (SI, spatial information): Caractéristique fondée sur des statistiques qui sont extraites des gradients spatiaux (c'est-à-dire des contours) d'une image ou d'une scène vidéo. La Recommandation UITT P.910 Méthodes subjectives d'évaluation de la qualité vidéographique pour les applications multimédias contient une définition de SI fondée sur des statistiques extraites d'images auxquelles on a appliqué des filtres de Sobel 3 ´ð 3 [Jain, 1989] tandis que le § 7.2 de la présente Annexe contient une définition de SI fondée sur des statistiques extraites d'images auxquelles on a appliqué des filtres de souligné des contours de taille beaucoup plus grande (13 ´ð 13) (voir la Fig. 29).
Information temporelle (TI, temporal information): Caractéristique fondée sur des statistiques qui sont extraites des gradients temporels (c'est-à-dire du mouvement) d'une scène vidéo. La Recommandation UIT-T P.910 et le § 7.5 de la présente Annexe contiennent des définitions de l'information temporelle fondée sur des statistiques extraites de simples différences entre images.
Luminance (Y): Partie du signal vidéo qui achemine avant tout l'information de luminance (c'està-dire la partie en noir et blanc de l'image).
Mesure de la qualité vidéo, modèle de mesure de la qualité vidéo, qualité VQM (VQM, video quality metric, model, or measurement): Mesure globale de la dégradation de la qualité vidéo (voir qualité VQM d'un clip, modèle général). La qualité VQM est un nombre unique dont la plage nominale est comprise entre zéro et un, zéro correspondant à aucune dégradation perçue et un à la dégradation maximale perçue.
Modèle général: Modèle de mesure de la qualité vidéo, ou modèle VQM, qui fait l'objet de la présente Annexe 5. Ce modèle a été soumis aux essais de Phase II réalisés par le Groupe d'experts en qualité vidéo (VQEG). Le rapport final du VQEG sur la Phase II décrit les performances du modèle général (voir le modèle H1).
Note moyenne d'opinion (MOS, mean opinion score): Appréciation subjective moyenne de la qualité d'un clip vidéo traité attribuée par un groupe d'observateurs.
Paramètre: Mesure de la distorsion vidéo résultant de la comparaison de deux flux parallèles de caractéristiques, l'un des flux provenant de la séquence vidéo d'origine et l'autre étant le flux correspondant provenant de la séquence vidéo traitée.
Qualité VQM d'un clip: Qualité VQM d'un seul clip vidéo traité.
Quart de format intermédiaire commun (QCIF, quarter common intermediate format): Structure d'échantillonnage vidéo utilisée en visioconférence, pour laquelle le canal de luminance est échantillonné à 176 pixels par 144 lignes (Recommandation UITT H.261).
Recommandation UITR BT.601: Norme (voir le § 2) commune d'échantillonnage vidéo sur 8 bits selon laquelle le canal de luminance (Y) est échantillonné à 13,5 MHz et les canaux de différence de couleur bleue et rouge (CB et CR) sont échantillonnés à 6,75 MHz. Pour plus d'informations, on se reportera au § 5.
Référence réduite: Méthode de mesure de la qualité vidéo qui utilise des caractéristiques de faible largeur de bande extraites des flux vidéo d'origine et traité, par opposition à une méthode fondée sur l'image de référence complète pour laquelle il faut connaître entièrement les flux vidéo d'origine et traité (Recommandation UIT-T J.143 Prescriptions de l'utilisateur relatives aux mesures objectives de la qualité vidéo perçue en télévision numérique par câble). Les méthodes fondées sur une référence réduite présentent des avantages quant à la surveillance de qualité de bout en bout en service étant donné que les informations de référence réduite sont transmises facilement sur les réseaux de télécommunications du monde entier.
Région d'intérêt (ROI, region of interest): Grille d'image (spécifiée en coordonnées de rectangle) utilisée pour désigner une sous-région particulière d'une trame ou d'une image vidéo. Voir aussi SROI.
Région d'intérêt d'origine (OROI, original region of interest): Région d'intérêt (ROI) extraite de la séquence vidéo d'origine, spécifiée en coordonnées de rectangle.
Région d'intérêt spatiale (SROI, spatial region of interest): Grille d'image particulière (spécifiée en coordonnées de rectangle) utilisée pour calculer la qualité VQM d'un clip vidéo. La région SROI est un sous-ensemble rectangulaire entièrement compris dans la région valable traitée. Pour les séquences vidéo échantillonnées selon la Recommandation UITR BT.601, la région SROI recommandée est de 672 pixels ´ð 448 lignes pour les systèmes à 525 lignes et de 672 pixels ´ð 544 lignes pour les systèmes à 625 lignes, centrée à l'intérieur du format de production. Cette région SROI recommandée correspond approximativement à la partie de l'image vidéo que l'on peut voir sur un écran, à l'exclusion de la zone de surbalayage. Voir aussi ROI.
Région d'intérêt temporelle (TROI, temporal region of interest): Segment temporel, séquence ou sous-ensemble particulier d'images qui est utilisé pour calculer la qualité VQM d'un clip. La région TROI est un segment contigu d'images qui est entièrement contenu dans la région valable temporelle. La région TROI maximale correspond au segment temporel entièrement aligné et contient toutes les images alignées temporellement de la région TVR. Si une resynchronisation de trame est requise, elle s'applique toujours au clip traité, mais pas au clip d'origine.
Région d'intérêt traitée (PROI, processed region of interest): Région d'intérêt (ROI) extraite de la séquence vidéo traitée et dont les décalages spatiaux dus au circuit fictif de référence ont été corrigés, spécifiée en coordonnées de rectangle.
Région valable (VR, valid region): Partie rectangulaire d'une grille d'image (spécifiée en coordonnées de rectangle) qui n'est ni supprimée ni altérée par le traitement. La région valable est un sous-ensemble du format de production du système vidéo standard considéré et n'inclut que les pixels d'image qui contiennent une information d'image qui n'a été ni supprimée ni altérée. Voir région valable d'origine et région valable traitée.
Région valable d'origine (OVR, original valid region): Région valable d'un clip vidéo d'origine, spécifiée en coordonnées de rectangle.
Région valable temporelle (TVR, temporal valid region): Segment temporel, séquence ou sousensemble maximal d'images vidéo pouvant être utilisé pour l'étalonnage et le calcul de la qualité VQM. Les images situées en dehors de ce segment temporel seront toujours considérées comme non valables.
Région valable traitée (PVR, processed valid region): Région valable d'un clip vidéo traité provenant d'un HRC, spécifiée en coordonnées de rectangle. La région PVR est toujours spécifiée par rapport à la séquence vidéo d'origine, il faut donc corriger les décalages spatiaux de la séquence vidéo dus au HRC avant de calculer la région PVR. Ainsi, la région PVR est toujours contenue dans l'OVR. La région comprise entre la région PVR et la région OVR est la partie de la séquence vidéo qui a été supprimée ou altérée par le HRC.
Resynchronisation de trame: Processus consistant à réordonner, dans une image vidéo, deux trames entrelacées échantillonnées consécutivement d'une séquence vidéo traitée. La resynchronisation de trame est nécessaire lorsque des HRC ne conservent pas l'ordre standard des trames entrelacées (par exemple une trame NTSC une sort sous forme de trame NTSC deux et inversement). Voir le § 6.1.2.
Scène: Séquence d'images vidéo.
Séquence vidéo d'entrée: Séquence vidéo avant traitement ou distorsion par un HRC (voir la Fig. 19). On parle aussi de séquence vidéo d'origine.
Séquence vidéo d'origine: Séquence vidéo avant traitement ou distorsion par un HRC (voir la Fig. 19). On parle aussi de séquence vidéo d'entrée puisque c'est la séquence vidéo qui entre dans le système de transmission vidéo numérique.
Séquence vidéo de sortie: Séquence vidéo qui a été traitée ou distordue par un HRC (voir la Fig. 19). On parle aussi de séquence vidéo traitée.
Séquence vidéo traitée: Séquence vidéo qui a été traitée ou distordue par un HRC (voir la Fig. 19). On parle aussi de séquence vidéo de sortie puisque c'est la séquence de sortie du système de transmission vidéo numérique.
Société des ingénieurs en images animées et télévision (SMPTE, Society of Motion Picture and Television Engineers): Importante pour les industriels travaillant dans le domaine des images animées et de la télévision, cette société se charge de développer la théorie et les applications dans le domaine des images animées, y compris les films, la télévision, la vidéo, l'imagerie sur ordinateur et les télécommunications. Les industriels attendent de la SMPTE qu'elle élabore des normes, des lignes directrices en matière d'ingénierie et des pratiques recommandées qui doivent ensuite être suivies par les professionnels respectifs sur le terrain.
Sous-région spatio-temporelle (S-T): Bloc de pixels d'image d'un flux vidéo d'origine ou traité qui inclut une dimension verticale (nombre de lignes), une dimension horizontale (nombre de colonnes) et une dimension temporelle (nombre d'images). Voir la Fig. 27.
Surbalayage: Partie du flux vidéo qu'on ne peut généralement pas voir sur un écran de télévision standard.
Système NTSC (National Television Systems Committee): Système couleur de vidéo composite analogique à 525 lignes [SMPTE, 1999].
Système PAL (phase-alternate line): Système couleur de vidéo composite analogique à 625 lignes.
Trame: La moitié d'une image, contenant toutes les lignes impaires ou toutes les lignes paires.
Unité IRE (Institute for Radio Engineers): Unité de tension couramment utilisée pour mesurer les signaux vidéo. Une IRE vaut 1/140 de volt.
Union internationale des télécommunications (UIT): Organisation internationale du système des Nations Unies où le secteur public et le secteur privé coordonnent les réseaux et services mondiaux de télécommunications. L'UIT inclut le Secteur des radiocommunications (UITR) et le Secteur de la normalisation des télécommunications (UIT-T).
4 Aperçu du calcul de la qualité VQM
La présente Annexe contient une description complète du modèle général et des algorithmes d'étalonnage qui lui sont associés. La méthode de mesure objective automatisée considérée ici donne des résultats proches des appréciations globales (notes moyennes d'opinion) de la qualité vidéo numérique attribuées par des groupes d'observateurs (voir la Recommandation UITR BT.500). La Fig. 19 donne un diagramme d'ensemble des processus requis pour calculer la qualité VQM selon le modèle général. Ces processus comprennent l'échantillonnage des flux vidéo d'origine et traité (voir le § 5), l'étalonnage de ces flux (voir le § 6), l'extraction de caractéristiques fondées sur la perception (voir le § 7), le calcul de paramètres de qualité vidéo (voir le § 8) et le calcul du modèle général (voir le § 9). Le modèle général mesure les modifications perçues de la qualité résultant de distorsions dues à n'importe quel composant du système de transmission vidéo numérique (par exemple codeur, canal numérique, décodeur).
La méthode de mesure décrite ici utilise des paramètres de référence réduite de largeur de bande élevée (Recommandation UITT J.143). Ces paramètres sont fondés sur des caractéristiques extraites de régions spatiotemporelles (S-T) de la séquence vidéo (voir le § 7.1.1). La méthode de mesure présentée ici peut donc aussi être utilisée pour surveiller la qualité vidéo en service lorsqu'un canal de données auxiliaires est disponible pour transmettre les caractéristiques extraites entre la source et la destination d'un HRC (voir la Fig. 19).
5 Echantillonnage
Pour les algorithmes informatiques exposés dans la présente Annexe, on suppose que les flux vidéo d'origine et traité sont disponibles sous forme de représentations numériques stockées sur support informatique (on parle de clip dans la présente Annexe). Si le flux vidéo est en format analogique, l'une des normes d'échantillonnage numérique les plus largement utilisées est la Recommandation UITR BT.601 (§ 2). Un flux vidéo composite (par exemple NTSC ou PAL) doit d'abord être converti en flux vidéo en composantes contenant les trois signaux suivants: luminance (Y), différence de couleur bleue, CB, et différence de couleur rouge, CR,. L'échantillonnage selon la Recommandation UITR BT.601 est souvent appelé échantillonnage 4:2:2 car la fréquence d'échantillonnage du canal Y est le double de la fréquence d'échantillonnage des canaux CB et CR. La Recommandation UITR BT.601 spécifie une fréquence d'échantillonnage de 13,5 MHz pour le canal Y, qui produit 720 échantillons Y par ligne vidéo. Etant donné que dans le système NTSC à 525 lignes, les informations d'image sont contenues dans 486 lignes, l'image vidéo Y complète échantillonnée selon la Recommandation UITR BT.601 sera de 720 pixels par 486 lignes. De même, lorsqu'un flux vidéo PAL à 625 lignes est échantillonné selon la Recommandation UITR BT.601, l'image vidéo Y sera de 720 pixels par 576 lignes. Si on utilise 8 bits pour échantillonner de manière uniforme le signal Y, la Recommandation UITR BT.601 spécifie que la valeur d'échantillonnage du noir de référence (c'est-à-dire 7,5 unités IRE) est «16» et que celle du blanc de référence (c'est-à-dire 100 unités IRE) est «235». Ainsi, une marge de travail est prévue pour les signaux vidéo qui dépassent les niveaux du noir et du blanc de référence avant écrêtage par le convertisseur analogique-numérique. Chacun des canaux de chrominance (CB et CR) est échantillonné à 6,75 MHz et le premier couple d'échantillons de chrominance (CB, CR) est associé au premier échantillon de luminance Y, le deuxième couple d'échantillons de chrominance est associé au troisième échantillon de luminance, etc. Comme les canaux de chrominance sont bipolaires, la valeur d'échantillonnage du signal nul est «128».
5.1 Indexation temporelle des images figurant dans les fichiers vidéo d'origine et traité
Une image de luminance de flux vidéo échantillonnée selon la Recommandation UITR BT.601 sera désignée par Y(t). La variable t est utilisée ici comme indice pour les images échantillonnées figurant dans les fichiers Big YUV d'origine et traité; elle ne désigne pas le temps véritable. Si le fichier Big YUV contient N images, comme indiqué sur la Fig. 20, t =ð 0 désigne la première image qui a été échantillonnée et t =ð (N ( 1) désigne la dernière image qui a été échantillonnée.
Tous les algorithmes décrits ici fonctionnent sur la base de couples de fichiers échantillonnés, chaque couple comprenant un fichier pour la séquence vidéo d'origine et un fichier pour la séquence vidéo traitée associée. Pour éviter toute confusion, on suppose que les deux fichiers d'un couple ont la même longueur. Par ailleurs, on suppose au départ que la première image du fichier d'origine est alignée temporellement avec la première image du fichier traité, avec plus ou moins une certaine incertitude temporelle.
Pour les implémentations en service et en temps réel, cette hypothèse d'incertitude bilatérale peut être remplacée par une hypothèse d'incertitude unilatérale, découlant de la causalité. Par exemple, une image traitée apparaissant à l'instant t =ð n doit provenir d'images d'origine apparues à l'instant t =ð n ou antérieurement.
L'hypothèse susmentionnée concernant les fichiers vidéo d'origine et traité (à savoir que les premières images sont alignées) équivaut à choisir la valeur la plus probable du retard dû au HRC présenté sur la Fig. 19. Par conséquent, l'incertitude restante quant à l'évaluation du retard vidéo sera de plus ou moins U.
5.2 Indexation spatiale des images des flux vidéo d'origine et traité
Le système de coordonnées utilisé pour les images de luminance échantillonnées est présenté sur la Fig. 21. Les coordonnées horizontale et verticale du coin en haut à gauche des images de luminance sont définies comme valant (v =ð 0, h =ð 0), où la valeur de la coordonnée sur l'axe horizontal, h, croît vers la droite et la valeur de la coordonnée sur l'axe vertical v croît vers le bas. La coordonnée sur l'axe horizontal est comprise entre 0 et le nombre de pixels d'une ligne moins un. La coordonnée sur l'axe vertical est comprise entre 0 et le nombre de lignes moins un, le nombre de lignes étant le nombre de lignes d'une image pour les systèmes à balayage progressif et soit le nombre de lignes d'une trame soit le nombre de lignes d'une image pour les systèmes à balayage avec entrelacement. L'amplitude du pixel de Y(t) échantillonné correspondant à la ligne i (v =ð i) et à la colonne j (h =ð j) et à l'instant t est désignée par Y(i, j, t).
Un clip vidéo échantillonné selon la Recommandation UITR BT.601 est stocké dans un fichier de format «Big YUV», Y désignant l'information de luminance selon la Recommandation UITR BT.601, U l'information de différence de couleur bleue (c'est-à-dire CB dans la Recommandation UITR BT.601) et V l'information de différence de couleur rouge (c'est-à-dire CR dans la Recommandation UITR BT.601). Avec le format de fichier Big YUV, toutes les images sont stockées séquentiellement dans un seul grand fichier binaire continu. Les pixels d'image sont stockés séquentiellement par ligne de balayage vidéo sous forme d'octets dans l'ordre suivant: CB0, Y0, CR0, Y1, CB2, Y2, CR2, Y3, etc., l'indice numérique désignant le numéro du pixel (on doit procéder à une duplication de pixel ou à une interpolation entre pixels pour déterminer les échantillons de chrominance CB et CR associés à Y1, Y3,
). Cet ordre des octets est équivalent à celui qui est spécifié dans la norme SMPTE 125M [SMPTE, 1995a].
5.3 Spécification de sous-régions rectangulaires
On utilise des sous-régions rectangulaires d'une image échantillonnée pour contrôler le calcul de la qualité VQM. Par exemple, on peut calculer la qualité VQM sur la région valable de l'image échantillonnée ou sur une région d'intérêt spatiale spécifiée par l'utilisateur qui est plus petite que la région valable. Pour spécifier des sous-régions rectangulaires, on utilise les coordonnées de rectangle définies par les quatre grandeurs suivantes: haut, gauche, bas et droite. La Fig. 22 illustre la spécification d'une sous-région rectangulaire d'une image vidéo échantillonnée. Les pixels rouges de l'image sont inclus dans la sous-région mais les pixels noirs de l'image en sont exclus. Pour le calcul de la qualité VQM, une image est souvent subdivisée en un grand nombre de sous-régions plus petites contiguës. La définition d'une sous-région rectangulaire présentée sur la Fig. 22 permet de définir la grille utilisée pour afficher ces sous-régions contiguës et les fonctions mathématiques utilisées pour extraire les caractéristiques de chacune de ces sous-régions.
5.4 Considérations relatives aux séquences vidéo de plus de 10 s
Pour les mesures de la qualité vidéo dont il est question dans la présente Annexe, on s'est fondé sur les résultats d'essais subjectifs relatifs à des clips vidéo de 8 à 10 s. Lorsque la séquence est plus longue, il convient de la subdiviser en segments vidéo plus courts, chaque segment étant supposé avoir ses propres attributs d'étalonnage et de qualité. La méthode consistant à subdiviser le flux vidéo en segments se chevauchant et à traiter chaque segment indépendamment des autres permet d'émuler des évaluations continues de la qualité pour les longues séquences vidéo au moyen des techniques de mesure VQM présentées ici.
6 Etalonnage
Quatre étapes sont nécessaires pour étalonner correctement les séquences vidéo échantillonnées en vue de l'extraction des caractéristiques. Ces étapes sont les suivantes:
Etape 1: évaluation de l'alignement spatial et correction;
Etape 2: évaluation de la région valable afin de limiter l'extraction des caractéristiques aux pixels qui contiennent l'information d'image;
Etape 3: évaluation du gain et du décalage de niveau (généralement appelés contraste et brillance) et correction et
Etape 4: évaluation de l'alignement temporel et correction.
L'Etape 2 doit être appliquée aux flux vidéo d'origine et traité. Les Etapes 1, 3 et 4 doivent être appliquées au flux vidéo traité. Généralement, l'alignement spatial, le gain et le décalage de niveau sont constants pour un système vidéo donné et ces grandeurs n'ont donc à être calculées qu'une seule fois. Toutefois, il est courant que la région valable et l'alignement temporel changent en fonction du contenu de la scène. Par exemple, une scène au format plein écran et une scène au format boîte aux lettres auront des régions valables différentes; les systèmes de visioconférence présentent souvent des retards vidéo variables qui dépendent du contenu de la scène (par exemple une scène dans laquelle on voit la tête d'une personne qui parle et une scène d'une épreuve sportive). En plus des techniques d'étalonnage présentées ici, le lecteur souhaitera peut-être aussi examiner d'autres méthodes d'alignement spatial et temporel (voir la Recommandation UITT P.931 Mesure du temps de transmission, de la synchronisation et du débit de trames dans les communications multimédias).
Le fait de procéder à un étalonnage avant l'extraction des caractéristiques implique que les décalages horizontal et vertical de l'image, les décalages temporels du flux vidéo résultant de retards vidéo non nuls et les modifications du contraste et de la brillance d'image comprises dans la plage dynamique de l'unité d'échantillonnage vidéo n'auront pas d'incidence sur la qualité VQM. Ces grandeurs liées à l'étalonnage peuvent avoir une grande incidence sur la qualité globale perçue (par exemple des images à faible contraste issues d'un système vidéo avec un gain de 0,3), mais la philosophie adoptée ici consiste à séparer les informations liées à l'étalonnage de la qualité VQM. De bonnes pratiques techniques permettent généralement d'ajuster les décalages spatiaux, les régions valables, les gains et les décalages de niveau; les décalages temporels fournissent des informations importantes sur la qualité lors de l'évaluation de systèmes vidéo bidirectionnels ou interactifs.
Pour toutes les caractéristiques et tous les paramètres de qualité vidéo (voir les § 7 et 8), on suppose qu'un seul retard vidéo est supprimé pour l'alignement temporel de la séquence vidéo traitée (retard vidéo constant). Certains systèmes vidéo ou HRC appliquent un retard différent à chaque image traitée (retard vidéo variable). Dans la présente Annexe, on considère que tous les systèmes vidéo ont un retard vidéo constant. Les variations par rapport à ce retard sont considérées comme des dégradations qui sont mesurées par les caractéristiques et les paramètres. Cette approche semble conduire à de meilleures corrélations avec la note subjective que les mesures de la qualité vidéo fondées sur des séquences vidéo traitées dont le retard vidéo variable a été supprimé. Lorsqu'une séquence vidéo est longue (voir le § 5.4), il convient de la subdiviser en segments vidéo plus courts, chaque segment ayant son propre retard vidéo constant, ce qui autorise une certaine variation du retard en fonction du temps. Il est possible d'obtenir une évaluation plus continue des variations du retard en subdivisant la séquence en segments temporels se chevauchant.
Si le HRC testé réduit ou agrandit la taille de l'image (par exemple zoom), il faudrait inclure, dans le processus d'étalonnage, une étape additionnelle visant à évaluer et à supprimer cette réduction ou cet agrandissement spatial. Cette étape n'entre pas dans le cadre de la présente Annexe.
6.1 Alignement spatial
6.1.1 Aperçu
Le processus d'alignement spatial détermine les décalages spatiaux horizontal et vertical d'une image vidéo traitée par rapport à l'image vidéo d'origine. Un décalage horizontal positif correspond à une image traitée qui a été déplacée vers la droite par un certain nombre de pixels. Un décalage vertical positif correspond à une image traitée qui a été déplacée vers le bas par un certain nombre de lignes. Ainsi, pour l'alignement spatial d'une image vidéo avec balayage à entrelacement, il faut tenir compte de trois grandeurs: le décalage horizontal en nombre de pixels, le décalage vertical de la trame une en nombre de lignes de trame et le décalage vertical de la trame deux en nombre de lignes de trame. Pour l'alignement spatial d'une image vidéo avec balayage progressif, il faut tenir compte de deux grandeurs: le décalage horizontal et le décalage vertical en nombre de lignes d'image. L'algorithme d'alignement spatial est précis au pixel près pour les décalages horizontaux et à la ligne près pour les décalages verticaux. Une fois que l'alignement spatial a été calculé, le décalage spatial est supprimé du flux vidéo traité (par exemple une image traitée qui a été décalée vers le bas est redécalée vers le haut). En cas de balayage à entrelacement, le processus peut inclure une resynchronisation de trame du flux vidéo traité découlant de la comparaison des décalages verticaux des trames une et deux.
Dans le cas du balayage à entrelacement, toutes les opérations s'appliquent à chaque trame séparément; dans le cas du balayage progressif, toutes les opérations s'appliquent à l'image entière. Dans un souci de simplicité, l'algorithme d'alignement spatial sera d'abord entièrement décrit dans le cas du balayage à entrelacement, car c'est le cas le plus compliqué. Les modifications à apporter dans le cas du balayage progressif sont présentées au § 6.1.6.
L'alignement spatial doit être déterminé avant la région PVR, le gain et le décalage de niveau ainsi que l'alignement temporel. Plus précisément, pour calculer chacune de ces grandeurs, il faut comparer le contenu vidéo d'origine et le contenu vidéo traité qui a été aligné spatialement. Si le flux vidéo traité a été décalé spatialement par rapport au flux vidéo d'origine et que ce décalage spatial n'a pas été corrigé, les évaluations seraient mauvaises car elles seraient fondées sur des contenus vidéo non analogues. Malheureusement, on ne peut pas déterminer correctement l'alignement spatial si on ne connaît pas la PVR, le gain et le décalage de niveau ainsi que l'alignement temporel. L'interdépendance de ces grandeurs cause un problème de mesure du type "de la poule et de l'uf". Pour pouvoir calculer l'alignement spatial d'une trame traitée, il faut connaître la PVR, le gain et le décalage de niveau ainsi que la trame d'origine lui correspondant le mieux. Toutefois, il est impossible de déterminer ces grandeurs si le décalage spatial n'est pas connu. Une recherche entièrement exhaustive couvrant toutes les variables nécessiterait un nombre considérable de calculs en cas de grosses incertitudes concernant les grandeurs ci-dessus.
La solution présentée ici consiste à procéder à une recherche itérative afin de trouver la trame d'origine correspondant le mieux à chaque trame traitée. Cette recherche inclut une mise à jour itérative des évaluations de PVR, de gain et de décalage de niveau ainsi que d'alignement temporel. Toutefois, pour certaines trames traitées, l'algorithme d'alignement spatial peut échouer. Généralement, lorsque l'alignement spatial n'est pas évalué correctement pour une trame traitée, l'ambiguïté est due aux caractéristiques de la scène. Considérons, par exemple, une scène avec balayage à entrelacement créée numériquement contenant un panoramique vers la gauche. Comme le panoramique a été généré par ordinateur, cette scène pourrait comporter un panoramique horizontal d'exactement un pixel à chaque trame. Du point de vue de l'algorithme de recherche de l'alignement spatial, il serait impossible de faire une différence entre l'alignement spatial correct calculé par rapport à la trame d'origine correspondante, et un décalage horizontal de deux pixels calculé par rapport à la trame qui précède de deux trames la trame d'origine correspondante. Considérons un autre exemple dans lequel une image est entièrement constituée de lignes verticales noires et blanches numériquement parfaites. Comme l'image ne contient pas de ligne horizontale, le décalage vertical est complètement ambigu. Comme le motif de lignes verticales se répète, le décalage horizontal est ambigu, deux décalages horizontaux ou davantage étant tout aussi probables.
Par conséquent, il convient d'appliquer l'algorithme de recherche itérative à une séquence de trames traitées. Les évaluations individuelles de décalage spatial de plusieurs trames traitées peuvent alors servir à produire une évaluation plus robuste. Les évaluations de décalage spatial de plusieurs séquences ou scènes peuvent ensuite être combinées afin de produire une évaluation encore plus robuste pour le HRC testé, dans l'hypothèse où le décalage spatial est constant pour toutes les scènes qui passent par ce circuit.
6.1.2 Questions relatives à l'entrelacement
L'alignement spatial vertical est plus complexe pour un flux vidéo avec balayage à entrelacement que pour un flux vidéo avec balayage progressif, car le processus d'alignement spatial doit faire la différence entre la trame une et la trame deux. Trois conditions de décalage vertical doivent être différenciées afin d'obtenir l'alignement vertical correct pour les systèmes avec balayage à entrelacement: le décalage vertical de la trame une est égal au décalage vertical de la trame deux, le décalage vertical de la trame une est inférieur de un au décalage vertical de la trame deux, le décalage vertical est tout autre.
Certains HRC décalent de manière identique la trame une et la trame deux; dans ce cas, le décalage vertical de la trame une est égal au décalage vertical de la trame deux. Pour les HRC qui ne répètent pas les trames ou les images (c'est-à-dire les HRC qui émettent au plein débit d'images du système vidéo), cette condition signifie que ce qui était une trame une dans le flux vidéo d'origine est également une trame une dans le flux vidéo traité et ce qui était une trame deux dans le flux d'origine est également une trame deux dans le flux traité.
D'autres HRC procèdent à une resynchronisation de trame du flux vidéo, décalant l'image échantillonnée par un nombre impair de lignes d'image. La trame une de la séquence d'origine devient la trame deux de la séquence traitée et la trame deux de la séquence d'origine devient la trame une de l'image suivante. Visuellement, le flux vidéo affiché semble correct car l'être humain ne peut pas percevoir un décalage d'image du flux vidéo correspondant à une ligne.
Comme indiqué sur la Fig. 23, la trame une commence à la ligne d'image une et contient toutes les lignes d'image impaires. La trame deux commence à la ligne d'image zéro (ligne d'image la plus en haut) et contient toutes les lignes d'image paires. Pour les systèmes NTSC, la trame une est la première dans le temps et la trame deux la deuxième. Pour les systèmes PAL, la trame deux est la première dans le temps et la trame une la deuxième.
Une resynchronisation de trame a lieu lorsque la première trame devient la deuxième et la deuxième devient la première de l'image suivante (retard d'une trame) ou lorsque la deuxième trame devient la première et la première de l'image suivante devient la deuxième de l'image en cours (avance d'une trame). Par exemple, lorsque la trame d'origine NTSC deux devient la trame une de l'image NTSC suivante, la ligne du haut de la trame qui était la ligne d'image 0 de la trame d'origine deux devient la ligne d'image 1 de la trame traitée une. Selon le numérotage des lignes de trame, la ligne du haut reste la ligne de trame 0; ainsi, la trame traitée une présente un décalage vertical nul (car les décalages verticaux sont mesurés pour chaque trame au moyen des lignes de trame). Lorsque la trame NTSC d'origine une devient la trame deux de la même image, la ligne du haut de la trame qui était la ligne d'image 1 de la trame d'origine une devient la ligne d'image 2 de la trame traitée deux. Selon le numérotage des lignes de trame, la ligne du haut qui était la ligne de trame 0 devient la ligne de trame 1; ainsi, la trame traitée deux présente un décalage vertical d'une ligne de trame. La règle générale applicable à la fois au système NTSC et au système PAL est la suivante: lorsque le décalage vertical de la trame deux (en nombre de lignes de trame) est supérieur de un au décalage vertical de la trame une (en nombre de lignes de trame), une resynchronisation de trame a eu lieu.
Si le décalage vertical de la trame deux est différent de celui de la trame une et ne vaut pas non plus un de plus que celui de la trame une, le HRCa altéré l'échantillonnage spatial des deux trames entrelacées et la scène vidéo résultante apparaîtra comme montant et descendant brusquement. Une telle dégradation est évidente et gênante pour l'observateur et, de fait, se produit rarement dans la pratique car le concepteur de HRC découvre et corrige l'erreur. Par conséquent, l'alignement spatial repose la plupart du temps sur deux schémas courants. Dans les systèmes sans resynchronisation de trame, le décalage vertical de la trame une est égal au décalage vertical de la trame deux; dans les systèmes avec resynchronisation de trame, le décalage vertical de la trame une plus un est égal au décalage vertical de la trame deux.
En outre, il est à noter que l'alignement spatial inclut certaines informations d'alignement temporel, notamment la question de savoir s'il y a eu resynchronisation de trame ou non. Le processus d'alignement temporel peut ne pas être capable de détecter une resynchronisation de trame, mais même s'il le peut, la resynchronisation de trame est inhérente au processus d'alignement spatial. L'alignement spatial doit donc être capable de déterminer si la trame traitée considérée correspond le mieux à une trame d'origine une ou deux. L'alignement spatial pour chaque trame ne peut être calculé correctement que lorsque la trame traitée est comparée avec la trame d'origine dont elle est issue. Mise à part la question de la resynchronisation de trame, l'utilisation de la mauvaise trame d'origine (trame une/trame deux) peut entraîner des imprécisions quant à l'alignement spatial en raison des différences intrinsèques de contenu spatial dans les deux trames entrelacées.
6.1.3 Variables d'entrée requises par l'algorithme d'alignement spatial
Le présent paragraphe contient la liste des variables d'entrée requises par l'algorithme d'alignement spatial. Ce sont notamment la plage des décalages spatiaux et la plage des trames d'origine sur lesquelles la recherche doit porter. Si ces plages sont trop grandes, la vitesse de convergence de l'algorithme de recherche itérative utilisé pour trouver le décalage spatial risque d'être lente et la probabilité pour que l'alignement spatial pour des scènes au contenu répétitif soit erroné sera élevée (par exemple quelqu'un qui fait un signe de la main). Inversement, si ces plages sont trop petites, l'algorithme de recherche se heurtera aux limites des plages de recherche et les repoussera lentement au cours des itérations successives. Cette intelligence de recherche intégrée est utile si l'utilisateur fait une faible erreur d'évaluation des incertitudes de la recherche, mais risque d'augmenter considérablement le temps d'exécution si l'utilisateur fait une forte erreur d'évaluation. Par ailleurs, l'algorithme de recherche risque de ne pas trouver le décalage spatial correct dans ce cas.
6.1.3.1 Plage prévue des décalages spatiaux
La plage prévue des décalages spatiaux pour des flux vidéo à 525 lignes et à 625 lignes échantillonnés conformément à la Recommandation UITR BT.601 est de ±20 pixels horizontalement et de ±12 lignes de trame verticalement. Elle a été déterminée empiriquement sur la base du traitement de données vidéo issues de centaines de HRC. La plage prévue des décalages spatiaux pour des flux vidéo échantillonnés conformément à d'autres formats plus petits que ceux de la Recommandation UITR BT.601 (par exemple CIF) est supposée être moitié moins grande que la plage observée pour les systèmes à 525 lignes et à 625 lignes. L'algorithme de recherche devrait fonctionner correctement - quoiqu'un peu plus lentement - lorsque la trame traitée présente des décalages spatiaux non compris dans la plage prévue des décalages spatiaux. Cela est dû au fait que l'algorithme de recherche élargira la recherche au-delà de la plage prévue des décalages spatiaux lorsque c'est justifié. Toutefois, le résultat de la détermination de l'alignement spatial correct risque d'être signalé comme étant un échec si les excursions dépassent 50% de la plage prévue.
6.1.3.2 Incertitude temporelle
L'utilisateur doit aussi spécifier l'incertitude quant à l'alignement temporel, c'est-à-dire la plage des trames d'origine à examiner pour chaque trame traitée. Cette incertitude temporelle est exprimée sous la forme d'un certain nombre de trames avant et après l'alignement temporel par défaut. Si les séquences vidéo d'origine et traitée sont stockées sous forme de fichiers, un alignement temporel par défaut raisonnable consiste à supposer que la première trame d'un fichier est alignée avec la première trame de l'autre fichier. L'incertitude temporelle qui est spécifiée devrait être suffisamment grande pour inclure l'alignement temporel réel. Une incertitude de plus ou moins une seconde (30 images dans le cas NTSC à 525 lignes; 25 images dans le cas PAL à 625 lignes) devrait suffire pour la plupart des systèmes vidéo. Une incertitude temporelle plus grande pourra être nécessaire pour les HRC présentant de longs retards vidéo. L'algorithme de recherche pourra envisager des alignements temporels qui sortent de la plage d'incertitude spécifiée lorsque c'est justifié (par exemple lorsque la trame d'origine la plus éloignée est choisie comme correspondant au meilleur alignement temporel).
6.1.3.3 Evaluation de la région PVR
L'évaluation de la région PVR consiste à spécifier la partie de l'image traitée qui n'a été ni supprimée ni altérée par le traitement, en supposant qu'il n'y a pas eu de décalage spatial (car le décalage spatial n'a pas encore été mesuré). L'évaluation de la PVR peut être déterminée empiriquement, mais une évaluation de la PVR qui est spécifiée par l'utilisateur et qui exclut la zone de surbalayage constitue un bon choix. Dans la plupart des cas, cela permet de ne pas utiliser les parties vidéo non valables dans l'algorithme d'alignement spatial. Concernant les flux vidéo NTSC à 525 lignes échantillonnés conformément à la Recommandation UITR BT.601, la zone de surbalayage couvre environ 18 lignes d'image en haut et en bas de l'image et 22 pixels à gauche et à droite de l'image. Concernant les flux vidéo PAL à 625 lignes échantillonnés conformément à la Recommandation UITR BT.601, la zone de surbalayage couvre environ 14 lignes d'image en haut et en bas de l'image et 22 pixels à gauche et à droite de l'image. Pour les autres formats d'image (par exemple CIF), il convient de choisir une PVR par défaut raisonnable.
6.1.4 Sous-algorithmes utilisés par l'algorithme d'alignement spatial
L'algorithme d'alignement spatial utilise un certain nombre de sous-algorithmes notamment pour évaluer le gain et le décalage de niveau et des formules permettant de déterminer la trame d'origine qui correspond le mieux à une trame traitée donnée. Ces sous-algorithmes ont été conçus pour être efficaces sur le plan du calcul, étant donné qu'ils doivent être exécutés de nombreuses fois dans le cadre de l'algorithme de recherche itérative.
6.1.4.1 Région ROI utilisée par tous les calculs
Toutes les comparaisons de trame opérées par l'algorithme se font entre des versions décalées spatialement d'une ROI extraite du flux vidéo traité (afin de compenser les décalages spatiaux introduits par le HRC) et la ROI correspondante extraite du flux vidéo d'origine. Toute ROI extraite du flux vidéo traité et décalée spatialement sera appelée PROI (ROI traitée) et la ROI correspondante extraite du flux vidéo d'origine sera appelée OROI (ROI d'origine). Les coordonnées de rectangle qui spécifient la OROI sont fixes tout au long de l'algorithme et sont choisies de manière à avoir la plus grande OROI possible qui satisfait aux deux conditions suivantes:
La OROI doit correspondre à une PROI qui est située dans la région PVR pour tous les décalages spatiaux possibles qui sont examinés.
La OROI est centrée dans l'image d'origine.
6.1.4.2 Gain et décalage de niveau
L'algorithme qui suit sert à évaluer le gain du flux vidéo traité. On corrige le décalage spatial de la trame traitée examinée en utilisant l'évaluation courante du décalage spatial. Après cette correction, on choisit une PROI qui correspond à la OROI fixe déterminée au § 6.1.4.1. On calcule ensuite l'écart type des valeurs des pixels de luminance (Y) de cette PROI et l'écart type des valeurs des pixels de luminance (Y) de la OROI. On évalue alors le gain comme étant l'écart type associé à la PROI divisé par l'écart type associé à la OROI.
A mesure que l'on se rapproche du décalage spatio-temporel correct au cours des itérations successives de l'algorithme, la fiabilité de cette évaluation du gain est renforcée. On peut utiliser un gain de 1,0 (c'est-à-dire aucune correction du gain) pendant les premiers cycles d'itération. Le calcul de gain décrit ci-dessus est sensible aux dégradations présentes dans le flux vidéo traité (par exemple flou). Toutefois, pour l'alignement spatial, cette évaluation du gain est utile car elle permet au flux vidéo traité de ressembler le plus possible au flux vidéo d'origine. Pour supprimer le gain de la trame traitée, la valeur de chaque pixel de luminance de la trame traitée est divisée par le gain.
Il n'est pas nécessaire de déterminer ou de corriger le décalage de niveau, car les décalages de niveau n'ont pas d'incidence sur les critères de recherche de l'algorithme d'alignement spatial (voir le § 6.1.4.3).
6.1.4.3 Formules utilisées pour comparer la PROI avec la OROI
Après avoir corrigé le gain3 dans la PROI (§ 6.1.4.2), on utilise l'écart type de l'image de différence (OROI-PROI) pour choisir un décalage spatial et un décalage temporel parmi différentes valeurs. On utilise l'évaluation de gain associée à la meilleure correspondance précédente pour corriger le gain de la PROI. Pour déterminer un décalage spatial parmi plusieurs valeurs (le décalage temporel étant maintenu constant), on calcule l'écart type de l'image de différence (OROIPROI) pour plusieurs PROI générées avec différents décalages spatiaux. Pour une trame traitée donnée, on choisit la combinaison de décalages spatial et temporel qui produit l'écart type le plus petit (c'estàdire la plus grande annulation par rapport à la trame d'origine) comme correspondant à la meilleure correspondance.
6.1.5 Alignement spatial utilisant des scènes arbitraires
Pour l'alignement spatial d'une trame traitée extraite d'une scène, il faut examiner plusieurs trames d'origine et décalages spatiaux car le décalage temporel (c'est-à-dire le retard vidéo) et le décalage spatial sont tous deux inconnus. Il s'ensuit que l'algorithme de recherche est complexe et nécessite beaucoup de calculs. Par ailleurs, comme le contenu de la scène est arbitraire, il est possible que l'algorithme détermine un alignement spatial incorrect (voir le § 6.1.1). Il est donc prudent de calculer l'alignement spatial de plusieurs trames traitées extraites de plusieurs scènes différentes qui sont toutes passées par le même HRC et de combiner les résultats afin d'obtenir une évaluation robuste du décalage spatial. Un HRC donné devrait avoir un seul alignement spatial constant. Si ce n'est pas le cas, des décalages spatiaux variables dans le temps seraient perçus comme une dégradation (par exemple le flux vidéo rebondirait de haut en bas et de bas en haut ainsi que d'un côté à l'autre). Le présent paragraphe décrit l'algorithme d'alignement spatial dans le cas haut-bas; pour cela, on décrit d'abord les principaux composants de l'algorithme puis leur application pour des scènes et des HRC.
6.1.5.1 Meilleure correspondance de trame d'origine dans le temps
Pour déterminer l'alignement spatial à partir du contenu d'une scène, l'algorithme doit déterminer la trame d'origine qui correspond le mieux à la trame traitée courante. Malheureusement, il se peut que cette trame d'origine n'existe pas. Par exemple, une trame traitée peut contenir des parties de deux trames d'origine différentes car elle a pu être interpolée à partir d'autres trames traitées. L'évaluation courante de la meilleure correspondance de trame d'origine (c'est-à-dire la trame d'origine qui correspond le mieux à la trame traitée courante) est conservée à toutes les étapes de l'algorithme de recherche.
On suppose au départ que la première trame du fichier Big YUV traité est alignée avec la première trame du fichier Big YUV d'origine, avec plus ou moins une certaine incertitude temporelle en nombre d'images (appelée U). Pour chaque trame traitée qui est examinée par l'algorithme, il faut un tampon de U images d'origine avant et après cette trame. L'algorithme commence donc à examiner les trames traitées se trouvant à U images après le début du fichier, examine toutes les trames qui suivent correspondant à une certaine fréquence (appelée F), et s'arrête U images avant la fin du fichier.
Les résultats finals de la recherche pour la trame traitée précédente (gain, décalage vertical, décalage horizontal, décalage temporel) sont utilisés pour initialiser la recherche pour la trame traitée courante. Pour calculer la meilleure correspondance de trame d'origine pour la trame traitée courante, on suppose que le retard vidéo est constant. Par exemple, s'il a été déterminé que la meilleure correspondance pour la trame traitée N est la trame d'origine M dans les fichiers Big YUV, on suppose, au début de la recherche, que la meilleure correspondance pour la trame traitée N + F est la trame d'origine M + F.
6.1.5.2 Recherche large du décalage temporel
Une recherche complète parmi tous les décalages spatiaux possibles dans toute la plage d'incertitude temporelle pour chaque trame traitée nécessiterait un grand nombre de calculs. A la place, on utilise une recherche en plusieurs étapes, la première étape étant une recherche large du décalage temporel sur un ensemble très limité de décalages spatiaux, dont le but est de se rapprocher de la correspondance correcte de trame d'origine.
Dans le cadre de cette recherche large pour l'image traitée considérée, on examine la trame une de cette image (voir la Fig. 23) et on ne considère que les trames d'origine qui sont des trames unes et qui sont espacées de deux images (c'est-à-dire qui sont espacées de quatre trames) dans toute la plage correspondant à plus ou moins l'incertitude d'alignement temporel. Dans le cadre de cette recherche large, on considère les quatre décalages spatiaux suivants du flux vidéo traité: pas de décalage, huit pixels vers la gauche, huit pixels vers la droite et huit lignes de trame vers le haut (voir la Fig. 24). Sur la Fig. 24, les décalages positifs correspondent aux décalages vers le bas et vers la droite du flux vidéo traité par rapport au flux vidéo d'origine. Le décalage de «huit lignes de trame vers le bas» n'est pas envisagé car des observations empiriques ont montré que très peu de systèmes vidéo déplacent l'image vers le bas. La meilleure évaluation précédente du décalage spatial (c'est-à-dire associé à une trame traitée précédemment) est également incluse comme cinquième décalage possible lorsqu'elle est disponible. Pour déterminer la trame d'origine correspondant le mieux à la trame traitée considérée, on utilise la technique de comparaison décrite au § 6.1.4.3. Le décalage temporel associé à la meilleure correspondance de trame d'origine devient le point de départ de l'étape suivante de l'algorithme, à savoir une recherche large du décalage spatial (§ 6.1.5.3). Conformément au système de coordonnées de la Fig. 21, un décalage temporel positif signifie que le flux vidéo traité a été décalé dans le sens temporel positif (c'est-à-dire que le flux vidéo traité est retardé par rapport au flux vidéo d'origine). En ce qui concerne les fichiers Big YUV d'origine et traité, un décalage temporel positif signifie donc que des trames doivent être éliminées au début du fichier Big YUV traité alors qu'un décalage temporel négatif signifie que des trames doivent être éliminées au début du fichier Big YUV d'origine.
6.1.5.3 Recherche large du décalage spatial
Compte tenu de l'alignement temporel déterminé par la recherche large du décalage temporel (voir le § 6.1.5.2), on procède alors à une recherche large du décalage spatial sur une plage plus limitée de trames d'origine. La plage des trames d'origine qui sont considérées pour cette recherche comprend la trame d'origine de meilleure correspondance qui est une trame une (voir le § 6.1.5.2) et les quatre trames d'origine les plus proches qui sont également des trames unes (trames unes des deux images qui précèdent et des deux images qui suivent la trame d'origine de meilleure correspondance). La recherche large du décalage spatial couvre la plage des décalages spatiaux donnée à la Fig. 25. Il est à noter que l'on envisage un moins grand nombre de décalages vers le bas (comme au § 6.1.5.2), car ceux-ci sont moins fréquents dans la pratique. On applique alors la technique de comparaison décrite au § 6.1.4.3 à l'ensemble de ces décalages spatiaux et de ces trames d'origine. Les meilleurs décalages temporel et spatial résultants servent alors d'évaluations améliorées pour l'étape suivante de l'algorithme décrite au § 6.1.5.4.
6.1.5.4 Recherche fine du décalage spatio-temporel
Pour la recherche fine, on utilise un ensemble beaucoup plus petit de décalages spatiaux centrés autour de l'évaluation courante de l'alignement spatial et uniquement cinq trames centrées autour de la trame d'origine de meilleure correspondance. Ainsi, si cette trame est une trame une, on inclut dans la recherche trois trames unes et deux trames deux. Les décalages spatiaux qui sont envisagés comprennent l'évaluation courante du décalage, les huit décalages d'un pixel et/ou d'une ligne par rapport à l'évaluation courante, les huit décalages de deux pixels et/ou de deux lignes par rapport à l'évaluation courante du décalage, et le décalage nul (voir la Fig. 26). Dans l'exemple présenté sur la Fig. 26, l'évaluation courante du décalage spatial pour le flux vidéo traité est un décalage de 7 lignes de trame vers le haut et de 12 pixels vers la droite par rapport au flux vidéo d'origine. L'ensemble des décalages spatiaux présenté sur la Fig. 26 constitue un ensemble local presque complet d'alignements spatiaux proches de l'évaluation courante de l'alignement spatial. Le décalage nul est inclus comme condition de sécurité afin d'empêcher l'algorithme d'errer et de converger vers un minimum local. On applique alors avec soin la technique de comparaison décrite au § 6.1.4.3 à l'ensemble de ces décalages spatiaux et de ces trames d'origine. Les meilleurs décalages temporel et spatial résultants servent alors d'évaluations améliorées pour l'étape suivante de l'algorithme décrite au § 6.1.5.5.
6.1.5.5 Recherches fines répétées
Lorsqu'on procède à une itération de la recherche fine décrite au § 6.1.5.4, l'évaluation courante du décalage spatial se rapproche du décalage spatial réel ou (plus rarement) d'un faux minimum. De même, lorsqu'on procède à une telle itération, l'évaluation courante de la trame d'origine de meilleure correspondance se rapproche de la trame d'origine de meilleure correspondance réelle ou (plus rarement) d'un faux minimum. Ainsi, chaque recherche fine rapproche ces évaluations d'une valeur stable. Comme les recherches fines portent sur une zone très limitée spatialement et temporellement, elles doivent être répétées afin de s'assurer que la convergence a été atteinte. En cas d'utilisation de la compensation de gain, le gain de la trame traitée est réévalué à chaque recherche fine (voir le § 6.1.4.2).
Les recherches fines portant sur la trame traitée (voir le § 6.1.5.4) sont répétées jusqu'à ce que le meilleur décalage spatial et la trame d'origine associée à ce décalage spatial restent inchangés d'une recherche à la suivante. On cesse de répéter les recherches fines si l'algorithme alterne entre deux décalages spatiaux (par exemple un décalage horizontal de 3 puis un décalage horizontal de 4, toutes les autres grandeurs gardant les mêmes valeurs). Cette alternance apparaît lorsque la meilleure évaluation courante du décalage spatial et la trame d'origine associée à ce décalage spatial sont identiques à celles qui ont été déterminées deux itérations avant.
Parfois, les recherches répétées ne parviennent pas à converger. En l'absence de convergence au bout d'un certain nombre maximal d'itérations demandées, l'algorithme est arrêté et une condition «d'échec de la détermination du décalage» est signalée pour cette trame traitée. Ce cas particulier ne pose généralement pas de problème car de multiples trames traitées sont examinées pour chaque scène (voir le § 6.1.5.6) et de multiples scènes sont examinées pour chaque HRC (voir le § 6.1.5.7).
6.1.5.6 Algorithme pour une scène donnée
On commence par calculer une évaluation de base (de départ) du décalage vertical, du décalage horizontal et de l'alignement temporel sans compensation de gain comme suit. On saute les premières images du fichier Big YUV traité correspondant à l'incertitude temporelle, U. Une recherche large du décalage temporel est appliquée à la trame traitée suivante qui est une trame une (voir le § 6.1.5.2). Il est à noter que cette recherche large porte sur les U ×ð 2 +ð 1 premières images de la séquence vidéo d'origine afin de trouver la trame une de meilleure correspondance. On procède alors à une recherche large du décalage spatial, centrée sur cette trame d'origine de meilleure correspondance (voir le § 6.1.5.3). On procède ensuite à un maximum de cinq recherches fines afin d'affiner les évaluations du décalage spatial et du décalage temporel (voir les § 6.1.5.4 et 6.1.5.5). Si ces recherches fines répétées n'aboutissent pas à un résultat stable, on élimine cette trame traitée de l'ensemble des trames considérées. On répète la procédure ci-dessus pour chaque image correspondant à une certaine fréquence, F, jusqu'à ce qu'on trouve une trame d'origine qui soit une trame une et qui produise des résultats stables. L'évaluation de base sera mise à jour régulièrement, comme décrit cidessous.
Les évaluations du décalage spatial sont calculées pour les deux trames d'une image du fichier Big YUV traité comme suit. En utilisant l'évaluation de base comme point de départ, on applique un maximum de trois recherches fines à la première trame traitée qui est une trame une. Si l'évaluation de base est correcte ou pratiquement correcte, les recherches fines répétées conduiront à un résultat stable. Si c'est le cas, le décalage spatial et le décalage temporel pour cette trame traitée sont stockés dans une matrice réservée au stockage des résultats relatifs aux trames unes. Si aucun résultat stable n'est trouvé, il est très probable que le décalage spatial est correct mais que l'évaluation du décalage temporel est aberrante (c'est-à-dire qu'elle est éloignée de plus de deux images du décalage temporel réel). On procède alors à une recherche large du décalage temporel qui inclut la meilleure évaluation courante du décalage spatial. Cette recherche large permet généralement de corriger l'évaluation du décalage temporel. Lorsque cette recherche est terminée, son résultat est utilisé comme point de départ et on procède à un maximum de cinq recherches fines répétées. Si cette deuxième série de recherches fines n'aboutit pas à un résultat stable, on signale alors un échec d'alignement spatial pour l'image considérée (c'est-à-dire à la fois pour la trame une et pour la trame deux). Si cette deuxième série aboutit à un résultat stable, le décalage spatial et le décalage temporel pour cette trame sont stockés dans la matrice des trames unes. Par ailleurs, le décalage spatial et le décalage temporel utilisés comme point de départ pour la trame traitée suivante qui est une trame une sont mis à jour (autrement dit, on utilise les résultats de base pour la première trame traitée et, ensuite, on utilise le dernier résultat stable). Une fois que le décalage spatial a été évalué pour la première trame traitée qui est une trame une, on évalue le décalage spatial pour la première trame traitée qui est une trame deux. En utilisant les résultats spatiaux de la trame une comme point de départ, on applique les mêmes étapes pour trouver le décalage spatial de la trame deux (c'est-à-dire les trois recherches fines et, si nécessaire, une recherche large du décalage temporel suivie par cinq recherches fines répétées). Si un résultat stable est trouvé pour la trame deux, on stocke le décalage vertical et le décalage horizontal de la trame deux dans une matrice différente qui est réservée au stockage des résultats pour les trames deux.
On applique la procédure décrite dans le paragraphe ci-dessus pour évaluer le décalage spatial des deux trames de chaque image correspondant à la fréquence F du fichier Big YUV qui contient la séquence vidéo traitée. On saute les premières images du fichier Big YUV traité correspondant à l'incertitude temporelle, U. On utilise alors cette séquence d'évaluations pour calculer une évaluation robuste du décalage spatial pour chaque type de trame de la scène considérée. On trie les résultats de décalage vertical de la trame une de chaque image et on retient la valeur du 50ème percentile comme valeur globale du décalage vertical pour les trames unes. De même, on trie les résultats de décalage vertical de la trame deux de chaque image et on retient la valeur du 50ème percentile comme valeur globale du décalage vertical pour les trames deux. On trie les résultats de décalage horizontal de la trame une de chaque image et on retient la valeur du 50ème percentile comme valeur globale du décalage horizontal. Toute différence entre le décalage horizontal des trames unes et celui des trames deux est très probablement due à un décalage horizontal sous-pixel (par exemple un décalage horizontal de 0,5 pixel). Les décalages horizontaux sous-pixel conduisent à des évaluations qui incluent les deux décalages les plus proches. L'utilisation de la valeur du 50ème percentile permet de choisir le décalage horizontal le plus probable, conduisant à une précision de l'alignement spatial à 0,5 pixel près4.
6.1.5.7 Algorithme pour un HRC donné
Si plusieurs scènes sont passées par le même HRC, les résultats de l'alignement spatial pour chaque scène devraient être identiques. Ainsi, le filtrage des résultats obtenus pour de multiples scènes permet d'augmenter la robustesse et la précision des mesures du décalage spatial. On peut alors utiliser les résultats globaux d'alignement spatial obtenus pour le HRC considéré pour procéder à une compensation pour toutes les séquences vidéo traitées par ce HRC.
6.1.5.8 Commentaires concernant l'algorithme
Certaines scènes vidéo ne conviennent pas vraiment pour l'évaluation de l'alignement spatial. L'algorithme décrit aura parfois pour résultat un faux minimum. D'autres fois, il errera entre plusieurs solutions et ne donnera jamais de résultat stable. C'est pourquoi il est conseillé d'examiner de multiples images d'une même scène et de déterminer la valeur médiane (c'est-à-dire de trier les résultats de la valeur la plus faible à la valeur la plus élevée et de choisir la valeur du 50ème percentile) de ces résultats sur plusieurs scènes. L'algorithme d'alignement spatial fondé sur des scènes est un algorithme heuristique utilisant les décalages spatiaux qui ont été observés pour un échantillon de systèmes vidéo. Ces hypothèses peuvent être incorrectes pour certains systèmes, auquel cas l'algorithme détermine un décalage spatial incorrect. Toutefois, lorsque l'algorithme donne des résultats incorrects, il a tendance à produire des décalages spatiaux qui sont incohérents d'une image à l'autre et d'une scène à l'autre (autrement dit, lorsque l'algorithme donne des résultats incorrects, il produit généralement des résultats épars). Lorsque l'algorithme a pour résultat le même décalage spatial ou des décalages spatiaux très semblables pour chaque scène, cela indique un niveau de confiance élevé. En cas de résultats épars pour les trames d'une scène donnée, cela indique un niveau de confiance faible.
6.1.6 Alignement spatial d'un flux vidéo avec balayage progressif
L'alignement spatial d'un flux vidéo avec balayage progressif suit le même algorithme que dans le cas d'un flux vidéo avec balayage à entrelacement, avec quelques légères modifications. L'algorithme dans le cas du balayage avec entrelacement s'applique séparément à la trame une et à la trame deux, alors que l'algorithme dans le cas du balayage progressif s'applique à l'image entière. Ainsi, il faut ignorer toutes les mentions de trame deux et, à l'exception des recherches fines, il faut doubler la plage des décalages verticaux.
La modification de la plage des décalages verticaux est particulièrement importante pour la recherche large du décalage spatial. Pour une telle recherche (voir le § 6.1.5.3), il faut doubler les nombres sur l'axe vertical de la Fig. 25 (par exemple +8 devient +16 et 4 devient 8)5. Par ailleurs, dans le cas des images CIF et QCIF à balayage progressif, les plages de décalage horizontal et de décalage vertical utilisées pour les recherches larges sont réduites de moitié car les décalages observés avec ces formats d'image sont généralement plus petits. Par exemple, dans le cas d'images CIF, l'axe horizontal de la Fig. 25 irait de 6 à +6 pixels et l'axe vertical irait de 8 à +8 lignes d'image.
La plage utilisée pour la recherche du décalage temporel, spécifiée en nombre d'images, reste essentiellement la même. Pour la recherche large du décalage temporel décrite au § 6.1.5.2, au lieu de comparer une trame traitée une avec une trame d'origine une sur deux, l'algorithme dans le cas du balayage progressif compare une image traitée avec une image d'origine sur deux. Concernant l'algorithme pour la mire chromatique, la recherche examine les décalages spatiaux entre une seule image traitée et une seule image d'origine (autrement dit il n'y a pas de recherche de décalage temporel).
La seule étape qui nécessite des modifications plus complexes est l'étape de recherche fine du § 6.1.5.4. Dans cette étape, les décalages verticaux restent inchangés, compris entre 2 lignes d'image et +2 lignes d'image. Ainsi, les nombres représentés sur l'axe vertical de la Fig. 26 sont interprétés comme étant des nombres de lignes d'image. On peut définir la plage des décalages temporels pour cette recherche fine comme comprenant les cinq images d'origine centrées sur l'image d'origine courante, au lieu des trois images d'origine susmentionnées. Une plage de cinq images peut améliorer la vitesse et l'efficacité de la recherche fine par rapport à l'algorithme dans le cas du balayage à entrelacement, car les HRC à balayage progressif ont davantage tendance à engendrer des retards vidéo plutôt que des décalages spatiaux non nuls.
Lorsqu'on examine les modifications à apporter à l'algorithme utilisé pour les systèmes vidéo à balayage progressif, il est possible de modifier de nombreux paramètres utilisés pour la recherche du décalage spatial sans compromettre l'intégrité de l'algorithme. Considérons, à titre d'exemple, les décalages spatiaux autres que zéro pixel et zéro ligne utilisés pour la recherche large du décalage temporel. Le décalage spatial de zéro pixel horizontalement et de 8 lignes de trame verticalement utilisé pour les systèmes à balayage à entrelacement peut être porté à 16 lignes d'image pour les systèmes à balayage progressif, comme recommandé plus haut, ou fixé à 8 lignes d'image, si on suppose qu'il est peu probable que des séquences vidéo à balayage progressif contiennent un décalage vertical de 16 lignes d'image. De même, un décalage spatial de zéro ligne verticalement et de 8 pixels horizontalement peut être porté à 9 ou 10 pixels horizontalement sans effets préjudiciables. Autre exemple: le nombre exact de répétitions de la recherche fine peut être augmenté ou diminué pour des applications particulières. Les valeurs exactes recommandées ici sont nettement moins élevées que dans la structure réelle de l'algorithme de recherche.
6.2 Région valable
Les séquences vidéo NTSC (525 lignes) et PAL (625 lignes) échantillonnées conformément à la Recommandation UITR BT.601 sont susceptibles d'avoir une bordure de pixels et de lignes qui ne contient pas d'information d'image. Il est possible que la séquence vidéo d'origine saisie par la caméra ne remplisse qu'une partie de l'image telle qu'elle est définie dans la Recommandation UITR BT.601. Un système vidéo numérique qui utilise une compression risque de réduire encore la zone de l'image afin de réduire le nombre de bits transmis. Si les pixels et les lignes qui ne sont pas transmis se trouvent dans la zone de surbalayage de l'image de télévision, l'utilisateur final ne devrait pas remarquer qu'il manque des lignes et des pixels. Si les pixels et les lignes qui ne sont pas transmis dépassent la zone de surbalayage, l'observateur pourra remarquer une bordure noire tout autour de l'image, car le système insérera généralement du noir dans cette zone d'image non transmise. Les systèmes vidéo (notamment ceux qui procèdent à un filtrage passe-bas) risquent de causer une avancée de la bordure noire dans la zone d'image. La plupart du temps, ces effets transitoires ont lieu à gauche et à droite de l'image mais ils peuvent aussi avoir lieu en haut ou en bas. Par ailleurs, la séquence vidéo traitée peut parfois contenir plusieurs lignes de données vidéo altérées en haut ou en bas de l'image que l'observateur ne verra pas nécessairement (les magnétoscopes VHS altèrent plusieurs lignes en bas de l'image dans la zone de surbalayage). Afin d'éviter que les zones ne contenant pas d'information d'image aient une incidence sur les mesures de la qualité VQM, il convient d'exclure ces zones de ces mesures. L'algorithme automatisé de la région valable présenté ici évalue la région valable du flux vidéo d'origine et du flux vidéo traité de sorte que, pour les calculs suivants, on ne tienne pas compte des lignes altérées en haut et en bas de l'image telle qu'elle est définie dans la Recommandation UITR BT.601, des pixels de la bordure noire ou des effets transitoires où la bordure noire avance dans la zone d'image.
6.2.1 Algorithme principal de la région valable
Le présent paragraphe décrit l'algorithme principal de la région valable qui est appliqué à une seule image d'origine ou traitée. Cet algorithme nécessite trois arguments d'entrée: une image, une région valable maximale et l'évaluation de la région valable courante.
Image: l'algorithme principal utilise l'image de luminance définie dans la Recommandation UITR BT.601 associée à une seule image vidéo. Pour la mesure de la région valable d'une séquence vidéo traitée, tout décalage spatial imposé par le système vidéo doit avoir été supprimé de l'image de luminance avant que l'algorithme principal ne soit appliqué (voir le § 6.1).
Région valable maximale: l'algorithme principal ne tiendra pas compte des pixels et des lignes qui se trouvent en dehors d'une région vidéo valable maximale. Cela permet à l'utilisateur de spécifier une région valable maximale qui est plus petite que la zone entière de l'image si des informations a priori indiquent que des pixels ou des lignes de l'image échantillonnée ont été altérés (voir le § 6.2).
Région valable courante: la région valable courante est une évaluation de la région valable qui est entièrement comprise dans la région valable maximale. Tous les pixels de la région valable courante contiennent une information vidéo valable; les pixels qui sont situés en dehors de cette région contiennent une information vidéo qui peut être soit valable soit non valable. Au départ, on prend, comme région valable courante, la plus petite zone possible située exactement au centre de l'image.
L'algorithme principal examine la zone vidéo comprise entre la région valable maximale et la région valable courante. Si certains de ces pixels contiennent une information vidéo valable, la région valable courante est élargie. L'algorithme est alors décrit en détail pour la partie gauche de l'image.
Etape 1: Calculer le niveau moyen de la colonne de pixels la plus à gauche de la région valable maximale. Cette colonne est désignée par J-1 et la moyenne est représentée par MJ-1.
Etape 2: Calculer le niveau moyen de la colonne de pixels suivante, MJ.
Etape 3: La colonne J est déclarée comme contenant des informations vidéo non valables si elle est noire (MJ ð 2) est donnée par:
EMBED Equation.3
où l'exposant, T, désigne la transposée de la matrice et l'exposant, 1, désigne l'inverse de la matrice.
Lorsque l'algorithme principal du gain et du décalage de niveau est appliqué de manière indépendante à chacun des trois canaux, six grandeurs sont évaluées: gain Y, décalage Y, gain CB, décalage CB, gain CR et décalage CR.
6.3.2 Utilisation de scènes
L'algorithme de base donné au § 6.3.1 peut être appliqué à des flux vidéo d'origine et traité sous réserve qu'ils aient été alignés spatialement et temporellement. Cette technique fondée sur les scènes subdivise l'image en blocs contigus de niveau d'intensité inconnu. Une taille de sous-région de 16 lignes ´ð 16 pixels est recommandée pour les images (c'est-à-dire 8 lignes ´ð 16 pixels pour une trame NTSC ou PAL Y; 8 lignes ´ð 8 pixels pour CB et CR en raison du sous-échantillonnage des plans de couleur). La moyenne dans l'espace des échantillons [Y, CB, CR] est calculée pour chaque sous-région ou bloc d'origine et sous-région ou bloc traité correspondant, afin de former une image sous-échantillonnée spatialement. Tous les blocs choisis doivent se trouver dans la région PVR.
6.3.2.1 Alignement des images traitées
Dans un souci de simplicité, on suppose que le meilleur alignement spatial a déjà été déterminé au moyen de l'une des techniques présentées au § 6.1. Pour pouvoir évaluer le gain et le décalage de niveau, chaque image traitée doit être alignée temporellement. L'image d'origine qui correspond le mieux à l'image traitée doit être utilisée pour le calcul du gain et du décalage de niveau. Si le retard vidéo est variable, cet alignement temporel doit être opéré pour chaque image traitée. Si le retard vidéo est constant pour la scène, il n'est nécessaire d'opérer l'alignement temporel qu'une seule fois.
Pour aligner temporellement une image traitée, on commence par créer les trames d'origine et traitée sous-échantillonnées spatialement (ou les images dans le cas du balayage progressif) comme spécifié au § 6.3.2, après avoir corrigé le décalage spatial du flux vidéo traité. En utilisant les images Y sous-échantillonnées, on applique la fonction de recherche donnée au § 6.1.4.3, à l'exception d'effectuer cette recherche en utilisant toutes les images d'origine correspondant à l'incertitude d'alignement temporel, U. On utilise le meilleur alignement temporel résultant pour les trois plans d'image, Y, CB et CR.
6.3.2.2 Gain et décalage de niveau des images alignées
On utilise une solution itérative donnée par les moindres carrés avec une fonction de coût afin de réduire au minimum le poids des valeurs aberrantes dans l'ajustement. En effet, les valeurs aberrantes sont généralement dues à des distorsions et non à de simples modifications du décalage de niveau et du gain, de sorte que l'attribution d'un poids égal à ces valeurs aberrantes conduirait à une distorsion de l'ajustement.
L'algorithme suivant est appliqué séparément aux N pixels d'origine et traités correspondants issus de chacune des trois images sous-échantillonnées spatialement [Y, CB, CR].
Etape 1: Utiliser la solution normale donnée par les moindres carrés (voir le § 6.3.1) pour générer l'évaluation initiale du décalage de niveau et du gain: EMBED Equation.3.
Etape 2: Générer un vecteur d'erreur, E, qui est égal à la valeur absolue de la différence entre les échantillons traités réels et les échantillons traités ajustés: EMBED Equation.3.
Etape 3: Générer un vecteur de coût, C, dont chaque élément est le réciproque de l'élément correspondant du vecteur d'erreur, E, plus un petit epsilon, (: EMBED Equation.3. ( permet d'éviter la division par zéro et définit le poids relatif d'un point qui est sur la courbe ajustée par rapport au poids d'un point qui est en dehors de cette courbe. Il est recommandé d'utiliser une valeur de 0,1 pour (.
Etape 4: Normaliser le vecteur de coût C (autrement dit, on divise chaque élément de C par la racine carrée de la somme des carrés de tous les éléments de C).
Etape 5: Générer le vecteur de coût C 2 dont chaque élément est le carré de l'élément correspondant du vecteur de coût C issu de l'Etape 4.
Etape 6: Générer une matrice de coût diagonale N ( N, C 2, qui contient les éléments du vecteur de coût, C 2, sur la diagonale et des zéros partout ailleurs.
Etape 7: En utilisant la matrice de coût diagonale, C 2, issue de l'Etape 6, procéder à un ajustement par les moindres carrés avec pondération par le coût pour déterminer l'évaluation suivante du décalage de niveau et du gain: EMBED Equation.3.
Etape 8: Répéter les Etapes 2 à 7 jusqu'à ce que les évaluations du décalage de niveau et du gain convergent à la quatrième décimale près.
Ces étapes sont appliquées séparément à la trame traitée une et à la trame traitée deux, ce qui donne deux évaluations de g et deux évaluations de l. Il faut examiner séparément la trame une et la trame deux, car les trames d'origine alignées temporellement ne correspondent pas nécessairement à une même image dans la séquence vidéo d'origine. Dans le cas des systèmes vidéo à balayage progressif, les étapes ci-dessus sont appliquées à l'image traitée tout entière.
6.3.2.3 Evaluation du gain et du décalage de niveau pour une séquence vidéo et un HRC
L'algorithme décrit ci-dessus est appliqué à plusieurs couples trame d'origine-trame traitée correspondante répartis tout au long de la scène avec une certaine fréquence (dans le cas des systèmes vidéo à balayage progressif, on utilise des couples image d'origine-image traitée). On détermine alors la valeur médiane de chacun des six historiques temporels de décalages de niveau et de gains pour produire des évaluations moyennes pour la scène.
Si plusieurs scènes passent par le même HRC, le décalage de niveau et le gain pour chaque scène seront considérés comme identiques. Ainsi, les valeurs médianes obtenues à partir de plusieurs scènes permettent d'augmenter la robustesse et la précision des mesures de décalage de niveau et de gain. On peut alors utiliser les résultats globaux de décalage de niveau et de gain obtenus pour le HRC considéré pour procéder à une compensation pour tous les flux vidéo traités par ce circuit.
6.3.3 Application des corrections de gain et de décalage de niveau
Pour les algorithmes d'alignement temporel (voir le § 6.4) et pour l'extraction de la plupart des caractéristiques de qualité (voir le § 7), il convient de supprimer le gain calculé ici. Pour supprimer le gain et le décalage de niveau du plan Y, on applique la formule suivante à chaque pixel traité:
EMBED Equation.3
Le gain et le décalage de niveau des plans de couleur (CB et CR) ne sont pas corrigés. A la place, on mesure les erreurs de chrominance perçues. Le gain et le décalage de niveau des plans d'image CB et CR peuvent être corrigés à des fins d'affichage.
6.4 Alignement temporel
Les systèmes de communication vidéo numériques modernes ont généralement besoin de plusieurs dixièmes de seconde pour traiter et transmettre le flux vidéo de la caméra au dispositif de visualisation. Des retards vidéo excessifs empêchent d'avoir une communication bidirectionnelle efficace. Les méthodes de mesure objective du retard de bout en bout pour les communications vidéo sont donc importantes pour les utilisateurs finals afin de pouvoir spécifier et comparer les services ainsi que pour les fournisseurs d'équipements/de services afin de pouvoir optimiser et mettre à jour leurs offres de produits. Le retard vidéo peut dépendre des attributs dynamiques de la scène d'origine (par exemple détail spatial, mouvement) et du système vidéo (par exemple débit binaire). A titre d'exemple, le retard vidéo risque d'être plus grand pour des scènes comportant beaucoup de mouvements que pour des scènes en comportant peu. Les mesures du retard vidéo devraient donc être faites en service afin d'être vraiment représentatives et précises. Il est nécessaire d'évaluer le retard vidéo pour pouvoir aligner temporellement les caractéristiques vidéo du flux d'origine et du flux traité (voir la Fig. 19) avant de procéder aux mesures de la qualité.
Certains systèmes de transmission vidéo peuvent fournir des informations de synchronisation temporelle (les images d'origine et traitées peuvent par exemple être étiquetées au moyen d'un certain type de système de numérotation d'image). Toutefois, la synchronisation temporelle entre le flux vidéo d'origine et le flux vidéo traité doit généralement être mesurée. Le présent paragraphe expose une technique permettant d'évaluer le retard vidéo sur la base des images vidéo d'origine et des images vidéo traitées. La technique est «fondée sur les images» en ce sens qu'elle consiste à corréler des images à plus faible résolution, sous-échantillonnées dans l'espace et extraites des flux vidéo d'origine et traité. Cette technique fondée sur les images évalue le retard de chaque image ou de chaque trame (dans le cas des systèmes vidéo avec balayage à entrelacement). On combine ces différentes évaluations pour évaluer le retard moyen pour la séquence vidéo.
6.4.1 Algorithme fondé sur les images pour évaluer les décalages temporels variables entre une séquence vidéo d'origine et une séquence vidéo traitée
Le présent paragraphe décrit un algorithme d'alignement temporel fondé sur les images. Pour réduire l'influence des distorsions sur l'alignement temporel, les images sont sous-échantillonnées spatialement et normalisées de manière à avoir une variance unitaire. Cet algorithme permet d'aligner temporellement chaque image traitée séparément, en localisant l'image d'origine la plus analogue. Certaines de ces différentes mesures d'alignement temporel peuvent être incorrectes mais les erreurs ont tendance à être distribuées aléatoirement. Lorsqu'on attribue les mesures du retard issues d'une série d'images au moyen d'un système de vote, on obtient une évaluation globale du retard moyen d'une séquence vidéo relativement précise. Cet algorithme d'alignement temporel n'utilise pas les parties fixes ou pratiquement sans mouvement de la scène, car les images d'origine sont pratiquement identiques les unes aux autres.
6.4.1.1 Constantes utilisées par l'algorithme
BELOW_WARN: Seuil utilisé lors de l'examen des corrélations afin de décider si un maximum de corrélation secondaire est suffisamment grand pour indiquer un alignement temporel ambigu. Il est recommandé d'utiliser une valeur de 0,9 pour BELOW_WARN.
BLOCK_SIZE: Facteur de sous-échantillonnage, spécifié en nombre de lignes d'image verticalement et en nombre de pixels horizontalement. Il est recommandé d'utiliser une valeur de 16 pour BLOCK_SIZE.
DELTA: Les maximums secondaires de la courbe de corrélation qui sont éloignés de moins de DELTA de la (meilleure) corrélation maximale sont ignorés. Il est recommandé d'utiliser une valeur de 4 pour DELTA.
HFW: La moitié de la largeur du filtre utilisé pour lisser l'histogramme des valeurs d'alignement temporel associées à chaque image. Il est recommandé d'utiliser une valeur de 3 pour HFW.
STILL_THRESHOLD: Seuil utilisé pour détecter les scènes vidéo fixes (l'alignement temporel fondé sur les images ne peut pas être utilisé pour des scènes vidéo fixes). Il est recommandé d'utiliser une valeur de 0,002 pour STILL_THRESHOLD.
6.4.1.2 Variables d'entrée de l'algorithme
Une séquence de N images de luminance du flux vidéo d'origine: YO (t), 0 ( t