Iterativna optimizacija ocen kakovosti slikovnih podatkov v sistemih za razpoznavanje obrazov

Žiga Babnik, Vitomir Štruc
Abstract

Iterative Optimization of Pseudo Ground-Truth Face Image Quality Labels While recent face recognition (FR) systems achieve excellent results in many deployment scenarios, their performance in challenging real-world settings is still under question. For this reason, face image quality assessment (FIQA) techniques aim to support FR systems, by providing them with sample quality information that can be used to reject poor quality data unsuitable for recognition purposes. Several groups of FIQA methods relying on different concepts have been proposed in the literature, all of which can be used for generating quality scores of facial images that can serve as pseudo ground-truth (quality) labels and can be exploited for training (regression-based) quality estimation models. Several FIQA approaches show that a significant amount of sample-quality information can be extracted from mated similarity-score distributions generated with some face matcher. Based on this insight, we propose in this paper a quality label optimization approach, which incorporates sample-quality information from mated-pair similarities into quality predictions of existing off-the-shelf FIQA techniques. We evaluate the proposed approach using three state-of-the-art FIQA methods over three diverse datasets. The results of our experiments show that the proposed optimization procedure heavily depends on the number of executed optimization iterations. At ten iterations, the approach seems to perform the best, consistently outperforming the base quality scores of the three FIQA methods, chosen for the experiments.

thanks: Podprto s strani ARRS raziskovalnega programa P2–0250 (B), ter ARRS programom mladih raziskovalcev. \affiliation

Univerza v Ljubljani, Fakulteta za Elektrotehniko, Tržaška cesta 25, 1000 Ljubljana, Slovenija

\email

{ziga.babnik, vitomir.struc}@fe.uni-lj.si

1 Uvod

Moderni sistemi za razpoznavanje obrazov dosegajo izvrstne rezultate, tudi na večjih, ter bolj težavnih podatkovnih zbirkah obraznih slik, kot je recimo zbirka IARPA Janus Benchmark-C (IJB-C) [11]. Vendar je prenos izjemnih rezultatov v realni svet, za naloge kot je video nadzor, zaradi slabe kakovosti slikovnih podatkov zaenkrat še neuresničljiv. Za lažje uresničevanje doseganja dobrih in zanesljivih rezultatov obraznih razpoznavalnikov, se je pojavilo raziskovalno področje ocenjevanja kakovosti obraznih slik (angl. Face Image Quality Assessment - FIQA), ki skuša oceniti biometrično kakovost vzorca za namene razpoznavanja [9]. Biometrična kakovost je pogosto definirana kot koristnost oz. primernost vzorca za namene obdelave v sodobnih sistemih za razpoznavanje obrazov  [13]. Biometrična kakovost je torej tesno povezana z vizualno kakovostjo vzorca, a ji ni povsem enaka.

Obstaja več skupin pristopov ocenjevanja (biometrične) kakovosti obraznih slik. Najbolj razširjena skupina se poslužuje ustvarjanja psevdo referenčnih vrednosti kakovosti večjega nabora vzorcev. Referenčne vrednosti nato uporabijo za učenje regresijskih modelov, sposobnih samostojnega napovedovanja ocen kakovosti [8, 6, 16, 4]. V zadnjem času se pojavljajo tudi metode, ki združujejo nalogo razpoznavanja obrazov in ocenjevanja kakovosti [12, 14], ter analitični postopki, ki za oceno kakovosti uporabijo zgolj karakteristike vhodnega vzorca in lastnosti izbranega razpoznavalnika [15, 1].

Pristope iz katerekoli zgoraj omenjene skupine je mogoče uporabiti tudi za razvoj FIQA metod z nadzorovanim učenjem. V tem primeru za večji nabor obraznih slik s pomočjo izbrane FIQA metode pridobimo ocene (psevdo) referenčnih oznak kakovosti, le-te pa nato uporabimo za učenje modela za ocenjevanje kakovosti. Pri tem lahko pridobljene ocene kakovosti pred učenjem obogatimo in izboljšamo s pomočjo dodatnih zunanjih informacij, kot je recimo porazdelitev podobnosti med ujemajočimi se pari obraznih slik (v smislu identitete). Mnogi obstoječi FIQA pristopi namreč kažejo na dejstvo, da podobnost takšnih parov vsebuje precejšnjo količino informacij o sami kakovosti posameznih vzorcev [6, 4]. Na podlagi predstavljene ideje v tem članku predstavimo pristop za (iterativno) izboljševanje začetnih ocen kakovosti obraznih slik, ustvarjenih z izbranim FIQA modelom, ki temelji na vključevanju dodatnih informacij, pridobljenih iz primerjav ujemajočih se slik obrazov. Izboljšane ocene lahko nato uporabimo v postopku nadzorovanega učenja regresijske mreže za ocenjevanje kakovosti obraznih slik.

2 Pregled področja

V tem razdelku predstavimo tri glavne skupine FIQA metod, ki jih lahko razdelimo v: analitične, regresijske ter mrežne pristope. Podrobnejši pregled področja je predstavljen v nedavnem preglednem članku [13].

Analitični pristopi temeljijo na izločanju ocene kakovosti iz informacije prisotne v samem vzorcu. Zaradi tega se pretežno osredotočajo na vizualno kakovost in pogostjo ne dosegajo konkurenčnih rezultatov v primerjavi z najnaprednejšimi rešitvami iz literature. Starješi pristop, ki so ga predstavili Gao et al. [7] poskuša pridobiti oceno kakovosti slikovnih podatkov z ocenjevanjem obrazne simetrije. Pred kratkim sta se pojavila dva pristopa, ki poleg karakteristik slik hkrati upoštevata tudi informacijo izbranega razvrščevalnika, in tako dosegata vrhunske rezultate. Prvi pristop, ki so ga predstavili Terhörst et al. [15], se zanaša na uporabo izpustnih slojev mrež, medtem ko drugi, predlagan s strani Babnika et al. [1], za oceno kakovosti izrablja nasprotniške pristope.

Regresijski pristopi predstavljajo najštevilčnejšo skupino FIQA metod, ki temeljijo na učenju regresijksih modelov za ocenjevanje kakovosti iz pridelanih psevdo referenčnih oznak kakovosti vzorcev. Eden izmed začetnih postopkov iz te skupine, Ortege et al. [8], uči regresijsko nevronsko mrežo, z uporabo oznak, pridobljenih s primerjavo vložitev najkakovostnejši sliki vsakega posameznika. Pri tem se najkakovostnejše slike posameznikov izloči s pomočjo zunanjega orodja za preverjanje kakovosti. Naprednješi pristop, ki so ga predlagali Ou et al. [6], za napoved referenčnih oznak kakovosti uporabi podobnosti tako ujemajočih kot tudi neujemajočih se parov obraznih slik in s tem pridela koristnejše ocene kakovosti za učenje regresijskega FIQA modela.

Mrežni pristopi največkrat združijo nalogi razpoznavanja ter ocenjevanja kakovosti in se naučijo preslikave vhodnih slik v posebne vložitve, iz katerih je možno izločiti informacijo o identiteti, kot tudi informacijo o kakovosti vzorca. Starejši pristop avtorjev Shi in Jain [14] se nauči napovedati dvojice vektorjev, kjer prvi – povprečni vektor vsebuje informacijo o identiteti, drugi – vektor odklona, iz katerega je možno izraziti kakovost vzorca, pa se navezuje na nedoločenost povprečnega vektorja. Novejši pristop, predlagan s strani Meng et al. [12], za potrebe učenja razpoznavalnika obrazov uporabi prirejeno ArcFace funkcijo izgube, ki vključuje tudi informacijo o kakovosti vhodnega vzorca.

3 Metodologija

Poglavitna naloga metod za oceno kakovosti obraznih slik je zajetje čim večje količine informacij o koristnosti oz. primernosti vzorca za biometrično razpoznavanje v končno oceno kakovosti. Mnoge raziskave kažejo na dejstvo, da podobnosti ujemajočih se parov obraznih slik vsebujejo velike količine informacij o kakovosti vzorca, zato v tem razdelku predstavimo pristop, ki na podlagi teh informacij, iterativno optimizira predhodne napovedi kakovosti slikovnih vzorcev. Izboljšane ocene kakovosti lahko nato uporabimo v postopku učenja regresijske mreže za ocenjevanje kakovosti obraznih slik.

3.1 Pregled pristopa

Predpostavimo poljuben FIQA pristop za oceno kakovosti obraznih slik , ki za podani obrazni vzorec vrne oceno kakovosti , večjo podatkovno zbirko obraznih slik , ki vsebuje slike različnih posameznikov, ter ciljni obrazni razpoznavalnik . Cilj našega pristopa je pridobiti optimizirane ocene kakovosti , z iterativnim posodabljanjem osnovnih ocen kakovosti , ki nam jih vrne pristop za oceno kakovosti , na podlagi informacij pridobljenih iz porazdelitve podobnosti ujemajočih se slik obrazov , kjer je število upoštevanih primerjav slik.

3.2 Inicializacija pristopa

Preden lahko izvedemo optimizacijo ocen, jih je potrebno najprej pridobiti. Zato uporabimo izbran pristop in ga izvedemo nad celotno zbirko podatkov . Tako pridobimo osnovne ocene , ki jih nato normiramo na interval . Prav tako potrebujemo vnaprej ustvarjene vložitve celotne zbirke , tj. , ki jih pridobimo s pomočjo razpoznavalnika obrazov .

Na podlagi izbranega nabora in pripadajočega seznama identitet , zgradimo seznam ujemajočih se slik, tako da za vsak vzorec iz zbirke izberemo naključnih vzorcev iste identitete. Za posamezen pristni par vzorcev , kjer velja , nato izračunamo podobnost z uporabo kosinusne podobnosti:

(1)

kjer sta ter vložitvi prej omenjenih vzorcev. Izračunane podobnosti ležijo na intervalu , zato jih podobno kot ocene kakovosti normiramo na interval . Z izračunom podobnosti med vsemi pristnimi dvojicami lahko ustvarimo porazdelitev podobnosti pristnih dvojic . Za lažje razumevanje nadaljnjih korakov je potrebno izpostaviti še definicijo kakovosti para slik , ki je pogosto uporabljena na področju ocenjevanja kakovosti:

(2)

ki pravi, da je kakovost para kar enaka kakovosti slabše slike v paru.

3.3 Iterativna optimizacija

Po inicializaciji podobnosti pristnih dvojic , torej parov slik, ki pripadajo isti osebi, lahko izvedemo posamezno iteracijo predlaganega pristopa. Prvi korak vključuje izračun korekcijskega faktorja vzorca :

(3)

kjer je pristni par . Pri izračunu uporabimo samo pare za katere velja

(4)

da je ocena kakovosti prve slike manjša za več kot od ocene kakovosti druge slike . Zaradi prej omenjene definicije kakovosti para vzorcev, prikazane v Enačbi (2), ki pravi, da na kakovost para vzorcev vpliva le manj kakovostni vzorec v paru, uporabimo pri izračunu korekcijskega faktorja vzorca le pare, kjer nastopa kot manj kakovosten vzorec. Korekcijski faktor predstavlja oceno kakovosti vzorca , ki upošteva le informacijo prisotno iz porazdelitve pristnih parov. S pomočjo izračunanega korekcijskega faktorja lahko posodobimo trenutno kakovost vzorca posamezne slike kot

(5)

kjer je trenutna iteracija, ter vhodni parameter pristopa, ki določa velikost premika posamezne iteracije. S premikom osnovne ocene, proti vrednosti korekcijskega faktorja v oceno vključimo dodatno informacijo pridobljeno iz porazdelitve pristnih parov. Po izvedbi iteracij, pridobimo nove, optimizirane ocene kakovosti , kjer je .

Ker lahko z naključnim izbiranjem pristnih dvojic v pristop vnesemo pristranskost, celoten postopek ponovimo v ponovitvah. Tako končno oceno kakovosti izračunamo kot

(6)

kjer je množica optimiziranih ocen kakovosti -te ponovitve postopka.

4 Eksperimenti in rezultati

4.1 Zasnova eksperimentov

CPLFW CALFW XQLFW
M I

FaceQAN

0
5
10
15

CR-FIQA

0
5
10
15

SDD-FIQA

0
5
10
15
M - FIQA metoda , I - število iteracij
- najboljši rezultat, - najslabši rezultat
Tabela 1: Primerjava vrednosti površine pod krivuljo () za vse izbrane metode na treh izbranih podatkovnih zbirkah. Najslabši rezultat znotraj posamezne podatkovne zbirke, metode in deleža zavrnjenih slik je obarvan rdeče, najboljši zeleno.

Modeli in podatki. Za začetne ocene kakovosti obraznih slik smo uporabili tri napredne FIQA pristope : CR-FIQA111https://github.com/fdbtrs/CR-FIQA [2], FaceQAN222https://github.com/LSIbabnikz/FaceQAN [1] ter SDD-FIQA333https://github.com/Tencent/TFace/tree/quality [6]. Za potrebe učenja in testiranja smo izbrali obrazni razpoznavalnik ArcFace444https://github.com/deepinsight/insightface [5], ki temelji na ResNet100 arhitekturi, učeni z izgubo kotnega razmaka. Za učenje smo izbrali zbirko VGGFace2 [3], ki vsebuje približno milijone slik, različnih identitet, za testiranje pa zbirke: CPLFW [17], CALFW [18] ter XQLFW [10]. Podatkovna zbirka CPLFW se osredotoča na razlike v obrazni pozi, CALFW na razlike v starosti, XQLFW pa vsebuje obraze s širokim razponom v (vizualni) kakovosti slik.

Ovrednotenje zmogljivosti. Omenjeni razpoznavalnik ArcFace smo priredili za potrebe ocenjevanja kakovosti tako, da smo dodali regresijsko glavo in ga učili s pomočjo funkcije izgube. Učenje smo izvedli dvakrat, prvič na osnovnih/začetnih ocenah kakovosti in drugič na optimiziranih ocenah kakovosti vseh pristopov. Za potrebe primerjave zmogljivosti mrež učenih iz osnovnih in optimiziranih ocen smo uporabili ustaljen pristop krivulj zmote zoper zavrnitve, ki merijo stopnjo lažno negativnih parov pri vnaprej določeni vrednosti stopnje lažno pozitivnih parov kot funkcijo različnih stopenj zavrnitve slik zaradi nizke kakovosti [1]. Za pridobljene krivulje izračunamo ploščino pod krivuljo, kjer manjša vrednost namiguje na boljše ocene kakovosti. Za namene ovrednotenja optimizacijskega postopka, v članku prikažemo ploščino pod krivuljo pri različnih stopnjah zavrnitve.

Podrobnosti o implementaciji. Za zagotavljanje robustnih ocen kakovosti, smo s pomočjo preliminarnih eksperimentov določili za število ponovitev, pri čemer za vsako sliko v posamezni ponovitvi zgradimo pristnih parov. Hkrati tako zagotovimo robustnost ter omejimo časovno kompleksnost pristopa. Cilj samega pristopa je le natančnejša prilagoditev začetnih ocen kakovosti, zato izberemo in tako močno omejimo korak posamezne iteracije metode. Določimo še in tako dodatno kaznujemo pare slik, kjer sta kvaliteti pod zastavljeno mejo. Za število iteracij izberemo tri različne vrednosti , saj nas zanima učinek povečevanja števila iteracij na končne rezultate. Eksperimenti so izvedeni na namiznem računalniku z Intel i9-10900KF procesorjem, 64GB procesorskega pomnilnika ter z Nvidia 3090 grafično kartico, za izračun posamezne iteracije na podatkovni bazi VGGFace2, iz katere sestavimo okoli 33 milijonov pristnih parov, potrebujemo približno 540 sekund.

4.2 Primerjava dobljenih rezultatov

Tabela 1 prikazuje rezultate eksperimentov, natančneje, vrednosti površine pod krivuljo za vse tri izbrane pristope ocenjevanja kakovosti obraznih slik. Za realne aplikacije so bolj pomembni rezultati pri manjših deležih zavrnjenih slik, saj zaradi težav s kakovostjo ne želimo zavrniti prevelikega deleža slik. V tabeli 1 so zato prikazane vrednosti površin pri , , ter zavrnjenih slik. Posamezne vrstice rezultatov so označene s številom izvedenih iteracij, iteracij predstavlja osnovne rezultate pristopa brez optimizacije. Za lažjo predstavitev in interpretacijo rezultatov predstavimo tudi povprečno vrednost za vse stopnje izpuščenih slik – označeno z .

FaceQAN. Opazimo lahko, da FaceQAN najboljše rezultate v povprečju doseže pri desetih iteracijah, kjer pridobimo najboljše rezultate za zbirkah CPLFW ter CALFW. Na zbirki XQLFW pa boljše rezultate pristop doseže le še pri petih iteracijah. Kljub rezultatom na bazi XQLFW, metoda v povprečju preko vseh podatkovnih zbirk pridela najslabše rezultate prav pri petih iteracijah, ki so slabši tudi od osnovnih ocen kakovosti metode.

CR-FIQA. Rezultati pristopa CR-FIQA preko različnih podatkovnih zbirk kažejo zelo raznolike rezultate, ki so močno odvisni od karakteristik testnih podatkov. Za bazo CPLFW dosegajo najboljše rezultate ocene pri petnajstih iteracijah, za CALFW pri desetih in za XQLFW pri petih iteracijah. Z izjemo desetih iteracij na bazi CPLFW, dosegajo ocene desetih in petnajstih iteracij dosledno boljše rezultate kot osnovne ocene. Kljub izjemi na bazi CPLFW lahko opazimo, da najboljše rezultate v povprečju preko vseh zbirk dosegajo ocene desetih iteracij.

SDD-FIQA. Rezultati pristopa SDD-FIQA kažejo, da predstavljena metoda optimizacije uspe izboljšati ocene kakovosti v vseh primerih razen na podatkovni bazi CPLFW v primeru petnajstih iteracij, kjer je rezultat slabši od osnovnih ocen pristopa. Kjub temu, da v primeru desetih iteracij ne dosežemo najboljšega rezultata za nobeno izmed podatkovnih zbirk, so rezultati v tem primeru najboljši. Tesno sledijo rezultati petih in petnajstih iteracij, najslabše rezultate pa dosegajo osnovne ocene metode.

Primerjava med pristopi. Iz rezultatov je razvidno, da lahko z izbiro pravega števila iteracij pridobimo boljše ocene kakovosti na posamezni podatkovni zbirki, kot jih zagotavljajo osnovni FIQA pristopi. Izboljšava je sicer majhna, kar ni nepričakovano, saj je namen pristopa le optimizacija predhodnih ocen kakovosti vzorcev, a je lahko pomembna za realne sisteme razpoznavanja obrazov. V primeru izbire desetih iteracij, dobimo za skoraj vse kombinacije pristopov in podatkovnih zbirk boljše rezultate v primerjavi z osnovnimi ocenami. Medtem, ko so rezultati pri petih in petnajstih iteracijah močno odvisni od izbrane zbirke. V primeru zbirke XQLFW je očitna boljša izbira manjšega števila iteracij, za zbirko CALFW pa večje število iteracij.

5 Zaključek

V članku smo predstavili izviren postopek optimizacije predhodno izračunanih ocen kakovosti obraznih slik, ki skuša v začetne ocene kakovosti vnesti dodatno informacijo, pridobljeno iz distribucije podobnost ujemajočih se parov slik. Rezultati eksperimentov s tremi metodami za oceno kakovosti in tremi podatkovnimi zbirkami (CPLFW, CALFW in XQLFW) kažejo na močno odvisnost uspešnosti postopka od izbire števila iteracij optimizacije. V primeru manjšega števila iteracij, so rezultati za podatkovni zbirki CPLFW ter CALFW slabši od osnovnih ocen kakovosti. V primeru prevelikega števila iteracij se zgodba ponovi za zbirko XQLFW. Najboljše rezultate dosledno ustvari pristop pri desetih iteracijah, kjer so rezultati večinoma boljši od osnovnih ocen izbranih pristopov.

Literatura

  • [1] Ž. Babnik, P. Peer, and V. Štruc (2022) FaceQAN: Face Image Quality Assessment Through Adversarial Noise Exploration. In ICPR, Cited by: §1, §2, §4.1, §4.1.
  • [2] F. Boutros, M. Fang, M. Klemt, B. Fu, and N. Damer (2021) CR-fiqa: face image quality assessment by learning sample relative classifiability. External Links: 2112.06592 Cited by: §4.1.
  • [3] Q. Cao, L. Shen, W. Xie, O. M. Parkhi, and A. Zisserman (2018) Vggface2: a dataset for recognising faces across pose and age. In IEEE international conference on automatic face & gesture recognition (FG 2018), pp. 67–74. Cited by: §4.1.
  • [4] K. Chen, T. Yi, and Q. Lv (2021) LightQNet: lightweight deep face quality assessment for risk-controlled face recognition. IEEE Signal Processing Letters 28. Cited by: §1, §1.
  • [5] J. Deng, J. Guo, N. Xue, and S. Zafeiriou (2019) Arcface: Additive Angular Margin Loss for Deep Face Recognition. In CVF/IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4690–4699. Cited by: §4.1.
  • [6] O. Fu-Zhao, X. Chen, R. Zhang, Y. Huang, S. Li, J. Li, Y. Li, L. Cao, and W. Yuan-Gen (2021) SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance. In CVF/IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Cited by: §1, §1, §2, §4.1.
  • [7] X. Gao, S. Z. Li, R. Liu, and P. Zhang (2007) Standardization of face image sample quality. In International Conference on Biometrics, pp. 242–251. Cited by: §2.
  • [8] J. Hernandez-Ortega, J. Galbally, J. Fierrez, R. Haraksim, and L. Beslay (2019) FaceQnet: quality assessment for face recognition based on deep learning. In Proceedings of the IEEE International Conference on Biometrics (ICB), pp. 1–8. Cited by: §1, §2.
  • [9] ISO/IEC JTC 1/SC 37 Biometrics (2016) Information Technology - Biometric Sample Quality - Part 1: Framework. Standard Technical Report ISO/IEC 29794-1:2016, International Organization for Standardization. Cited by: §1.
  • [10] M. Knoche, S. Hoermann, and G. Rigoll (2021) Cross-quality lfw: a database for analyzing cross- resolution image face recognition in unconstrained environments. In 2021 16th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2021), Vol. , pp. 1–5. External Links: Document Cited by: §4.1.
  • [11] B. Maze, J. Adams, J. A. Duncan, N. Kalka, T. Miller, C. Otto, A. K. Jain, W. T. Niggel, J. Anderson, J. Cheney, et al. (2018) Iarpa janus benchmark-c: face dataset and protocol. In International Conference on Biometrics (ICB), pp. 158–165. Cited by: §1.
  • [12] Q. Meng, S. Zhao, Z. Huang, and F. Zhou (2021) Magface: a universal representation for face recognition and quality assessment. In CVF/IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14225–14234. Cited by: §1, §2.
  • [13] T. Schlett, C. Rathgeb, O. Henniger, J. Galbally, J. Fierrez, and C. Busch (2022) Face image quality assessment: a literature survey. ACM Computing Surveys. Cited by: §1, §2.
  • [14] Y. Shi and A. K. Jain (2019) Probabilistic face embeddings. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 6902–6911. Cited by: §1, §2.
  • [15] P. Terhorst, J. N. Kolf, N. Damer, F. Kirchbuchner, and A. Kuijper (2020) SER-FIQ: Unsupervised Estimation of Face Image Quality Based on Stochastic Embedding Robustness. In CVF/IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5651–5660. Cited by: §1, §2.
  • [16] W. Xie, J. Byrne, and A. Zisserman (2020) Inducing predictive uncertainty estimation for face verification. In British Machine Vision Conference (BMVC), Cited by: §1.
  • [17] T. Zheng and W. Deng (2018-02) Cross-pose lfw: a database for studying cross-pose face recognition in unconstrained environments. Technical report Technical Report 18-01, Beijing University of Posts and Telecommunications. Cited by: §4.1.
  • [18] T. Zheng, W. Deng, and J. Hu (2017) Cross-age LFW: A database for studying cross-age face recognition in unconstrained environments. CoRR abs/1708.08197. External Links: Link, 1708.08197 Cited by: §4.1.