Bildanteckning är processen att lägga till information till bilder för att göra dem mer förståelige av datorer. Denna information är vanligtvis i form av etiketter, avgränsande lådor, polygoner, semantiska segmenteringsmasker eller andra metadata. Målet är att utbilda datorsynsmodeller för att känna igen föremål, scener och aktiviteter inom bilder.
Här är en uppdelning av de olika typerna av bildanteckningar:
* Begränsningsrutor: En rektangulär låda ritad runt ett intresseobjekt. Detta är en vanlig och relativt enkel form av kommentarer. Den identifierar objektets plats men ger inte detaljerad forminformation.
* polygoner: Polygons, som är mer exakt än avgränsande lådor, spårar konturen för ett objekt och fångar sin form mer exakt. Detta är användbart för föremål med oregelbundna former.
* Semantisk segmentering: Detta tilldelar en etikett till varje pixel i bilden och klassificerar varje pixel som tillhör ett specifikt objekt eller klass. Detta ger den mest detaljerade informationen om bildens innehåll.
* landmärken/knappsatser: Detta innebär att man markerar specifika punkter på ett föremål (t.ex. hörnen på en bil, ögonen och näsan på ett ansikte). Detta används ofta för poseberäkning och ansiktsigenkänning.
* cuboids (3D -avgränsande rutor): Används för 3D-objektdetektering, ange objektets plats och dimensioner i tredimensionellt utrymme.
* Bildtexter/transkription: Lägga till textbeskrivningar till bilder, sammanfatta innehållet eller tillhandahålla sammanhang.
* Bildklassificering: Tilldela en enda etikett till en hel bild och beskriver dess övergripande innehåll.
Den typ av kommentarer som används beror på den specifika applikationen och den önskade detaljnivån. Till exempel kan en självkörande bil kräva semantisk segmentering för att exakt identifiera vägmarkeringar och fotgängare, medan en produktbildssökning kanske bara behöver avgränsande rutor. De kommenterade bilderna blir sedan utbildningsdata för maskininlärningsalgoritmer som används i objektdetektering, bildklassificering och andra datorsynsuppgifter.