Hva er bildegjenkjennings-APIer, og hva kan de gjøre for deg? Denne artikkelen vil rydde opp hvilken bildegjenkjenning, hva en API gjør, og hvordan den kan hjelpe deg eller din bedrift, få mer ut av internett. Bildegjenkjenning har stort potensial for bedrifter og for individuelle synshemmede internettbrukere.
Hva er en bildegjenkjennings-API?
Bildegjenkjenning er hvor et stykke programvare oppdager egenskapene til et bilde og kategoriserer det nøyaktig. Hvis du for eksempel laster opp et bilde av en Ferrari 458 til en bildegjenkjennings-API, bør den gjenkjenne at den er en bil og at den er (eller burde være) rød. Avhengig av API, kan ytterligere klassifisering være mulig avhengig av hvilken type bilde du bruker.
Dette kan virke veldig enkelt - mennesker kan se på et bilde og fortelle deg hva det er et bilde av uten å prøve, mesteparten av tiden - men det har vært et vanskelig problem å lære datamaskiner å løse. Mye arbeid har gått ut på å finne ut hvordan en datamaskin kan forstå hva som ser ut, og vi har gjort store fremskritt, fra muligheten til å gjøre omvendte bildesøk til Googles berømte Deep Dream-nettverk.
En API er et Application Program Interface. Det er egentlig en mellommann mellom programrutiner som forteller et element hvordan man arbeider med en annen, eller gir verktøyene de trenger for å utføre en funksjon. Det finnes dusinvis av typer API som kan oppnå alle slags mål, ved hjelp av en rekke programmeringsspråk. I denne sammenhengen er en bildegjenkjennings-API det verktøyet du kan bruke for å få tilgang til den dype læringskraften til noen kommersielle bildegjenkjenningssystemer.
Du trenger mye databehandlingskraft til å utføre bildegjenkjenning. Du trenger masser av data og makt til å tolke alt. De fleste brukere har rett og slett ikke de massive ressursene for å bygge sin egen dype læringsmaskin. Store navn som Googles Vision API, Microsofts Face API, ImageNet og andre har slike maskiner og gir tilgang til dem via APIer, enten gratis eller mot et gebyr. Dette gjør at bedrifter av alle størrelser får tilgang til denne kraften, og brukerne får nye erfaringer som følge av dette.
Hvordan går bildegjenkjenning til å forandre vår internettopplevelse?
Ulike Internett-brukere får forskjellige fordeler fra bildegjenkjenning. La oss se på en hypotetisk nettstedseier og en hypotetisk bruker for å se hvordan begge sider kan ha nytte.
Bedriftsfordelene ved bildegjenkjenning
Som et eksempel, la oss si at du driver en selgerportal som ligner på Etsy eller en datingwebside. Du vil administrere kvaliteten og egnetheten til alle bildene som er lastet opp av brukerne. Du vil blokkere alle voksne eller upassende bilder og sortere dem i de riktige kategoriene, men du kan ikke muligens gjøre alt for hånd.
Angi API for bildegjenkjenning. Du kan bruke API, sammen med en egnet bildegjenkjenningsmaskin, til å skanne hvert enkelt bilde og definere det etter fastsatte kriterier. Så du kan skanne biblioteket med bilder for uanstendig bilder og slette dem. Du kan skanne bildene og sortere de som inneholder mat i kategorien "mat" og strikkeklær i kategorien "ull". Når du forteller API hva du skal gjøre, er prosessen automatisert.
Det er også muligheter her for forstørret virkelighet og interaktivt bilde og video. Du kan bruke bildegjenkjenning for å få et program til å gjenkjenne objekter i den virkelige verden. For eksempel kan du ta et bilde av et par sneakers noen har på gaten. Hvis programmet gjenkjenner joggeskoene, kan bildet bli forsterket med en link for å kjøpe dem selv. Dette fordeler virksomheten (det gir en umiddelbar salgsmulighet) og fordeler brukeren (de får det de vil ha akkurat nå).
Brukeren nyter godt av bildegjenkjenning
Sneaker-eksempelet ovenfor er bare en åpenbar måte at brukerne kan dra nytte av bildegjenkjenning. Augmented reality betyr at vi umiddelbart kunne få tilgang til vurderinger, prisinformasjon og mange data ved å ta et bilde av et produkt. Det gir brukere enorme mengder data for å hjelpe dem med å ta en kjøpsbeslutning.
Mark Zuckerberg oppsummerte en ofte oversett fordel for bildegjenkjenning i sin tale på AI tidligere i år. Han forestilte en bildegjenkjennings-API som fungerte med blinde eller svaktsiktige personer som kunne "lese" et bilde og beskrive hva det ser høyt ut. Dette kan få store konsekvenser for svekkede internettbrukere-eller, med forstørret virkelighet, ut i den virkelige verden noen gang nedover linjen.
Bildegjenkjenning spiller også en rolle i bilsikkerhet. De nye autonome bremse- og kollisjonstvist teknologiene blir introdusert på samme måte som APIene vi har snakket om. De skanner og vurderer bilder mange ganger i sekundet for å holde deg og din bil trygg mens du er på veien. Denne teknologien som forteller autonome biler hva som er rundt dem også.
Bildegjenkjennings-APIer skal ikke revolusjonere vår internettopplevelse på egen hånd. De jobber sammen med eksisterende teknologi for å legge til et lag av samhandling og nedsenking til verden vi ser. Selv om denne artikkels eksempler er begrensede, er det stort potensial for spill, filmer, bilindustrien, detaljhandel, underholdning og enhver teknologiaktivert industri. Dette er bare begynnelsen på hva intelligente systemer kan oppnå!