Képfelismerés mély neurális hálózatokkal és felhasználási módjai

Ez nem csak a márkaismertség mérése. A vállalkozások logófelismerést használnak a sportesemények szponzorálásából származó megtérülés kiszámítására, vagy annak meghatározására, hogy a logójukkal visszaéltek-e.

Orvosi képelemzés

A mélytanulási modellekkel működő szoftverek segítenek a radiológusoknak a különböző orvosi képek – komputertomográfiás (CT) és ultrahangos felvételek, mágneses rezonanciás képalkotás (MRI) vagy röntgenfelvételek – értelmezésével járó hatalmas munkaterhelésben. Az IBM hangsúlyozza, hogy egy sürgősségi radiológusnak naponta akár 200 esetet is meg kell vizsgálnia. Emellett egyes orvosi vizsgálatok akár 3000 képet is tartalmaznak. Nem csoda, hogy az orvosi képek teszik ki az összes orvosi adat közel 90 százalékát.

Az AI-alapú radiológiai eszközök nem helyettesítik a klinikusokat, hanem támogatják a döntéshozatalukat. Jelzik az akut rendellenességeket, azonosítják a nagy kockázatú vagy sürgős kezelést igénylő betegeket, hogy a radiológusok prioritást adhassanak a munkalistájuknak.

Az IBM kutatási részlege az izraeli Haifában dolgozik az orvosi képelemzésre szolgáló kognitív radiológiai asszisztensen. A rendszer orvosi képeket elemez, majd ezt a felismerést összekapcsolja a beteg orvosi kartonjából származó információkkal, és olyan megállapításokat mutat be, amelyeket a radiológusok figyelembe vehetnek a kezelés megtervezésekor.

Demó az IBM Eyes of Watson mellrákfelismerő eszközéhez, amely számítógépes látást és ML-t használ. Forrás: Vlagyimir M: IBM Research

A részleg tudósai egy speciális mély neurális hálózatot is kifejlesztettek az abnormális és potenciálisan rákos emlőszövetek megjelölésére.

Aidoc egy másik megoldást kínál, amely mély tanulást használ az orvosi képek (különösen a CT-vizsgálatok) átvizsgálására és a beteglisták rangsorolására. A megoldás három életveszélyes állapot – tüdőembólia, nyaki gerinctörés és koponyaűri vérzés – megjelölésére kapott engedélyt az amerikai Élelmiszer- és Gyógyszerügyi Hivataltól (FDA), az ausztráliai Therapeutic Goods of Australia-tól (TGA) és az európai uniós CE-jelölést.

A vállalat ügyfelei közé tartozik az UMass Memorial Medical Center Worcesterben (Massachusetts), a Montefiore Nyack kórház Rockland megyében (New York) és a Global Diagnostics Australia, egy képalkotó központ.

Műalkotások felismerésére szolgáló alkalmazások

A Magnus egy képfelismeréssel működő alkalmazás, amely a műkedvelőket és műgyűjtőket “átvezeti a művészeti dzsungelen”. Miután a felhasználó lefényképez egy műalkotást, az alkalmazás olyan adatokat közöl, mint a szerző, a cím, az alkotás éve, a méretek, az anyag, és ami a legfontosabb, a jelenlegi és a történelmi ár. Az alkalmazás térképet is tartalmaz galériákkal, múzeumokkal és aukciókkal, valamint az aktuálisan bemutatott műtárgyakkal.

A Magnus egy több mint 10 millió műtárgyképet tartalmazó adatbázisból szerzi az információkat; a műtárgyakra és az árakra vonatkozó információk tömegesen érkeznek. Érdekesség: Leonardo DiCaprio befektetett az alkalmazásba, írja a Magnus az Apple Store oldalán.

A múzeumlátogatók olyan alkalmazásokkal elégíthetik ki tudáséhségüket, mint a Smartify. A Smartify egy múzeumi kalauz, amelyet a világ több tucat ismert művészeti helyszínén használhat, mint például a New York-i Metropolitan Museum of Art, a washingtoni Smithsonian National Portrait Gallery, a párizsi Louvre, az amszterdami Rijksmuseum, a londoni Royal Academy of Arts, a szentpétervári State Hermitage Museum és mások.

Hogyan működik a Smartify. Forrás: A Smartify hogyan működik a Smartify? Smartify

Egy műalkotás részleteinek feltárásához az alkalmazás a beolvasott műtárgyakat egy adatbázisban található digitális képekkel veti össze, amely 2017-ben közel 50 000 műtárgyat tartalmazott. A Smartify társalapítója, Anna Lowe így magyarázza az alkalmazás működését: “A műalkotásokat fotók vagy digitális képek segítségével szkenneljük be, majd digitális ujjlenyomatot készítünk a műalkotásról, ami azt jelenti, hogy az digitális pontok és vonalak halmazára redukálódik.”

Az arcfelismerés javítja a repülőtéri élményt

Az arcfelismerés egyre inkább elterjedt a légitársaságok körében, amelyek a beszállás és a check-in javítására használják. Ezeknek a fejlesztéseknek két fő iránya van: követni az önkiszolgálási trendeket és ezt a biometrikus technológiát, valamint biztonságosabbá és gyorsabbá tenni a repülőtéri élményt. Minél kevesebb lépést kell megtenniük mind az utasoknak, mind a személyzetnek a repülés előtti rutinok elvégzéséhez, annál jobb.

A beszállást végző berendezések beolvassák az utasok arcát, és összevetik a határellenőrző ügynökségek (pl. az amerikai vám- és határvédelem) adatbázisaiban tárolt fényképekkel, hogy ellenőrizzék személyazonosságukat és a repülési adatokat. Ezek lehetnek személyi igazolványok, vízumok vagy más dokumentumok fényképei.

American Airlines például a texasi Dallas/Fort Worth nemzetközi repülőtér D termináljának beszállókapuinál kezdte el használni az arcfelismerést. A beszállókártyák helyett az utazók arcát szkennelik be. Az egyetlen dolog, ami nem változott, hogy a biztonsági ellenőrzéshez továbbra is útlevéllel és jeggyel kell rendelkezni. A biometrikus beszállás opt-in alapon működik.

Biometrikus beszállás az American Airlines utasainak. Forrás: American American Airlines American Airlines American American Airlines: A légiutas-kísérők számára az utasfelvételi eljárás: The Dallas Morning News

Az American 2018-ban 90 napig tesztelte a biometriát a Los Angeles-i nemzetközi repülőtér 4-es terminálján, azzal az elképzeléssel, hogy ha a próba jól megy, kiterjesztik a technológia használatát.

Néhány légitársaság alkalmazza az arcfelismerést is extra beszállási lehetőségként: JetBlue, British Airways, AirAsia, Lufthansa vagy Delta. Utóbbi a Minneapolis-St. Paul nemzetközi repülőtéren 2017-ben telepített önkiszolgáló táskaadagolót.

Vizuális termékkeresés

Az online és offline vásárlás közötti határok eltűntek, amióta a vizuális keresés belépett a játékba. Az Urban Outfitters alkalmazás például rendelkezik a Scan + Shop funkcióval, amelynek köszönhetően a fogyasztók beolvashatnak egy fizikai üzletben talált vagy egy magazinban kinyomtatott terméket, megkapják annak részletes leírását, és azonnal megrendelhetik azt. A vizuális keresés az online vásárlás élményét is fokozza.

Az ilyen képességgel rendelkező alkalmazásokat neurális hálózatok működtetik. Az NN-ek feldolgozzák a felhasználók által feltöltött képeket, és képleírásokat (címkéket) generálnak, például a ruhadarab típusát, anyagát, stílusát, színét. A képleírásokat összevetik a raktáron lévő cikkekkel és a hozzájuk tartozó címkékkel. A keresési eredmények egy hasonlósági pontszám alapján jelennek meg.

A vizuális keresésnek külön fejezetet szenteltünk abban a cikkben, amely arról szól, hogyan használják a kiskereskedők a mesterséges intelligenciát. Ott arról is olvashat, hogy a kép- és arcfelismerő technológiák hogyan tették valósággá az Amazon Go-hoz hasonló pénztárgép nélküli üzleteket, és arról is, hogyan működtetik a felügyeleti rendszereket vagy teszik lehetővé a bolton belüli személyre szabást.

A munka folytatódik

A 20. század második felében a kutatók úgy becsülték, hogy viszonylag rövid idő alatt megoldható egyebek mellett a számítógépes látás problémája. 1966-ban Seymour Papert matematikus, az MIT Computer Science & AI Lab korábbi társigazgatója, Seymour Papert koordinálta a Summer Vision Projectet. A kutatóknak ambiciózus tervük volt: egy nyár alatt megépíteni egy rendszer jelentős részét a számítógépes látás képességeivel, ahogyan ma ismerjük. “A projekt elsődleges célja egy olyan programrendszer megalkotása, amely egy vidiszektoros képet olyan régiókra oszt fel, mint a valószínű tárgyak, a valószínű háttérterületek és a káosz” – állt a projekt leírásában.

Nos, ez sokkal tovább tartott. A modern szoftverek számos hétköznapi tárgyat, emberi arcot, képeken lévő nyomtatott és kézzel írt szöveget és egyéb entitásokat képesek felismerni (olvassa el a képfelismerő API-król szóló cikkünket.) De a munka folytatódik, és továbbra is tanúi leszünk annak, hogy egyre több vállalkozás és szervezet alkalmazza a képfelismerést és más számítógépes látási feladatokat a versenytársaktól való megkülönböztetés és a működés optimalizálása érdekében.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.