0Kč

Žádné produkty v košíku.

0Kč

Žádné produkty v košíku.

Benefity periferního vidění u strojů

Výzkum MIT (Massachusettský technologický institut) předkládá, že určitý typ modelu počítačového vidění vnímá vizuální vjemy podobně jako lidé pomocí periferního vidění.

Počítačové a lidské vidění má více společného, než by se mohlo na první pohled zdát

Výzkum MIT naznačuje, že určitý typ robustního počítačového modelu vidění vnímá vizuální reprezentaci podobným způsobem jako je tomu u lidského periferního vidění. Tyto modely, známé jako adversiální, jsou navrženy tak, aby dokázaly pracovat s obrazovými daty obsahujícími šum, či distorzi, a ty následně překonávat. Způsob, jakým se tyto modely učí „porouchané“ obrazy transformovat, je podle vědců podobný některým prvkům lidského periferního zpracovávání okolí. Protože stroje zrakovou periferii nemají, byla na periferní zpracovávání soustředěna pouze malá část doposud provedených pozorování. Vysvětluje jeden z hlavních autorů Arturo Deza (post doktorand Center for Brains, Minds and Machines).

„Periferní vidění a texturní reprezentace se ukázaly jako velice užitečné pro lidské vidění. Takže nás napadlo, že by se to možná dalo využít i u strojů,“ říká vedoucí autorka Anne Harrington, postgraduální studentka Katedry elektrotechniky a informatiky.

Výsledky naznačují, že navrhování modelu strojového učení tak, aby zahrnoval nějakou formu periferního zpracovávání, by mohlo umožnit modelu se automaticky učit vizuální reprezentace, které budou odolné jemným manipulacím s obrazovými daty (viz zmiňovaný šum obrazu). Deza dodává, že by tato práce mohla také pomoci osvětlit doposud neprobádaná, či ne dobře a úplně pochopená místa periferního vidění u lidí.

Výzkum bude prezentován na Mezinárodní konferenci vzdělávací reprezentace (International Conference on Learning Representations).

Dvojité vidění

Lidé i stroje mají společné tzv. foveální vidění (jednoduše řečeno schopnost zaostřovat), které se používá k prohlížení detailních objektů. Člověk k tomu vlastní i periferní vidění, jež dává vjemem schopnost zpracovat uspořádání širšího prostorového výjevu. Typické přístupy k počítačovému vidění mají tendence toto ignorovat, a naopak se zaměřují pouze na foveální vidění.

Foveální počítačové systémy jsou ovšem velmi zranitelné vůči šumu obrazu, který do něj může být vložen nežádoucím prvkem/útočníkem. Při nepřátelském zásahu bývají obrázky nenápadně upravené způsobem, kdy je každý pixel velmi nepatrně pozměněn, a to tak, že by lidským okem byly tyto změny nepostřehnutelné, ale pro stroj se jedná o zásadní a matoucí změny. Například obrázek ovlivněný dodatečným šumem bude člověk stále vnímat stejně jako před jeho změnami jako obrázek auta, ale stroj ho již může vyklasifikovat třeba jako dort. To by mohlo mít vážné důsledky v případě senzorů autonomního vozidla.

Aby výzkumníci tuto zranitelnost překonali, provádějí takzvaný adversariální trénink. Vytvářejí obrázky, které jsou zmanipulovány šumem. Ty vloží do neuronové sítě stroje. Poté je musí opravit, mechanicky přeznačit a model následně přeškolit.

Zdá se, že právě tento dodatečný proces přeznačování a trénování umožňuje stroji dosáhnout shody ve vnímání s lidským zpracováváním,“ říká Deza.

Jeho a Harringtona zajímá, zda patří tyto dodatečně vytrénované sítě mezi robustní, protože kódují objektové reprezentace, které jsou podobné vnímání lidského oka. Navrhli proto sérii psychofyzikálních testů za pomoci lidí, aby tak mohli ověřit svou hypotézu.

Testování

Experiment výzkumníci začali se sadou obrázků. Použili tři různé modely počítačového vidění, aby syntetizovali reprezentace těchto snímků ze samotného šumu: „normální“ model strojového učení, další model byl primárně trénovaný na odolnost vůči nepříznivým podmínkám, a třetí byl specificky navržen tak, aby zohledňoval některé prvky lidského periferního zpracovávání okolí (tzv. Texformy).

Tým tyto vygenerované obrázky následně použil v sérii experimentů, v nichž měli účastníci rozlišit mezi původními obrázky a reprezentacemi syntetizovanými jednotlivými modely. V některých experimentech měli lidé také rozlišovat mezi různými dvojicemi náhodně syntetizovaných obrazů ze stejných modelů.

Účastníci měli oči upřené na střed obrazovky, zatímco na vzdálených stranách obrazovky blikaly obrázky na různých místech jejich periferie. V jednom experimentu museli účastníci identifikovat lichý obrázek v sérii dalších, které byly vždy promítány pouze po dobu milisekund, zatímco ve druhém museli přiřadit obrázek prezentovaný v jejich fovee ke dvěma vzorovým obrázkům umístěným v jejich periferii. 

Pokud byly obrázky umístěny ve vzdálené periferii pozorujících, většina nebyla schopna popsat rozdíl mezi jednotlivými modely. Nejvýraznějším vzorcem chyb, kterého se lidé dopouštěli, byl ve všech experimentech, kde bylo použito modelu Texform a robustního modelu trénovaného proti nepřátelským zásahům. Nebylo tomu tak pouze v případě standardního modelu počítačového učení.

Nejpozoruhodnějším výsledkem je však asi to, že vzorec chyb, kterých se lidé dopouštějí (v závislosti na tom, kde se podněty nacházejí v periferii), se výrazně shoduje ve všech experimentálních podmínkách, které využívají podněty odvozené z modelu Texform a z modelu odolného vůči nepříznivým podmínkám. „Tyto výsledky naznačují, že robustní modely skutečně zachycují některé aspekty lidského periferního zpracovávání,“ vysvětluje Deza.

Výzkumníci také vypočítali specifické experimenty strojového učení a metriky hodnocení kvality obrazu, aby prozkoumali podobnost mezi obrazy syntetizovanými jednotlivými modely. Zjistili, že ty, které byly generovány odolným modelem a modelem Texform, si byly nejpodobnější, což naznačuje, že tyto modely počítají podobné transformace obrazu.

„Vnášíme světlo do otázky, jak lidé a stroje dělají stejné chyb a proč,“ říká Deza. „Proč dochází k protichůdné (adversariální) robustnosti a zda pro ni existuje biologický ekvivalent v mozku?

Inspirace pro další práci

Deza doufá, že tyto výsledky budou inspirací pro další práci v této oblasti a povzbudí výzkumníky počítačového vidění, aby zvážili vytvoření dalších biologicky inspirovaných modelů.

Tyto výsledky by mohly být použity k navržení systému počítačového vidění s určitým druhem emulované vizuální periferie, který by mohl být automaticky odolný vůči nepříznivému šumu. Práce by také mohla sloužit jako podklad pro vývoj strojů, které jsou schopny vytvářet přesnější vizuální reprezentace s využitím některých aspektů lidského periferního zpracovávání.

„Mohli bychom se dokonce učit o lidském vidění tím, že se pokusíme získat určité vlastnosti z umělých sítí,“ dodává Harrington.

Předchozí práce ukázala, jak izolovat „robustní“ části obrázků, kdy trénink modelů na nich způsobil, že byly méně náchylné k protichůdnému selhání. Tyto obrazy vypadají jako zakódované verze skutečných obrazů,“ vysvětluje Thomas Wallis, profesor Institutu psychologie a Centra kognitivních věd na Technické univerzitě v Darmstadtu.

Harrington a Deza pomocí pečlivých experimentů lidského chování ukázali, že schopnost lidí vidět rozdíl mezi těmito obrazy a původními fotografiemi umístěných na periferii je kvalitativně podobná jako u obrazů generovaných na základě biologicky inspirovaných modelů zpracovávajících periferní informace,“ dodává Wallis.  (am)

Přihlašte se k odběru a už Vám nic neunikne!

  • Každý týden přinášíme nejzásadnější zprávy z průmyslu, které by neměli uniknout váší pozornosti.

Nepřehlédněte

Více článků