EfficientDet: Drejt Zbulimit Të Shkallëzuar Dhe Efikas Të Objektit

Përmbajtje:

EfficientDet: Drejt Zbulimit Të Shkallëzuar Dhe Efikas Të Objektit
EfficientDet: Drejt Zbulimit Të Shkallëzuar Dhe Efikas Të Objektit

Video: EfficientDet: Drejt Zbulimit Të Shkallëzuar Dhe Efikas Të Objektit

Video: EfficientDet: Drejt Zbulimit Të Shkallëzuar Dhe Efikas Të Objektit
Video: КАК улучшить качесто звука и СИЛЬНО УВЕЛИЧИТЬ максимальную громкость на Андрод! 2024, Mund
Anonim

Si një nga aplikacionet kryesore në vizionin kompjuterik, zbulimi i objekteve po bëhet gjithnjë e më i rëndësishëm në skenarët që kërkojnë saktësi të lartë, por që kanë burime të kufizuara kompjuterike, të tilla si robotikë dhe makina pa shofer. Fatkeqësisht, shumë detektorë modernë me precizion të lartë nuk i plotësojnë këto kufizime. Më e rëndësishmja, aplikacionet në botën reale të zbulimit të objekteve ekzekutohen në platforma të ndryshme, të cilat shpesh kërkojnë burime të ndryshme.

Zbulimi i shkallëzuar dhe efikas i objektit
Zbulimi i shkallëzuar dhe efikas i objektit

Pra, pyetja natyrale është se si të projektohen detektorë të saktë dhe efikasë të objekteve që mund të përshtaten gjithashtu me një gamë të gjerë të kufizimeve të burimeve?

EfficientDet: Zbulimi i Shkallëzuar dhe Efikas i Objektit, i miratuar në CVPR 2020, prezanton një familje të re të detektorëve të shkallëzuar dhe efikas të objekteve. Duke u bazuar në punën e mëparshme për shkallëzimin e rrjeteve nervore (EfficentNet) dhe përfshirjen e një rrjeti të ri funksional bi-drejtues (BiFPN) dhe rregullave të reja të shkallëzimit, EfficDet arrin saktësi moderne ndërsa 9 herë më e vogël dhe përdor dukshëm më pak llogaritje sesa detektorët e njohur modernë. Figura e mëposhtme tregon arkitekturën e përgjithshme të rrjetit të modeleve.

Imazh
Imazh

Optimizimi i Arkitekturës së Modelit

Ideja prapa EfficDet buron nga një përpjekje për të gjetur zgjidhje për të përmirësuar efikasitetin llogaritës duke ekzaminuar sistematikisht modelet e mëparshme të zbulimit të nivelit më të lartë. Në përgjithësi, detektorët e objekteve kanë tre përbërës kryesorë: një shtyllë kurrizore që nxjerr tipare nga një imazh i caktuar; një rrjet objektesh që merr nivele të shumëfishta funksionesh nga shtylla kurrizore si hyrje dhe nxjerr një listë të funksioneve të kombinuara që përfaqësojnë karakteristikat karakteristike të imazhit; dhe një rrjet përfundimtar i klasës / kutisë që përdor funksione të kombinuara për të parashikuar klasën dhe vendndodhjen e secilit objekt.

Pas shqyrtimit të opsioneve të dizajnit për këto përbërës, ne identifikuam disa optimizime kryesore për të përmirësuar performancën dhe efikasitetin. Detektorët e mëparshëm kryesisht përdorin ResNets, ResNeXt ose AmoebaNet si shtylla kurrizore, të cilat janë ose më pak të fuqishme ose kanë efikasitet më të ulët se EfficNets. Me implementimin fillestar të shtyllës kurrizore EfficNet, mund të arrihet shumë më shumë efikasitet. Për shembull, duke filluar me një bazë bazë RetinaNet që përdor një shtyllë kurrizore ResNet-50, studimi ynë i ablacionit tregon se thjesht zëvendësimi i ResNet-50 me EfficentNet-B3 mund të përmirësojë saktësinë me 3% ndërsa zvogëlon llogaritjen me 20%. Një tjetër optimizim është përmirësimi i efikasitetit të rrjeteve funksionale. Ndërsa shumica e detektorëve të mëparshëm thjesht përdorin Rrjetin e Piramidës Downlink (FPN), ne zbulojmë se FPN në rrjedhën e poshtme është e kufizuar në vetvete në një rrjedhë të njëanshme të informacionit. FPN alternative si PANet shtojnë shtesë në rrjedhën e sipërme me koston e llogaritjes shtesë.

Përpjekjet e fundit për të përdorur Kërkimin e Arkitekturës Neural (NAS) kanë zbuluar një arkitekturë më komplekse NAS-FPN. Sidoqoftë, ndërsa kjo strukturë e rrjetit është efektive, ajo është gjithashtu e parregullt dhe shumë e optimizuar për një detyrë specifike, duke e bërë të vështirë përshtatjen me detyrat e tjera. Për të zgjidhur këto probleme, ne propozojmë një rrjet të ri të funksioneve bi-drejtuese BiFPN, i cili zbaton idenë e kombinimit të funksioneve me shumë shtresa nga FPN / PANet / NAS-FPN, i cili lejon transmetimin e informacionit si nga lart poshtë ashtu edhe nga nga poshtë lart duke përdorur lidhje të rregullta dhe efektive.

Imazh
Imazh

Për të përmirësuar më tej efikasitetin, ne propozojmë një teknikë të re të sintetizimit të shpejtë të normalizuar. Qasjet tradicionale zakonisht trajtojnë të gjitha inputet për FPN në të njëjtën mënyrë, madje edhe në rezolucione të ndryshme. Sidoqoftë, ne vërejmë se tiparet e hyrjes me rezolucione të ndryshme shpesh kontribuojnë në mënyrë të pabarabartë në funksionet e daljes. Kështu, ne i shtojmë peshë shtesë secilit funksion hyrës dhe e lëmë rrjetin të mësojë rëndësinë e secilit. Ne gjithashtu do të zëvendësojmë të gjitha konvolucionet e rregullta me konvolucione më pak të kushtueshme, të ndara thellësisht. Me këtë optimizim, BiFPN tonë përmirëson më tej saktësinë me 4% ndërsa ul kostot llogaritëse me 50%.

Optimizimi i tretë përfshin arritjen e kompromisit më të mirë midis saktësisë dhe efikasitetit nën kufizime të ndryshme të burimeve. Puna jonë e mëparshme ka treguar se bashkë shkallëzimi i thellësisë, gjerësisë dhe rezolucionit të një rrjeti mund të përmirësojë ndjeshëm performancën e njohjes së imazhit. Frymëzuar nga kjo ide, ne propozojmë një metodë të re të shkallëzimit të përbërë për detektorët e objekteve që rrit kolektivisht rezolucionin / thellësinë / gjerësinë. Secili komponent i rrjetit, dmth shtylla kurrizore, objekti dhe rrjeti parashikues i bllokut / klasës, do të ketë një faktor kompleks të shkallëzimit që kontrollon të gjitha dimensionet e shkallëzimit duke përdorur rregulla heuristike. Kjo qasje e bën të lehtë përcaktimin e shkallëzimit të modelit duke llogaritur një faktor shkalle për një kufizim të caktuar të burimeve të synuara.

Duke kombinuar shtyllën kurrizore të re dhe BiFPN, ne së pari dizenjojmë një bazë të vogël EfficDet-D0 dhe më pas aplikojmë shkallëzimin e përbërë për të marrë EfficientDet-D1 në D7. Çdo model serial ka një kosto më të lartë llogaritëse, duke mbuluar një gamë të gjerë kufizimesh të burimeve nga 3 miliardë FLOP në 300 miliardë FLOPS, dhe siguron saktësi më të lartë.

Modeli i performancës

Vlerësimi i EfficientDet në bazën e të dhënave COCO, një bazë të dhënash referimi e përdorur gjerësisht për zbulimin e objektit. EfficientDet-D7 arrin një saktësi mesatare mesatare (mAP) prej 52.2, e cila është 1.5 pikë më e lartë se modeli i mëparshëm modern, duke përdorur 4 herë më pak parametra dhe 9.4 herë më pak llogaritje

Imazh
Imazh

Ne gjithashtu krahasuam madhësinë e parametrit dhe latencën e CPU / GPU midis EfficientDet dhe modeleve të mëparshme. Me kufizime të ngjashme të saktësisë, modelet EfficDet funksionojnë 2-4 herë më shpejt në GPU dhe 5-11 herë më shpejt në procesor sesa detektorët e tjerë. Ndërsa modelet EfficDet kanë për qëllim kryesisht zbulimin e objekteve, ne gjithashtu testojmë efektivitetin e tyre në detyra të tjera të tilla si segmentimi semantik. Për të kryer detyrat e segmentimit, ne modifikojmë lehtë EfficDet-D4 duke zëvendësuar humbjen dhe humbjen e kokës së zbulimit dhe kokës duke ruajtur të njëjtën shtyllë kurrizore të shkallëzuar dhe BiFPN. Ne e krahasojmë këtë model me modelet e mëparshme moderne të segmentimit për Pascal VOC 2012, një set i të dhënave të testimit të segmentimit të përdorur gjerësisht.

Imazh
Imazh

Duke pasur parasysh performancën e tyre të jashtëzakonshme, EfficDet pritet të shërbejë si një themel i ri për hulumtimin e zbulimit të objektit në të ardhmen dhe potencialisht t'i bëjë modelet shumë të sakta të zbulimit të objekteve të dobishëm në shumë aplikime në botën reale. Kështu u hapën të gjitha pikat e ndarjes së kodit dhe modelit të parapërgatitur në Github.com.

Recommended: