[論文紹介] You Only Look at One Sequence (YOLOS)



Original Source Here

こんにちは,AIメディカルサービスでAIエンジニアのインターンをしている高松です.今回は,2021年6月に華中科技大学とHorizon Robotics社が発表したYou Only Look at One Sequence (YOLOS)を紹介します.

DEtection TRansformer ( DETR )などの活躍により,Transformer が,画像認識や物体検出ができることは知られていますが,それらは,事前学習したVision Transformerの物体検出における転移能力を示した研究ではなく,物体検出性能を向上させるためにTransformerをCNNで補強する傾向にあります.つまり,Transformerの既存の研究では,CNNの転移性を評価するために広く使用されている物体検出のような視覚における複雑なタスクには触れていません.YOLOSでは,純粋にVision Transformer (ViT )[1]が事前学習で抽出した視覚表現を画像認識からより複雑な物体検出タスクに転移したときの特性と事前学習の効果を明らかにします.

興味深いことに,筆者らは,YOLOSについて,単なる高性能な物体検出器を提案したのではなく,画像認識から物体検出までのTransformerの汎用性と転移能力を明らかにするために中規模のImageNet-1kデータセットで事前学習して,COCO物体検出ベンチマークを使用し実験します.したがって,物体検出におけるTransformerの特性を偏りなく正確に明らかにすることが目的であり,YOLOSアーキテクチャは,オリジナルのVision Transformerに非常に似た設計となっています.

Directly inherited from ViT (DeiT), YOLOS is not designed to be yet another high-performance object detector, but to unveil the versatility and transferability of Transformer from image recognition to object detection.

source: https://arxiv.org/pdf/2106.00666.pdf

=====
ガイアの夜明け,「がんを早期発見!命を救うニッポンの技術」で,AIメディカルサービス社の取り組みが放送されました!

AIを駆使し、内視鏡の画像から人間の目では見逃しやすい難しいがんを瞬時に見つけだす世界初のシステム。しかし、そこには多くの壁や難題が・・・
https://www.tv-tokyo.co.jp/gaia/

エンジニア向けの無料イベントも開催されるので、お気軽に参加して下さい!
https://ai-ms.connpass.com/event/
=====

ポイント

・ 中規模のImageNet-1kデータセットで事前学習したVision Transformer (ViT) を,より難易度の高いCOCO物体検出ベンチマークに適用できるかどうかを検討

・ 誘導バイアスを最小限に抑え,固定サイズかつ非重複な画像パッチをシーケンスとして入力とすることで,シーケンス間での物体検出が可能であることを初めて示した.

・ YOLOSの結果は,COCO物体検出ベンチマークでの性能は有望.また,ViTでの物体検出結果は事前学習の学習方法に非常に敏感に反応することがわかった.

YOLOSアーキテクチャ

ViTは局所や領域レベルの関係ではなく、長距離の依存関係やグローバルな文脈情報をモデル化するように設計されています。また,ViTには、CNN のような画像スケールの大きな変化を処理するための階層的アーキテクチャがありません.したがって,CNNを使用しないDosovitskiyらによって提案された純粋なViTの拡張モデルとして提案された物体検出モデルであるYOLOSでは,ViTから以下の2つ変更があります.

(注意)YOLOSでの3つの埋め込み,“Pat-Tok’’と“Det-Tok’’,“PE’’は以下の通りです.

“Pat-Tok’(Patch Token)’: フラット化された画像パッチの埋め込み

“Det-Tok’’(Detection-Token): 物体検出予測のための学習可能な埋め込み

“PE’’(Positional Embedding): 位置情報の埋め込み

YOLOSの構造

(1) YOLOSは、ViTの[class]トークンを削除し、学習可能な100個の[DET]トークンを物体検出のための入力シーケンスに追加

ViTの構造

(2) YOLOSはViTの画像分類損失を二分割マッチング損失(DETR)[2]に置き換え,集合予測的に物体検出

DETRの構造

DERTとの相違点(二分割マッチング損失は同じ

Transformerを使用した物体検出手法としてFacebook AI Researchが提案したDetection Transformer( DETR )[2, 3]があります.DETRのアーキテクチャは,エンコーダー・デコーダーアーキテクチャを持つランダムに初期化されたTransformerを使用しますが,YOLOSは事前に学習されたエンコーダのみを使用します.また, DETRでは、各デコーダ層で得られたデコーダーの損失から画像特徴とオブジェクト・クエリ間のクロスアテンションを算出していますが、YOLOSでは、パッチ・トークンとDetectionトークンを1つのシーケンスとするという違いがあります.

実験結果

以下の表より,Transformer(ViT)ベースの転移学習でもCNNベースの学習と同様に物体検出できることを示しました.ViTを改良した,CNNを使用せずにTransformerのみを使用した手法として,画像分類タスクでの事前学習から物体検出で競争力のある結果を示したことは,Transformerの多機能性と汎用性を明らかにしました.

YOLOSとCNNベースの物体検出モデルの実験結果を以下の表で示します.

YOLOS-Tiは、AP(Average Precision,平均適合率)で他のCNNベースと比較しても優っています.また,FLOPsとFPSでは,TransformerはCNNの高度に設計されたフィルタと異なり意図的に設計されていないにもかかわらず競争力があります.

YOLOSとTransformerベースの物体検出モデル(DETR)の実験結果を以下の表で示します.

中規模のImageNet-1kデータセットのみで事前学習したYOLOSは,COCOでも物体検出できることがわかりました.YOLOSのモデルをBERT-Baseから直接採用したYOLOS-Base(YOLOS-B)[4]で42.0 box APを達成しました.

大きな疑問点として,YOLOSの幅のスケールが大きくなるほどDERTにAP(Average Precision,平均適合率)の競争力が低下することです.

実験結果を見るとDETRに比べて同じスケールだと検出精度が低いことがわかりました.これについて,筆者らは,まだ十分な解析ができていないようです.

Even though YOLOS-S with dwr scaling is able to perform better than the DETR counterpart, the performance gain cannot be clearly explained as discussed in Sec. 3.3.

参考文献

[1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.

[2, DETR] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020.

[3, DETR blog] https://ai.facebook.com/research/publications/end-to-end-object-detection-with-transformers

[DETR code] https://github.com/facebookresearch/detr

[4] Devlin, J., Chang, M., Lee, K., & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT, 2019.

[YOLOS] Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, and Wenyu Liu. You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection. arXiv: 2106.00666v1, 2021.

[YOLOS code]https://github.com/hustvl/YOLOS

AI/ML

Trending AI/ML Article Identified & Digested via Granola by Ramsey Elbasheer; a Machine-Driven RSS Bot

%d bloggers like this: