論文筆記:SoPhie - An Attentive GAN for Predicting Paths Compliant to Social and Physical Constraints
前言
論文連結:SoPhie:An Attentive GAN for Predicting Paths Compliant to Social and Physical Constraints
會議:CVPR 2019
這篇paper是蠻久以前看的,就大概紀錄一下><
Introduction
先來看一下他的主要貢獻:
Main Contributions
- Use scene context information jointly with social interaction
- More reliable feature extraction
- Attention mechanism(*2) + LSTM based GAN
- Multiple trajectory forecasting benchmarks
比較特別的地方應該就是他會將一整個場景的照片丟進去,提取出場景的資訊,找出哪裡可能有障礙物,哪邊可能是場景中可行的路線。再將這些資訊結合agent之間的互動特徵出預測的路徑。
Related Work
這篇用到了CNN(VGG-19)、Attention和GAN,下面會簡單介紹一下。
(有空再打哈哈哈)
Method
Problem Definition
- 我們的問題是啥勒?
X:(1)~(t)的觀測位置資訊
Y:時間(t+1) ~ (t+T)的真實位置(ground truth)
Y with小帽帽:時間(t+1) ~ (t+T)的預測位置
圖上第三行的意思就是把這些丟進去,就會蹦出解答這樣。
Overall Model
- 先來看個圖圖,我把paper中提到的三大架構一起畫上去了。
Q:阿是那三大?又分別在幹麻?
A:- feature extractor module(特徵萃取):分成上下兩部份。
- 上半部:利用CNN提取場景的特徵(障礙物、可以走的路徑等等)。
- 下半部:提取agent的特徵(包含自己路徑的特徵以及互動所得的特徵)。
- attention module (注意力):分成兩種attention。
- physical attention:學習場景中誰是障礙物,然後嘗試將注意力集中在未來可行的路徑上。
- social attention:學習agent(行人)之間的interaction,以及這些互動對未來路徑的影響。
- LSTM based GAN module:利用對抗式學習為每一個agent產生一系列realistic的路徑。
- feature extractor module(特徵萃取):分成上下兩部份。
- 簡單來說就是這樣><,對細部的數學模型有興趣的可以去看看paper。
也可以看看我以前做的簡報。
Experiments
Performance
- 來看一下他的表現(ADE/FDE)~~~
其中也做了ablation study(把model的部份拿掉,留下特定的部份,看看成果並分析區塊分別帶來的影響)
TA:social features + social attention
TO + IO:拿掉兩個attention modules
TO + IA:只拿掉social attention
TA + IO:只拿掉physical attention
TA + IO:兩個features跟兩個attention modules都在喔喔喔
結果當然是全部都有的會表現最好,不然分那多區塊又發現沒用不就尷尬了(x)
Qualitative Results
- 展示了一些數值上看不見的東西,像是改善了路徑的預測跟注意力的位置(相對於Social GAN),如圖:
- 以及道路(哪裡可以走)的辨識