基于深度學習的視覺問答系統關鍵技術研究

代寫網 39 0

  摘  要

  視覺問答(Visual Question Answering,VQA)需要圖像場景理解、問題語義理解和復雜的跨模態語義關聯。其中,注意力機制常用于在圖像中找出問題相關的答案。然而,目前大部分方法將問題看做是一個整體或者是詞匯序列,這種方式無法建模出問題的推理結構,難以應用于復雜場景的推理。具體來說,以往的編碼方式無法捕捉詞匯對之間的約束關系,使得模型會對圖像中的目標匹配失誤,本研究提出約束感知的圖編碼網絡(Constraint-Aware Graph Encoding Network,CA-GEN),用于將問題解析為語法依賴樹,并且構建語法圖。然后,本研究采用圖卷積網絡(Graph Convolution Network,GCN)來編碼詞匯之間的約束關系。對于圖像,本研究將每個圖片編碼成隱式關系圖(Implicit Graph)和空間關系圖(Spatial Graph),并分別通過圖注意力網絡(Graph Attention Network,GAT)來學習目標之間的關系。通過建模詞匯約束關系和目標關系,本研究模型能夠實現準確地目標對齊。

AI智能機器人


  本研究在VQA 2.0數據集上評估了提出的模型,并且實現了比較有競爭力的結果。更進一步,本研究進行了更深層的研究,并表明詞匯的約束建模有利于更好地理解問題以及目標定位。

  關鍵詞:視覺問答;圖卷積網絡;圖注意力網絡;依賴樹

  Abstract

  Visual Question Answering (VQA) requires a fine-grained understanding of image scenes, question semantics and complicated cross-modal interactions. Attention mechanism is wildly used to find question-related clues in images. However, most approaches treat question as a whole or a word sequence, which arguably insufficient to model the inference structure of questions required for complex scene reasoning. Thus, they may fail to capture the constraints and relations of word-pairs and tend to mismatch the target in images. In this paper, we propose a Constraint-Aware Graph Encoding Network (CA-GEN) to encode the constraints of word-pairs, which parses each question into a dependency tree and constructs a syntactic graph. Then, we encode the word constraints with edges features via a syntactic Graph Convolution Network (GCN). As for images, we encode each image into implicit and spatial graphs, which are separately fed to Graph Attention Network (GAT) to learn the relation-aware object representation. By modelling word constraints and object relations, our model enables fine-grained object inference and alignment.

  We validate our model on VQA 2.0 dataset and achieve a competitive result compared to state-of-the art models in this benchmark. Further investigations demonstrate that modelling constraints between words leads to better question understanding and object groundings.

  Key Words:Visual Question Answering; Graph Convolution Network; Graph Attention Network; Dependency Tree

  目  錄

  摘要 Ⅰ

  Abstract Ⅱ

  1   介紹 1

  1.1  視覺問答歷史 1

  1.2  研究構想 2

  2   相關研究工作 4

  2.1  視覺問答 4

  2.2  圖編碼 6

  3   約束感知的圖編碼網絡 8

  3.1  圖像編碼 9

  3.1.1  問題相關和位置感知的目標表示 9

  3.1.2  圖注意力網絡 9

  3.1.2.1  隱式關系圖 10

  3.1.2.2  空間關系圖 11

  3.2  問題編碼 11

  3.2.1  前后文感知的問題表示 12

  3.2.2  約束感知的圖卷積網絡 12

  3.3  跨模態注意力模塊 13

  3.4  融合和預測 15

  3.4.1  自注意力匯聚 15

  3.4.2  融合和預測 15

  4   實驗 17

  4.1  數據集介紹 17

  4.1.1  Visual Question Answering(VQA) 17

  4.1.2  VQA-CP v2 17

  4.2  實驗設置 18

  4.3  正交實驗 18

  4.4  測試評估結果 19

  4.5  可視化樣例 20

  5   結論 22

  致謝 23

  參考文獻 25

  ?

  1 緒論

  1.1 視覺問答歷史

  最近十年見證了計算機視覺和自然語言處理領域巨大的進步,隨著深度學習的快速發展,深度學習在兩個領域中都有了許多突破和非常大的進步。除了在各自的領域中的突破式進展,近幾年,一些跨模態的任務,比如圖像文本生成(Image Caption)[1]、文本-視頻檢索(Text-to-Video Retrieval)[2]和視覺問答(Visual Question Answering)[1]等任務都受到了兩個領域研究人員的極大關注。這些任務的關鍵點在于它們都需要文本/視覺的語義理解能力以及跨模態的理解能力,其中,模態表示信息的存在方式,計算機視覺研究的對象是以視覺信息存在,自然語言處理研究的對象是以文本信息存在。除了簡單的跨模態對應能力,更進一步的,還需要常識推理能力,由此,模型就有能力去解決一些跨模態問題。圖像文本生成主要是模態的轉換任務,也就是需要根據視覺模態的圖像,來生成文本模態的文本語句;文本視頻檢索則是文本模態和視頻模態兩個模態之間的對應問題;視覺問答任務則不僅需要視覺模態與文本模態的對應,也需要模型能夠學習一些常識知識,從而有利于模型的答案推理和預測。


  本文主要研究視覺問答任務,視覺問答任務定義為給定一幅圖像以及和該圖像相關的問題,模型需要回答該問題,答案一般使用文本形式給出。一般來說,視覺問答模型需要理解圖像中的場景內容(比如圖像中存在哪些目標、是何種背景等等)以及問題的語義(比如問題的類型、是否需要推理等等),然后基于跨模態的關聯知識,來從圖像中找出問題相關的線索,從而來生成正確的答案。


  目前大多數視覺問答模型都遵循一個通用的融合框架。在這個框架中,視覺問答模型需要分別對圖像和問題進行編碼,然后學習得到聯合的多模態表示,這種多模態表示能夠表示出兩個模態的關聯信息并能夠解決特定的跨模態任務。特別的,目前大多數視覺問答模型采用卷積神經網絡(Convolution Neural Networks,CNN)來提取圖像的向量表示,并采用門控循環單元(Gated Recurrent Unit,GRU)[3]、長短期記憶網絡(Long Short Term Memory,LSTM)[4]等序列模型將問題編碼成語義向量[5, 6]。這兩種編碼操作能夠分別將圖像和文本編碼為向量表示,分別表示圖像和文本的語義內容。然后,通過融合操作(比如求和、按元素相乘,雙線性池化等等)來得到多模態的聯合表示,并直接將其用于預測答案。為了提升圖像表示的能力,一些研究者采用目標檢測網絡(比如Faster R-CNN[7])來提取圖像中的目標特征,并構建場景圖來表示圖像。然后將圖神經網絡應用于場景圖,來生成前后文感知的目標表示或者在圖上進行推理,從直觀上來看,這種場景圖的表示方法有利于模型更加深刻地理解圖像的內容,從而有利于問題的回答。對于問題,目前大多數模型仍然采用遞歸神經網絡(Recurrent Neural Networks,RNN)來將問題編碼成一個語義向量或者前后文相關的詞向量,這個語義表示句子的語義,并用于后期融合和預測。


  1.2研究構想

  直觀來看,對圖像表示采用場景圖能夠實現目標之間的關系建模,能夠幫助模型更好的理解圖像內容,從而有利于視覺理解。然而,對于問題編碼,目前大多數研究者采用序列模型,比如GRU或LSTM來生成語義向量,這種方法直接將問題表示成單一的語義向量,顯然,這種方法將問題視作一個整體,無法涵蓋豐富的語義信息,無法編碼問題的推理結構以及詞匯對之間的約束關系,由此可能無法準確地理解文本的約束語義,從而會導致目標和詞匯之間的錯誤匹配。比如在圖1中,有四個穿著不同顏色衣服的女人在不同的位置,給定問題“What color is the shirt of the woman beside the table?”,對人來說很容易理解問題的語法結構并定位出圖像中的目標:首先找到“table”,然后搜索周圍區域(“beside”),并根據問題(“woman beside the table”)定位出目標(“woman”)。傳統的序列編碼模型忽略了“woman”和“table”之間的依賴關系,即兩者的空間關系是“beside”,從而可能會導致目標的錯誤匹配。另外,除了多目標的場景,許多問題中都存在詞匯之間存在約束關系的情景,直觀上看,以往的問題編碼模型中沒有考慮到問題中存在的這種約束語義,如果能夠在問題編碼模型中考慮到這些詞匯約束的因素,那么對應于圖像模態中的目標之間的關系,會更有利于目標的定位,從而更準確地得到答案。


  基于這個觀察,為了建模詞匯之間的約束關系,本研究提出通過將問題解析為依賴樹,依賴樹能夠提取出問題中詞匯之間的依賴關系,和本研究任務所需的詞匯之間的約束關系非常相似,因此,通過對問題的依賴樹解析,來對詞匯之間的約束關系進行編碼。最終,能夠實現將問題中的約束信息編碼進詞匯的語義向量中。



  為了能夠生成約束感知的問題表示,本文根據問題的依賴樹構建語法圖,并采用約束感知的圖卷積網絡來編碼和更新詞向量表示,從而能夠將約束語義編碼進詞向量中。在視覺模態,為了編碼目標之間的關系,本文提出采用目標檢測網絡檢測出圖像中所有的目標,并基于檢測出的目標和目標的空間位置,構建出目標的全連接關系圖(隱式關系圖和空間關系圖),并采用圖注意力網絡來學習得到目標與目標之間的依賴關系,并更新目標的表示,使得每個目標都能夠匯集周圍的鄰域信息,具有更加豐富的語義。通過以上文本模態中詞匯約束關系的編碼,以及視覺模態下目標之間關系的編碼,使得兩個模態有更加一致的對應關系,從而來提升模型對兩種模態的理解能力。

  ?

  2 相關研究工作

  2.1 視覺問答

  近幾年來,視覺問答(Visual Question Answering)獲得了極大地關注,總的來說,視覺問答框架可以分為三個部分:表示(Representation)、融合(Fusion)和預測(Prediction)[8]。其中,表示就是將圖像和問題表示為特征向量,有利于機器理解和處理,融合就是將圖像和問題的特征向量融合成一個能夠同時表征兩個模態內容以及關聯關系的與特定任務相關的統一向量,預測就是根據前面生成的聯合向量來完成相應的任務,比如在視覺問答任務中就是預測得到問題的答案。在研究早期,圖像和問題分別被編碼成單一的語義向量,然后通過多模態融合方法融合成一個多模態向量,并用于預測答案。隨后,為了增強多模態聯合表示的表達能力,一些研究者從多模態融合的角度出發,采用雙線性融合來學習圖像-問題對的聯合表示[9-12],雙線性融合具有非常強的融合表達能力,但是按照傳統的計算方法,該融合模式的參數量非常大,這使得原始的雙線性融合不適合在深度學習上的應用,為此,許多研究者從數學的矩陣分解的角度考慮,將雙線性融合的參數使用矩陣分解的方法進行降維,從而能夠降低參數量,并應用于深度學習模型中,實現了參數量和表達能力的平衡,使得模型能夠在較小的參數量的情況下,實現比較好的融合效果。


  然而,上述這種直接的方法將輸入表示為一個單一的向量,在每個模態中,單一向量的表達都會忽略模態內豐富的結構化的內容,在模態間,不可避免地會忽略問題和圖像中豐富的語義信息和關聯信息。為此,一些研究者提出在編碼階段采用注意力機制來將最相關的信息編碼進語義向量,在這種情況下,圖像的不同區域被認為有不同的語義表示,而且與問題的相關性有強弱之分。Yang等人[13]疊加多個文本到區域(text-to-region)的注意力層來增強與問題相關的視覺特征,這個注意力層相當于實現了對圖像中特征的選擇,選擇出與問題最相關的圖像區域,而采用多層疊加的方式相當于多次地選擇最相關的圖像內容,逐步地細化對圖像內容的選擇過程。Lu等人[14]考慮到兩個方向的注意力(text-to-region、region-to-text),并且提出聯合注意力機制來選擇最相關的詞匯和區域特征,這種方式不僅能夠選擇出最相關的圖像區域,還能選擇出最相關的文本詞匯,在兩個模態中都進行相關性選擇,增強模型的細化程度。Anderso等人[1]結合自頂向下(top-down)和自低向上(bottom-up)的注意力來注意到顯著性區域和與問題相關的區域,其中,自頂向下的注意力就是根據問題的語義描述來對圖像中的目標求注意力分布,這種注意力分布是和頂層任務相關的,自低向上的注意力就是直接從圖像中預先進行檢測出顯著的目標,即可能的候選目標。為了增強對于小物體的注意能力,Huang等人[15]從多個粒度來計算文本對區域的注意力權重,由此有利于更精準的目標定位,從詞匯和目標標簽之間的粒度,首先檢測出圖像中存在的目標以及對應目標的文本標簽,這種文本標簽進一步可以在文本模態的嵌入空間中求相似度,從而實現在該粒度下的注意力,從詞匯和視覺目標的粒度,該研究采用多層感知機的方式將圖像中目標的視覺特征和目標的文本標簽進行相似度學習,使得目標的視覺特征和文本標簽特征具有非常強的對應關系,從句子和視覺目標的粒度,類似于研究工作[1]中的方法,直接采用句子的文本表示,來對圖像中檢測出的目標表示求注意力分布。直觀上來看,注意力機制使得模型能夠集中于關鍵的區域,使得最終得到的聯合表示具有更加準確的特征。


  為了顯式地建模推理過程,有研究者采用組件化模型和記憶模型來構建推理流程。Andreas等人[16]人工地定義了五種推理模塊,并且基于依賴樹的結構動態地構建推理模型,該研究工作首先將問題解析成依賴樹,將依賴樹看做是推理的過程,并基于依賴樹動態地構建模型,從而實現推理。Ca等人[17]將依賴樹看做是推理流程,并沿著依賴樹在每個樹節點中應用三種通用的模塊。Hudson等人[18]設計了一個記憶單元,并重復地控制并更新單元的記憶信息。其中,控制單元用于從知識庫中搜索相關證據信息,并將信息融合進記憶單元中,記憶單元用于保存到某一時刻為止,模型從知識庫中提取到的信息,應用于視覺問答任務上,其中的知識庫就是圖像,模型不斷地根據問題,從圖像中提取有用的信息,并更新模型的記憶單元,最終來預測答案。然而,這些模型大多數需要將問題解析成依賴樹,即依賴于問題的顯式依賴樹結構,并且限定于推理場景。為了減少人工設計推理單元的過程,本文的方法考慮到依賴樹本身存在結構誤差,因此,本文并不顯式地按照依賴樹的結構進行建模,而是基于問題的依賴樹來對詞匯之間的依賴關系進行建模,并采用圖卷積網絡對依賴關系進行學習和編碼,將這種依賴關系表示在詞向量中,并隨著模型的學習而不斷地更新。


  2.2 圖編碼

  目前,一些研究者試圖采用圖表示和推理模型來解決視覺問答任務,比如,不同于采用高級的語義向量來表示圖像,許多研究者采用場景圖來編碼圖像信息。細致地說,首先采用目標檢測網絡(比如Faster R-CNN),在Visual Genome數據集[19]上進行預訓練,使得目標檢測模型能夠檢測出圖像中一些顯著的視覺目標,之后,將檢測模型用于檢測出圖像中所有的目標。這些目標之后用于構建隱式關系圖或顯式關系圖,其中,節點表示目標的特征,邊表示目標之間的關系,這種目標關系可以直接隱式學習或者通過視覺關系抽取模型來顯式地抽取出來。

  直觀上來看,相比于將圖像編碼成一個全局的向量表示,圖表示有利于建模目標之間的關系,由此更有利于理解圖像場景內容。目前有部分工作在視覺問答任務上采用場景圖。Hedi等人[20]從圖像中檢測出目標并構建全連接圖,目標之間的關系通過成對地計算出來,并用于調整目標表示。該研究工作的亮點在于,其對目標之間的關系建模采用雙線性融合的方式,即通過對兩個目標的視覺特征向量和位置特征向量采用雙線性融合的方式來生成目標關系表示,關系表示進一步用于更新節點的目標表示,使得每個目標表示都能夠感知到周圍的信息。Li等人[21]采用三種類型場景圖:語義關系圖、空間關系圖和隱式關系圖。這些圖分別于問題語義進行融合和更新,最終將預測結果結合起來預測最終的答案。語義關系圖采用圖像的場景圖抽取模型來提取出圖像中存在的目標和目標關系,語義關系圖中目標之間的關系有顯式的文本標簽,空間關系圖從二維空間中提取目標矩形框之間的關系,并構建全連接圖,相當于從二維空間的角度理解圖像的場景內容,節點之間的關系是二維的相對位置關系,隱式關系圖直接采用全連接方式連接所有的目標。Guo等人[22]將問題詞匯和目標詞匯都表示成圖,并提出內連接圖和外連接圖,來對問題和圖像之間關聯關系進行建模和學習。其中,內連接圖用于學習模態內的關聯關系,外連接圖用于學習模態間的關聯關系。

  除了在圖像表示中采用場景圖之外,樹形或圖形的語義結構在一些任務中也被廣泛使用。比如,給定一個檢索語句,推理表達式定位(Grounding Referring Expression)任務[23]嘗試在圖像中定位出指定的目標,在該任務中,一個圖像中往往存在多個同類的目標,而給定的文本表達式會指定其中某一個特定的目標,這種情況下,模型需要充分理解圖像內容以及文本結構,從而理解從文本到圖像的指代關系。為了建模句子的推理結構,一些研究者采用語法工具來將檢索語句解析成樹或圖。比如Cirik等人[24]采用Stanford Parser[25]將句子解析為依賴樹,并沿著依賴樹的路徑來調整目標定位結果,從葉子節點開始,逐漸往根節點進行聚合,相當于按照依賴樹的結構進行逐步推理和定位。Hong等人[26]構建RvG-Tree并采用Tree-LSTM[27]來編碼樹結構。在跨模態視頻檢索任務中,Zhang等人[28]提出采用圖卷積模塊來編碼文本的依賴樹,并生成依賴感知的文本表示。該研究工作考慮到視頻幀之間存在前后時序關系,在文本中,詞匯與詞匯之間也存在關系,因此,通過編碼文本中的詞匯依賴關系以及視頻中幀與幀之間的關系,有利于兩種模態之間的關聯和對應。Zhang等人[29]將文本編碼成時序樹,并采用Tree-LSTM來編碼樹結構,生成具有結構化語義的文本表示。


  本次研究工作受到[28]和[21]的啟發。為了編碼問題中的詞匯依賴關系,本文采用約束感知的圖卷積網絡來生成詞匯表示,從而將詞匯之間的依賴關系編碼進詞匯表示中,并可以直接基于模型來學習,減少了人工定義規則的繁雜過程。對于視覺目標的編碼,本文按照[21]的方法,構建隱式關系圖和空間關系圖來生成前后文感知的目標表示,這種目標表示包含有周圍區域的信息,使得目標表示向量具有更加豐富的信息。?


  3 約束感知的圖編碼網絡

  本研究的視覺問答模型在圖2中顯示出來。本文首先提出視覺問答任務的定義:給定一個圖像 和一個與圖像內容相關的問題 ,本研究任務的目標是預測出一個答案 ,能夠匹配真實答案 。按照視覺問答任務中常用的方法,預測的答案 是從一個預定義的答案集合中選擇出有最高得分的答案作為預測的結果,形式化表示如下:

  其中, 表示視覺問答模型的參數。在本文的實驗中,本研究采用Faster R-CNN從圖像中提取出目標的特征集合 ,其中, 表示第 個目標的特征向量。本文也使用目標的邊界框 來表示目標的空間特征,其中, 表示左上角坐標, 表示矩形框的寬和高。對于問題的編碼,本文采用雙向GRU和GCN來得到語法感知的詞向量 以及問題的語義表示 。

  圖2 本文提出的CA-GEN模型結構示意圖


  3.1 圖像編碼

  正如圖1中所示,圖像編碼模塊將圖像中的目標視覺特征 和位置特征 集合作為輸入。首先對矩形框的特征使用圖像的大小進行歸一化處理,得到 ,其中, 是圖像的寬、高和面積。之后,參照[21]的方法,將每個目標看做節點,從而可以構建全連接圖 來建模目標之間的關系。在圖 中,有 個邊,每個節點對應于圖像中的一個目標,并將目標視覺特征 和矩形框特征 作為節點特征。在本研究中,我們構建出了目標之間的隱式關系圖和空間關系圖,從而能夠從不同的角度和方面建模目標關系,有利于更好地生成目標表示。


  3.1.1 問題相關和位置感知的目標表示

  為了使目標表示同時融合問題語義信息和位置信息,本文需要將問題的語義向量和位置特征向量融合到目標表示中。為了簡化這個融合的過程,本文直接對采 用向量連接的方式,從而得到問題相關和位置感知的目標表示 :其中, 分別表示問題的語義向量、第 個目標的RoI特征和矩形框特征。

  不同于研究工作[21]中采用多層感知機來融合,這種直接連接的策略無需額外參數并且使得節點特征能夠同時融合問題語義和視覺特征。因此,圖節點包含了兩個模態豐富的信息,使得節點在更新的過程中,可以學習到和問題相關的表示。除此之外,每個節點表示一個特定的目標,模型可以學習到與問題相關的局部區域特征。

  3.1.2 圖注意力網絡

  為了建模目標之間的關系,圖注意力網絡用于編碼和更新圖 。類似于[21],本文構建隱式關系圖和空間關系圖來計算目標之間的注意力權重。在隱式關系圖中,目標之間采用全連接的方式進行連接,目標之間的關系采用模型進行學習,注意力權重根據每一對目標對的視覺特征和位置特征進行計算。對于空間關系圖,本研究中采用目標的在二維圖像上的相對幾何關系作為目標之間的關系標簽,可以看出,目標之間的關系是對稱的,而且構建的目標關系圖的關系邊含有關系標簽,本文參照[21]的方法,本文將目標的這種矩形框相對幾何位置關系分成11類。然后將這11類空間關系作為邊標簽,并構建空間關系圖。

  3.1.2.1 隱式關系圖

  基于構建的目標的隱式關系圖,本文可以基于目標的視覺特征表示和位置表示來計算出目標之間的注意力權重。形式化來看,給定一個目標對 ,視覺注意力權重根據 計算得到,公式為:

  其中, 是映射矩陣, 表示第 個目標和第 個目標的視覺相關性分數。為了衡量幾何位置的相關性,本文基于每一個矩形框對 計算出目標對之間的位置相關性分數:

  其中, 表示雙線性融合, 用于將 維的空間隱式關系轉化為一個權重值, 操作將目標之間弱的空間關系直接置零。根據本文得到的視覺和空間相關性,本文將兩種相關性值結合起來計算出目標對之間的最終的注意力權重:

  基于計算得到的注意力權重,本文能夠通過加權求和的方式來更新圖的節點特征:

  其中, 表示鄰居節點信息的映射矩陣, 表示非線性激活函數(比如ReLU)。為了捕捉目標之間多方面的關系,本文采用多頭注意力機制以及非線性激活的方式來進行計算:

  其中, 是多頭注意力機制的頭數, 表示每個注意力頭的映射權重。最后,本文采用殘差連接,得到前后文感知的目標特征 。

  可以看出,最后得到的每一個節點表示中,以不同的權重匯集了周圍目標的信息,從而使得每一個目標都能夠感知周圍空間的信息,豐富了目標表示中的語義信息。

  3.1.2.2 空間關系圖

  基于構建的空間關系圖,本文考慮到了目標的相對幾何關系來計算目標之間的注意力權重。與隱式關系圖不同的是,空間關系圖的邊含有標簽并且是有向的。因此,本研究結合節點的特征和邊特征來計算目標之間的關系權重。形式化公式如下:

  其中, 是根據每條邊的方向相關的轉換權重, 是與邊標簽相關的偏置項。

  由于圖注意力機制的編碼能力,每個目標都能夠感知到周圍目標信息。另外,通過將問題語義結合到節點特征中,圖編碼器能夠學習得到與問題相關的目標關系。因此,最后生成的目標表示即能夠包含局部的目標信息,還能夠按照不同的權重匯聚周圍區域的信息,相當于能夠有選擇性地感知整個圖像的內容。除此之外,由于每個向量都融合有空間位置向量和語義向量,使得每個目標表示都能夠融合問題的語義以及蘊含其自身的空間位置信息。通過結合隱式關系圖和空間關系圖對目標關系的編碼,使得模型能夠從隱式關系和顯式空間關系上學習到目標的關系特征,從而有利于更加準確地捕捉目標之間的關聯。

  3.2 問題編碼

  正如前文所敘述,為了在多目標場景中實現精準的定位,本文不僅需要編碼視覺目標之間的關系,還需要編碼詞匯之間的約束關系。然而,大部分視覺問答模型采用序列模型,比如GRU或者LSTM,來編碼問題,這種方式忽略了詞匯之間的語法關系。受到[28]的啟發,本文將問題編碼成依賴樹,然后構建依賴圖,并在依賴圖上采用圖卷積網絡來編碼詞匯之間的依賴關系,從而得到依賴感知的詞匯表示。直觀來看,生成的表示包含詞匯之間的約束信息,有利于更準確地在圖像中定位目標。

  3.2.1 前后文感知的問題表示

  為了得到詞向量表示,本文首先從預訓練的300維GloVe詞向量[30]中得到詞向量,表示為 ,其中, 表示第 個詞匯的GloVe向量表示,采用預訓練詞向量有利于模型能夠從一個比較好的初始化條件開始進行優化。然后,本文采用雙向GRU對詞匯序列進行編碼,學習得到前后文相關的詞向量表示。特別的,在每一個時間步,本文結合前向和反向GRU的輸出來得到問題表示,形式化表示如下:

  其中, 分別表示第 個詞匯位置前向和反向GRU的輸出隱藏狀態。由此,本文通過對兩個向量 進行連接得到最終的向量 ,以及 。在模型訓練優化過程中,預訓練詞向量也會隨著模型進行優化,從而能夠學習到和該任務相關的更優的詞向量表示。


  3.2.2 約束感知的圖卷積網絡

  正如前文所述,序列模型無法編碼出詞匯之間的依賴關系,因此,本文采用依賴樹來構建語法圖,并采用圖卷積網絡來將依賴信息編碼進詞向量表示。類似于[28],本文首先采用Stanford Parser對問題進行解析成依賴樹。依賴樹解析工具可能不能夠完全正確地解析出句子的依賴結構,但是,本文的研究工作主要關注這種依賴編碼對視覺問答模型的影響,因此,依賴樹解析工具對模型引入的誤差在該研究中忽略不計。

  形式化來看,本文將依賴圖表示為 ,其中, 分別表示節點(詞)和邊(依賴關系)。本文和[28]采用相同的模型設置,考慮到圖上的三種方向,即每條邊有三種傳遞方向,包括依賴樹方向、逆依賴樹方向和自連接方向,每一條邊都有特定的標簽。在本研究中,我們將40種依賴關系以及自連接關系,即總共41種依賴關系,來作為依賴圖中邊的標簽。

  在構建上述的依賴圖之后,本文隨后采用圖卷積網絡來編碼詞匯之間的依賴關系。與傳統的圖卷積網絡不同的是,本文考慮到了邊的信息,而且邊的有向的。特別的,在本文的模型中,每條邊的標簽都被編碼成一個向量,然后圖卷積網絡通過匯集周圍節點和邊的信息來更新節點表示,公式表示為:

  其中, 表示非線性激活函數(比如ReLU), 表示依賴樹邊 的方向。有三種類型的邊:前向、反向和自環。前向和后向邊分別沿著和逆著依賴關系方向,自環邊是自連接方向。每一個方向都有獨立的訓練參數,由此產生三個轉換矩陣 。 表示邊 的標簽表示。為了捕捉多跳的依賴關系,本文可以疊加多個GCN層來得到高層的約束信息。為了解決梯度消失的問題,本文對GCN的輸入和輸出增加殘差連接,公式如下:

  其中, 是疊加的GCN的層數。最后,本文將 作為最終的問題表示。


  3.3 跨模態注意力模塊

  根據前述得到的前后文感知的目標特征表示 以及約束感知的詞向量表示 ,本文采用跨模態注意力來實現視覺模態和文本模態的關聯交互。為了捕捉更細粒的跨模態關系,本文將跨模態注意力應用于兩個層次:目標-詞匯層次和視覺概念-文本概念層次。目標-詞匯層次實現單獨的目標和詞匯之間的對應( ),視覺概念-文本概念實現目標關系對和詞匯約束短語之間的對應( )。前者主要是直接從詞匯和目標的層面計算視覺模態和文本模態的關聯關系,但是這種方式沒有考慮到模態內存在特定的約束,后者考慮到模態內的約束和關系。形式化來說,假設本文得到的圖像表示和問題表示分別為 和 ,那么先計算關聯矩陣:

  其中, 是可訓練的權重, 表示第 個目標和第 個詞匯的關聯分數。之后,本文對矩陣 分別按行和按列進行歸一化,得到跨模態注意力分布:

  其中, 和 分別表示是圖像對文本和文本對圖像的注意力分布。由此,本文可以計算出視覺和文本的注意力特征,并與原模態特征進行融合,從而得到跨模態的相關性信息,公式表示如下:

  其中, 表示融合函數,在本研究中,本研究采用向量連接以及MLP作為融合方法,并然輸出維度與輸入維度相同,使得該模塊支持殘差連接。

  利用上述的跨模態注意力模塊,本研究將該模態應用于多層次的跨模態關聯交互中,對于目標-詞匯層次,本研究分別取原始圖像特征 和雙向GRU的輸出 作為跨模態注意力的輸入,對于視覺概念-文本概念層次,本研究分別將前后文相關的目標表示 和約束感知的詞向量表示 來作為跨模態注意力的輸入。前者的跨模態注意力從淺層對視覺模態和文本模態進行關聯和對應,而后者中,各個模態內已經進行了關系編碼或約束編碼,因此,兩種模態的表示具有更加復雜的模態信息,在該層次進行跨模態注意力有利于更加精準地實現跨模態關聯學習。通過結合多個層次的跨模態注意力,該模型可以得到融合有跨模態信息的高層表示。


  直觀上看,跨模態注意力機制使得模型能夠專注于跨模態相關的內容,本研究疊加了多個編碼層,并將跨模態注意力應用于多層的圖像和文本表示上,使得模型支持更加復雜的跨模態對齊和精準的目標定位。


  3.4 融合和預測

  3.4.1 自注意力匯集

  在圖編碼模塊和跨模態注意力模塊之后,可以得到高層的圖像表示和文本表示,其中包含豐富的跨模態信息。在將它們輸入到分類器之前,模型需要將兩個模態的特征聚集為單一向量。由此,本文采用自注意力機制來得到問題表示:

  其中, 是問題的長度。然后本研究將問題表示 和每個目標表示 進行連接,并利用文本到目標的注意力來得到聚集的視覺特征:

  基于以上的方程,本研究可以將視覺特征 和文本特征 聚合成單一的語義向量表示,分別得到 和 。直觀上看,這種自注意力機制實現的是模態內關鍵信息的匯集,在文本模態中,相當于匯集問題中關鍵詞的信息,在視覺圖像模態中,相當于注意于圖像中關鍵的目標特征,忽略掉其余的背景或者不相關目標信息,這種方式使得模型能夠專注于更加突出的特征,從而準確地預測出答案。

  3.4.2 融合和預測

  在得到聚集的向量表示 之后,可以采用多模態融合操作來融合兩個向量,得到多模態表示 :

  其中, 表示融合方式, 表示融合模型的訓練參數。在該研究工作中,本研究使用Tucker融合方法[9]融合兩個模態的向量表示,最后得到的聯合表示輸入兩層全連接層(ReLU非線性激活)以及sigmoid層,輸出所有答案的預測概率。最后,類似于[1],本研究使用二值交叉熵來計算預測的損失。相當于本研究最后會預測每一個候選答案是否為正確答案的概率,然后,本研究取概率最高的候選答案作為模型最終的預測答案。

  在訓練階段,圖像中目標兩種圖表示(隱式關系圖和空間關系圖)分別單獨進行模型訓練,由此,可以得到兩個單獨的模型。在推理階段,本研究結合兩個模型,采用加權求和的方式來得到最終的預測概率。特別的,最終的預測答案的概率計算如下:

  其中, 是超參數( ), 是隱式關系圖模型和空間關系圖模型預測的答案 的概率。最終,取結合概率最高的候選答案作為本研究模型最終的預測結果。?

  4 實驗

  在這一章中,本研究在VQA 2.0和VQA-CP 2.0數據集上評估本文提出的模型,因為大多數答案形式時單詞或者短語,視覺問答任務可以看做是分類任務,可以采用準確率來評估模型表現。VQA 2.0考慮到人工打標的10個答案來計算最終的準確率。形式化來說,準確率的計算公式如下:這意味著如果至少三個人工標簽給出答案ans,那么準確率就是100%。



  4.1 數據集介紹

  在這一章,主要介紹VQA v2數據集和VQA-CP v2數據集。


  4.1.1 Visual Question Answering(VQA)

  視覺問答數據集是視覺問答任務中使用最為廣泛的數據集,數據集中包含來自于MS-COCO數據集[31]的圖片,以及與圖像相關的問題,并采用人工標注答案。問題和答案都由人工進行給出并標注,根據數據統計結果,VQA v2數據集中,每一個圖像平均有3個問題,每個問題都10個人工標注的答案,而且10個答案由不同的標注者給出,因此,存在10個答案都不相同的可能性。在VQA v2數據集中,主要有三種問題類別:Yes/No、Number和Other,該數據集被分割成訓練集、驗證集和測試集,三個分割集的問題數量分別為443k、214k和447k,其中,測試集主要包含生產測試集(Test-dev)和標準測試集(Test-std),該數據集對于訓練集和驗證集會給出標注的問題答案,但是測試集不會給出答案標簽。模型的表現根據線上評估的Test-dev結果而定。在本研究的實驗中,本文在該數據集的訓練集上進行模型訓練,在驗證集上調試超參數,最后取最好的模型參數在訓練集和驗證集上進行訓練,并在測試集上測試模型表現。


  4.1.2 VQA-CP v2

  近幾年有一些研究表明視覺問答模型趨向于利用語言偏置來預測問題的答案,VQA-CP數據集用于減少問題偏置對視覺問答模型的影響。具體來說,目前視覺問答數據集都存在答案分布不均衡的現象,而且廣泛存在于訓練集、驗證集和測試集中,因此,這會導致模型可能學習不到真正的跨模態知識,只能學習出在問題條件下的答案概率分布,因此,該數據集主要用于減弱這種語言先驗偏置問題。特別的,在VQA CP v2數據集中,每種問題類型在訓練集和驗證集上的分布不同,即對于同類型問題,在訓練集和驗證集中,答案的概率分布是不同的。VQA-CP v2數據集從VQA v2數據集中通過重新分割訓練/驗證集來生成,因此,該數據集的圖像、問題和答案來源與VQA v2數據集完全相同。按照標準設置,視覺問答模型應該在訓練集上訓練,并在驗證集上評估模型表現,模型的效果以驗證集的效果為準。


  4.2 實驗設置

  本研究將問題通過分詞得到詞匯序列,然后將詞匯采用300維的GloVe詞向量編碼,對于在GloVe詞典中的詞匯,本文采用預訓練詞向量進行編碼,對于不在詞典中的詞匯,本研究采用初始化為0的方式,詞向量會隨著模型進行優化學習。之后本研究將詞向量序列輸入動態的雙向GRU,使得問題編碼器允許動態的問題長度,因此,不需要采用詞匯填充的方式將問題填充至指定長度。本研究設置GRU的隱藏層維度為300維,因此,問題編碼器輸出的詞向量維度為600維。隨后,本研究采用Stanford Parser對問題進行解析成依賴樹并構建依賴圖,總共有40中依賴邊關系,即邊的標簽有40類。對于約束感知的編碼網絡,本研究將consGCN層數設置為1。對于圖像編碼器,本研究采用Faster R-CNN提取的bottom-up特征[1],目標的視覺特征維度為2048維,并固定目標個數為36,得到目標特征 。在將目標的視覺特征輸入模型之前,本研究對目標特征進行L2規范化。對于圖注意力網絡,本研究將多頭注意力機制的注意力頭數設置為16,每個頭的維度為 。類似于[1]的處理方式,本研究保留訓練集和驗證集中出現頻次大于9的答案,從而得到的候選答案集合大小為 ,在推理階段,本研究將 設置為0.5。

  在實驗中,本研究使用Adamax優化器來訓練模型,批處理大小設置為128。對于學習率,本文使用0.0007作為初始化學習率,在第7個輪次后,學習率每2個輪次衰減為0.5倍,直到達到第15個輪次。為了緩解過擬合問題,本研究對每個全連接層增加dropout(p=0.2),最后的分類器,本文采用p=0.5的dropout。


  4.3 正交實驗

  本研究在VQA v2數據集上進行正交實驗,來探究提出的圖編碼網絡對模型效果的影響。所有模型在相同的優化參數下在訓練集上訓練,并在驗證集上評估效果。結果顯示在表格1中。表格中的Imp列和Spa列分別顯示出了隱式關系圖模型和空間關系圖模型在驗證集上的準確率,Both列顯示出按照概率結合權重 來結合兩個模型的預測概率在驗證集上的準確率。表格的第一塊顯示出疊加的圖編碼層數 對模型效果的影響,可以看出,單模型和結合模型的準確率都隨著疊加層數 的增加而提高,最好的準確率在 處得到,本研究結合的模型能夠超過baseline大約 的效果提升,對于單模型,本研究的隱式關系圖模型能夠超過baseline大約 ,空間關系圖模型能夠超過baseline大約 。由于訓練顯存限制,本研究沒有給出 的結果,因此,本研究直接設定 。在 的模型設置下,模型已經能夠表現出比較好的效果。表格中的第二塊顯示出文本編碼器對模型效果的影響,本研究將模型中的consGCN模型使用動態GRU替換,并保持模型其它部分不變,這種改動使得模型效果降低 。這顯示出本研究提出的consGCN的高效性。

  表1 本研究提出的CA-GEN模型在VQA v2數據集上的正交實驗結果

  模塊 設置值 準確率(%)

  Imp Spa Both

  疊加層數( )

  0(baseline) 63.05 63.09 64.01

  1 63.44 63.60 64.43

  2 64.23 64.15 65.11

  問題編碼器 Dynamic GRU 63.54 63.87 64.83

  GCN 64.23 64.15 65.11


  4.4 測試評估結果

  本研究將本文提出的模型同其它最近的模型在VQA v2的測試集上效果進行比較,表格2顯示出評估結果??梢钥闯?,本研究的方法在Y/N、Num和Overall準確率上都超過了baseline。最后一行顯示出本研究的結合模型的測試集結果,其中,本研究的結合模型中隱式關系圖和空間關系圖的概率結合權重 。通過比較來看,在Y/N類別上,本研究的模型相對于Block超過了0.47%,在Num類別上,本研究的模型相比于Block超過了3.07%,在Overall上,本研究的模型相比于Block超過了0.35%。在Test-std集上,本研究的模型相比于Block超過了0.34%。相較來看,本研究的模型在Num問題類型上效果的表現上提升的效果最好,在最后的可視化樣本章節,本研究也展示出一個Num類型的樣本。


  表2 在VQA v2的test-dev和test-std集合上比較模型的效果。

  Model Test-dev Test-std

  Y/N Num Other Overall

  Bottom-up(2018)[1]

  81.82 44.21 56.05 65.32 65.67

  DCN(2018)[6]

  83.50 46.60 57.30 66.90 67.00

  Multi-grained(2019)[15]

  83.60 47.02 58.24 67.41 67.73

  Block(2019)[12]

  83.60 47.33 58.51 67.58 67.92

  CA-GEN(本文方法) 84.07 50.40 58.11 67.93 68.26

  為了顯示出本研究提出的模型的泛化性能,本研究在VQA-CP v2數據集上進行了訓練和評估,表格3顯示出在VQA-CP v2數據集上的評估結果,本研究可以看出,無論是單模型還是結合模型,本研究的模型都能夠超過MuRel[5],結合模型超過了0.8%。對于隱式關系圖模型,本研究的單模型相比于MuRel超過了0.35%,對于空間關系圖模型,本研究的單模型相比于MuRel超過了0.15%??梢钥偨Y出,在VQA CP v2數據集上,本研究提出的模型在泛化性能上都能夠超出目前最高的Baseline模型,而且通過結合兩種圖模型,本研究的結合模型超過了0.8%。

  表3 在VQA-CP v2數據集上和MuRel模型比較。

  Model MuRel(2019)[5] Imp. Spa. Both

  Acc. 39.54 39.89 39.69 40.34


  4.5 可視化樣例

  在圖3中,本章給出兩個實例在隱式關系圖模型和顯式關系圖模型上的可視化結果,具體來說,本章在每個圖片中使用不同的顏色可視化了三個目標的矩形框以及三個詞匯,并給出對應的注意力權重,紅色、綠色和藍色注意力權重逐漸降低。問題的注意力權重來源于模型的自注意力匯聚計算出的自注意力分布,目標的注意力權重來源于模型的中問題對目標注意力分布。在樣例的第三行,顯示出隱式關系圖模型和空間關系圖模型的可視化樣例??梢钥闯?,本研究的模型能夠專注于與問題相關的目標(比如第三行中隱式關系圖示例上紅框和綠框分別指示出tie和man),從而使得模型能夠得到正確的結果。為了更好地理解和比較本研究的圖編碼模塊對視覺問答模型的影響,本章 移除所有的圖編碼模塊(baseline),包括圖注意力網絡和圖卷積網絡,并將可視化結果顯示在第二行中??梢钥闯?,baseline模型會專注于一些不相關的區域或錯失一些關鍵的目標,從而使得模型產生錯誤的答案。綜上所述,通過以上的比較,這些可視化樣例顯示出圖編碼網絡有利于視覺模態和文本模態之間的關聯學習,使得視覺問答模型有更好的預測表現。

  圖3 注意力權重的可視化樣例?


  5 結論

  本文提出采用圖注意力網絡來編碼圖像中的目標關系,并采用約束感知的圖卷積網絡,并用于問題編碼,使得模型在編碼層能夠理解到詞匯之間的約束關系。在這個模塊中,本研究考慮到了詞匯之間的約束關系,這種詞匯關系對應于目標之間的視覺關系,從而有利于視覺模態和文本模態之間的對應??缒B注意力模塊用于兩種模態的關聯對應,使得模態之間能夠實現信息交互。本研究結合了兩種目標的圖注意力編碼模型,從而獲得了相比于單模型更好的模型表現。實驗的結果顯示出本研究的模型在VQA v2和VQA-CP v2數據集上有比較好的表現,這表明了本研究提出的約束感知的圖編碼網絡的高效性。

標簽: 深度學習視覺問答論文

發表評論 (已有0條評論)

還木有評論哦,快來搶沙發吧~

展開
万达商城娱乐登录平台