ICPR2020 Paper Browser

Paper download is intended for registered attendees only, and is subjected to the IEEE Copyright Policy. Any other use is strongly forbidden.

Multi-Scale Relational Reasoning with Regional Attention for Visual Question Answering

Yuntao Ma, Yirui Wu, Tong Lu

Auto-TLDR; Question-Guided Relational Reasoning for Visual Question Answering

Abstract Slides Poster

The main challenges of visual question answering (VQA) lie in modeling an alignment between image and question to find out informative regions in images that related to the question and reasoning relations among visual objects according to the question. In this paper, we propose question-guided relational reasoning in multi-scales for visual question answering, in which each region is enhanced by regional attention. Specifically, we present regional attention, which consists of a soft attention and a hard attention, to pick up informative regions of the image according to informative evaluations implemented by question-guided soft attention. And combinations of different informative regions are then concatenated with question embedding in different scales to capture relational information. Relational reasoning can extract question-based relational information between regions, and the multi-scale mechanism gives it the ability to analyze relationships in diversity and sensitivity to numbers by modeling scales of relationships. We conduct experiments to show that our proposed architecture is effective and achieves a new state-of-the-art on VQA v2.

Similar papers

Multi-Stage Attention Based Visual Question Answering

Aakansha Mishra, Ashish Anand, Prithwijit Guha

Auto-TLDR; Alternative Bi-directional Attention for Visual Question Answering

Abstract Poster Similar

Recent developments in the field of Visual Question Answering (VQA) have witnessed promising improvements in performance through contributions in attention based networks. Most such approaches have focused on unidirectional attention that leverage over attention from textual domain (question) on visual space. These approaches mostly focused on learning high-quality attention in the visual space. In contrast, this work proposes an alternating bi-directional attention framework. First, a question to image attention helps to learn the robust visual space embedding, and second, an image to question attention helps to improve the question embedding. This attention mechanism is realized in an alternating fashion i.e. question-to-image followed by image-to-question and is repeated for maximizing performance. We believe that this process of alternating attention generation helps both the modalities and leads to better representations for the VQA task. This proposal is benchmark on TDIUC dataset and against state-of-art approaches. Our ablation analysis shows that alternate attention is the key to achieve high performance in VQA.

Question-Agnostic Attention for Visual Question Answering

Moshiur R Farazi, Salman Hameed Khan, Nick Barnes

Auto-TLDR; Question-Agnostic Attention for Visual Question Answering

Multi-Scale Relational Reasoning with Regional Attention for Visual Question Answering

Similar papers

Multi-Stage Attention Based Visual Question Answering

Question-Agnostic Attention for Visual Question Answering

Dual Path Multi-Modal High-Order Features for Textual Content Based Visual Question Answering

Multi-Modal Contextual Graph Neural Network for Text Visual Question Answering

Integrating Historical States and Co-Attention Mechanism for Visual Dialog

A Novel Attention-Based Aggregation Function to Combine Vision and Language

Answer-Checking in Context: A Multi-Modal Fully Attention Network for Visual Question Answering

Transformer Reasoning Network for Image-Text Matching and Retrieval

P ≈ NP, at Least in Visual Question Answering

Visual Style Extraction from Chart Images for Chart Restyling

Improving Visual Question Answering Using Active Perception on Static Images

MAGNet: Multi-Region Attention-Assisted Grounding of Natural Language Queries at Phrase Level

Graph Discovery for Visual Test Generation

Reinforcement Learning with Dual Attention Guided Graph Convolution for Relation Extraction

Visual Oriented Encoder: Integrating Multimodal and Multi-Scale Contexts for Video Captioning

Improving Visual Relation Detection Using Depth Maps

VSR++: Improving Visual Semantic Reasoning for Fine-Grained Image-Text Matching

Context Visual Information-Based Deliberation Network for Video Captioning

MANet: Multimodal Attention Network Based Point-View Fusion for 3D Shape Recognition

Using Scene Graphs for Detecting Visual Relationships

Two-Level Attention-Based Fusion Learning for RGB-D Face Recognition

Attentive Visual Semantic Specialized Network for Video Captioning

PrivAttNet: Predicting Privacy Risks in Images Using Visual Attention

More Correlations Better Performance: Fully Associative Networks for Multi-Label Image Classification

Zero-Shot Text Classification with Semantically Extended Graph Convolutional Network

ConvMath : A Convolutional Sequence Network for Mathematical Expression Recognition

Object Detection Using Dual Graph Network

From Early Biological Models to CNNs: Do They Look Where Humans Look?

Efficient-Receptive Field Block with Group Spatial Attention Mechanism for Object Detection

Information Graphic Summarization Using a Collection of Multimodal Deep Neural Networks

Attentive Hybrid Feature Based a Two-Step Fusion for Facial Expression Recognition

Adaptive Word Embedding Module for Semantic Reasoning in Large-Scale Detection

SIMCO: SIMilarity-Based Object COunting

Multi-Scale Residual Pyramid Attention Network for Monocular Depth Estimation

Enhanced User Interest and Expertise Modeling for Expert Recommendation

6D Pose Estimation with Correlation Fusion

Context for Object Detection Via Lightweight Global and Mid-Level Representations

Exploring and Exploiting the Hierarchical Structure of a Scene for Scene Graph Generation

P2 Net: Augmented Parallel-Pyramid Net for Attention Guided Pose Estimation

Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with Adversarial Discriminative Domain Regularization

Cross-View Relation Networks for Mammogram Mass Detection

Global-Local Attention Network for Semantic Segmentation in Aerial Images

Text Synopsis Generation for Egocentric Videos

Enriching Video Captions with Contextual Text

Transformer-Encoder Detector Module: Using Context to Improve Robustness to Adversarial Attacks on Object Detection

PICK: Processing Key Information Extraction from Documents Using Improved Graph Learning-Convolutional Networks

Multimodal Side-Tuning for Document Classification

PIN: A Novel Parallel Interactive Network for Spoken Language Understanding