ICPR2020 Paper Browser

Paper download is intended for registered attendees only, and is subjected to the IEEE Copyright Policy. Any other use is strongly forbidden.

Robust Audio-Visual Speech Recognition Based on Hybrid Fusion

Hong Liu, Wenhao Li, Bing Yang

Auto-TLDR; Hybrid Fusion Based AVSR with Residual Networks and Bidirectional Gated Recurrent Unit for Robust Speech Recognition in Noise Conditions

Abstract Slides Poster

The fusion of audio and visual modalities is an important stage of audio-visual speech recognition (AVSR), which is generally approached through feature fusion or decision fusion. Feature fusion can exploit the covariations between features from different modalities effectively, whereas decision fusion shows the robustness of capturing an optimal combination of multi-modality. In this work, to take full advantage of the complementarity of the two fusion strategies and address the challenge of inherent ambiguity in noisy environments, we propose a novel hybrid fusion based AVSR method with residual networks and Bidirectional Gated Recurrent Unit (BGRU), which is able to distinguish homophones in both clean and noisy conditions. Specifically, a simple yet effective audio-visual encoder is used to map audio and visual features into a shared latent space to capture more discriminative multi-modal feature and find the internal correlation between spatial-temporal information for different modalities. Furthermore, a decision fusion module is designed to get final predictions in order to robustly utilize the reliability measures of audio-visual information. Finally, we introduce a combined loss, which shows its noise-robustness in learning the joint representation across various modalities. Experimental results on the largest publicly available dataset (LRW) demonstrate the robustness of the proposed method under various noisy conditions.

Similar papers

Audio-Visual Speech Recognition Using a Two-Step Feature Fusion Strategy

Hong Liu, Wanlu Xu, Bing Yang

Auto-TLDR; A Two-Step Feature Fusion Network for Speech Recognition

Robust Audio-Visual Speech Recognition Based on Hybrid Fusion

Similar papers

Audio-Visual Speech Recognition Using a Two-Step Feature Fusion Strategy

Mutual Alignment between Audiovisual Features for End-To-End Audiovisual Speech Recognition

Audio-Visual Predictive Coding for Self-Supervised Visual Representation Learning

Person Recognition with HGR Maximal Correlation on Multimodal Data

Visual Oriented Encoder: Integrating Multimodal and Multi-Scale Contexts for Video Captioning

3D Audio-Visual Speaker Tracking with a Novel Particle Filter

Three-Dimensional Lip Motion Network for Text-Independent Speaker Recognition

Unsupervised Co-Segmentation for Athlete Movements and Live Commentaries Using Crossmodal Temporal Proximity

Talking Face Generation Via Learning Semantic and Temporal Synchronous Landmarks

Audio-Video Detection of the Active Speaker in Meetings

Improving Mix-And-Separate Training in Audio-Visual Sound Source Separation with an Object Prior

Spatial Bias in Vision-Based Voice Activity Detection

Attentive Hybrid Feature Based a Two-Step Fusion for Facial Expression Recognition

Single-Modal Incremental Terrain Clustering from Self-Supervised Audio-Visual Feature Learning

Hybrid Network for End-To-End Text-Independent Speaker Identification

Video-Based Facial Expression Recognition Using Graph Convolutional Networks

Two-Stream Temporal Convolutional Network for Dynamic Facial Attractiveness Prediction

End-To-End Triplet Loss Based Emotion Embedding System for Speech Emotion Recognition

Learning Visual Voice Activity Detection with an Automatically Annotated Dataset

Exploring Spatial-Temporal Representations for fNIRS-based Intimacy Detection via an Attention-enhanced Cascade Convolutional Recurrent Neural Network

SAT-Net: Self-Attention and Temporal Fusion for Facial Action Unit Detection

Context Matters: Self-Attention for Sign Language Recognition

DenseRecognition of Spoken Languages

Which are the factors affecting the performance of audio surveillance systems?

Responsive Social Smile: A Machine-Learning Based Multimodal Behavior Assessment Framework towards Early Stage Autism Screening

Vision-Based Multi-Modal Framework for Action Recognition

Context Visual Information-Based Deliberation Network for Video Captioning

AttendAffectNet: Self-Attention Based Networks for Predicting Affective Responses from Movies

Dual Path Multi-Modal High-Order Features for Textual Content Based Visual Question Answering

Let's Play Music: Audio-Driven Performance Video Generation

Ballroom Dance Recognition from Audio Recordings

A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News Anchors

MFI: Multi-Range Feature Interchange for Video Action Recognition

Wavelet Attention Embedding Networks for Video Super-Resolution

Continuous Sign Language Recognition with Iterative Spatiotemporal Fine-Tuning

ReADS: A Rectified Attentional Double Supervised Network for Scene Text Recognition

Self-Supervised Joint Encoding of Motion and Appearance for First Person Action Recognition

Multi-Scale Cascading Network with Compact Feature Learning for RGB-Infrared Person Re-Identification

Identity-Aware Facial Expression Recognition in Compressed Video

Anticipating Activity from Multimodal Signals

RMS-Net: Regression and Masking for Soccer Event Spotting

Enhancing Handwritten Text Recognition with N-Gram Sequencedecomposition and Multitask Learning

Construction Worker Hardhat-Wearing Detection Based on an Improved BiFPN

Cascade Attention Guided Residue Learning GAN for Cross-Modal Translation

Integrating Historical States and Co-Attention Mechanism for Visual Dialog

A Grid-Based Representation for Human Action Recognition

Cross-Lingual Text Image Recognition Via Multi-Task Sequence to Sequence Learning

Space-Time Domain Tensor Neural Networks: An Application on Human Pose Classification