Multi-Modal (Multi-Channel Audio-Visual) Speech Recognition, Separation and Diarization, Everything Streaming All at Once

The directed graphical model for multi-modal cocktail party problem.

Goal of the task

## Streaming Input:  
- multi-channel audio from microphone array
- video from RGB/depth cameras

## Streaming Output:
- [Who] says [What] from [t1] to [t2] at [Location Where]

Overall multi-mmodal system

# demo available by 7/20

Streaming multi-talker ASR demo (with 4 simultaneous speakers)

# demo available by 7/20

Streaming multi-talker Diarization demo

# demo available by 7/20

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
README.md		README.md
_config.yml		_config.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Multi-Modal (Multi-Channel Audio-Visual) Speech Recognition, Separation and Diarization, Everything Streaming All at Once

The directed graphical model for multi-modal cocktail party problem.

Goal of the task

Overall multi-mmodal system

Streaming multi-talker ASR demo (with 4 simultaneous speakers)

Streaming multi-talker Diarization demo

About

Releases

Packages

anonymous-demos/Multimodal-All-In-One

Folders and files

Latest commit

History

Repository files navigation

Multi-Modal (Multi-Channel Audio-Visual) Speech Recognition, Separation and Diarization, Everything Streaming All at Once

The directed graphical model for multi-modal cocktail party problem.

Goal of the task

Overall multi-mmodal system

Streaming multi-talker ASR demo (with 4 simultaneous speakers)

Streaming multi-talker Diarization demo

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages