Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2502.04128

about 1 month ago

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Paper • 2405.18503 • Published May 28, 2024 • 9
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2405.20289 • Published May 30, 2024 • 11
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

Paper • 2406.02897 • Published Jun 5, 2024 • 16
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Paper • 2406.03344 • Published Jun 5, 2024 • 22

Evolving Deeper LLM Thinking

Paper • 2501.09891 • Published Jan 17, 2025 • 115
PaSa: An LLM Agent for Comprehensive Academic Paper Search

Paper • 2501.10120 • Published Jan 17, 2025 • 54
Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong

Paper • 2501.09775 • Published Jan 16, 2025 • 32
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

Paper • 2501.10132 • Published Jan 17, 2025 • 22

TTS foundation model compatible with Llama framework (160k hours tokenized speech data released)

HKUSTAudio/xcodec2

Audio-to-Audio • 0.8B • Updated Feb 23, 2025 • 15.5k • 96
HKUSTAudio/Llasa-1B

Text-to-Speech • 1B • Updated May 10, 2025 • 14.5k • 102
HKUSTAudio/Llasa-3B

Text-to-Speech • 4B • Updated May 10, 2025 • 987 • 524
HKUSTAudio/Llasa-8B

Text-to-Speech • 9B • Updated Mar 9, 2025 • 1.32k • 96

Audio/Music/Speech/etc.

Language Model Can Listen While Speaking

Paper • 2408.02622 • Published Aug 5, 2024 • 40
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

Paper • 2502.04128 • Published Feb 6, 2025 • 27

ZhenYe234/hubert_base_general_audio

94.4M • Updated Feb 21, 2025 • 48.7k • 4
ZhenYe234/xcodec

Updated Sep 25, 2024 • 1
HKUSTAudio/xcodec2

Audio-to-Audio • 0.8B • Updated Feb 23, 2025 • 15.5k • 96
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

Paper • 2408.17175 • Published Aug 30, 2024 • 6

GaussianSpeech: Audio-Driven Gaussian Avatars

Paper • 2411.18675 • Published Nov 27, 2024
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

Paper • 2502.04128 • Published Feb 6, 2025 • 27
MOSPA: Human Motion Generation Driven by Spatial Audio

Paper • 2507.11949 • Published Jul 16, 2025 • 25
FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers

Paper • 2507.12956 • Published Jul 17, 2025 • 25

Our AK Daily Papers

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

Paper • 2305.06908 • Published May 11, 2023 • 6
CoMoSVC: Consistency Model-based Singing Voice Conversion

Paper • 2401.01792 • Published Jan 3, 2024 • 11
ChatMusician: Understanding and Generating Music Intrinsically with LLM

Paper • 2402.16153 • Published Feb 25, 2024 • 58
FlashSpeech: Efficient Zero-Shot Speech Synthesis

Paper • 2404.14700 • Published Apr 23, 2024 • 32

A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Paper • 2312.08578 • Published Dec 14, 2023 • 20
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

Paper • 2312.08583 • Published Dec 14, 2023 • 11
Vision-Language Models as a Source of Rewards

Paper • 2312.09187 • Published Dec 14, 2023 • 12
StemGen: A music generation model that listens

Paper • 2312.08723 • Published Dec 14, 2023 • 49

about 1 month ago

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Paper • 2405.18503 • Published May 28, 2024 • 9
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2405.20289 • Published May 30, 2024 • 11
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

Paper • 2406.02897 • Published Jun 5, 2024 • 16
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Paper • 2406.03344 • Published Jun 5, 2024 • 22

ZhenYe234/hubert_base_general_audio

94.4M • Updated Feb 21, 2025 • 48.7k • 4
ZhenYe234/xcodec

Updated Sep 25, 2024 • 1
HKUSTAudio/xcodec2

Audio-to-Audio • 0.8B • Updated Feb 23, 2025 • 15.5k • 96
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

Paper • 2408.17175 • Published Aug 30, 2024 • 6

Evolving Deeper LLM Thinking

Paper • 2501.09891 • Published Jan 17, 2025 • 115
PaSa: An LLM Agent for Comprehensive Academic Paper Search

Paper • 2501.10120 • Published Jan 17, 2025 • 54
Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong

Paper • 2501.09775 • Published Jan 16, 2025 • 32
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

Paper • 2501.10132 • Published Jan 17, 2025 • 22

GaussianSpeech: Audio-Driven Gaussian Avatars

Paper • 2411.18675 • Published Nov 27, 2024
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

Paper • 2502.04128 • Published Feb 6, 2025 • 27
MOSPA: Human Motion Generation Driven by Spatial Audio

Paper • 2507.11949 • Published Jul 16, 2025 • 25
FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers

Paper • 2507.12956 • Published Jul 17, 2025 • 25

TTS foundation model compatible with Llama framework (160k hours tokenized speech data released)

HKUSTAudio/xcodec2

Audio-to-Audio • 0.8B • Updated Feb 23, 2025 • 15.5k • 96
HKUSTAudio/Llasa-1B

Text-to-Speech • 1B • Updated May 10, 2025 • 14.5k • 102
HKUSTAudio/Llasa-3B

Text-to-Speech • 4B • Updated May 10, 2025 • 987 • 524
HKUSTAudio/Llasa-8B

Text-to-Speech • 9B • Updated Mar 9, 2025 • 1.32k • 96

Our AK Daily Papers

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

Paper • 2305.06908 • Published May 11, 2023 • 6
CoMoSVC: Consistency Model-based Singing Voice Conversion

Paper • 2401.01792 • Published Jan 3, 2024 • 11
ChatMusician: Understanding and Generating Music Intrinsically with LLM

Paper • 2402.16153 • Published Feb 25, 2024 • 58
FlashSpeech: Efficient Zero-Shot Speech Synthesis

Paper • 2404.14700 • Published Apr 23, 2024 • 32

Audio/Music/Speech/etc.

Language Model Can Listen While Speaking

Paper • 2408.02622 • Published Aug 5, 2024 • 40
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

Paper • 2502.04128 • Published Feb 6, 2025 • 27

A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Paper • 2312.08578 • Published Dec 14, 2023 • 20
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

Paper • 2312.08583 • Published Dec 14, 2023 • 11
Vision-Language Models as a Source of Rewards

Paper • 2312.09187 • Published Dec 14, 2023 • 12
StemGen: A music generation model that listens

Paper • 2312.08723 • Published Dec 14, 2023 • 49

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs