2 27 7

Jianzong Wu

jianzongwu

https://jianzongwu.github.io

jianzongwu

AI & ML interests

Multimodal Learning

Recent Activity

upvoted a paper 24 days ago

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

upvoted a paper 25 days ago

Advancing Open-source World Models

upvoted a paper 26 days ago

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

View all activity

Organizations

None yet

upvoted a paper 24 days ago

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Paper • 2601.21406 • Published 25 days ago • 5

upvoted a paper 25 days ago

Advancing Open-source World Models

Paper • 2601.20540 • Published 25 days ago • 127

upvoted a paper 26 days ago

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Paper • 2601.17058 • Published Jan 22 • 188

upvoted a paper 30 days ago

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Paper • 2601.16208 • Published Jan 22 • 52

upvoted a paper about 1 month ago

SAMTok: Representing Any Mask with Two Words

Paper • 2601.16093 • Published Jan 22 • 41

upvoted a paper about 2 months ago

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Paper • 2512.24551 • Published Dec 31, 2025 • 21

upvoted 2 papers 3 months ago

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Paper • 2512.05112 • Published Dec 4, 2025 • 12

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

Paper • 2512.02457 • Published Dec 2, 2025 • 14

commented a paper 3 months ago

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

Paper • 2512.02457 • Published Dec 2, 2025 • 14 •

updated 2 datasets 3 months ago

jianzongwu/VGGSound-T2AV

Viewer • Updated Dec 3, 2025 • 108k • 25

jianzongwu/ALT-Merge

Viewer • Updated Dec 3, 2025 • 3.25k • 19

published 2 datasets 3 months ago

jianzongwu/VGGSound-T2AV

Viewer • Updated Dec 3, 2025 • 108k • 25

jianzongwu/ALT-Merge

Viewer • Updated Dec 3, 2025 • 3.25k • 19

upvoted a paper 3 months ago

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Paper • 2511.09611 • Published Nov 12, 2025 • 70

upvoted 3 papers 4 months ago

Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

Paper • 2510.20579 • Published Oct 23, 2025 • 56

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Paper • 2510.18876 • Published Oct 21, 2025 • 37

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

Paper • 2510.11712 • Published Oct 13, 2025 • 31

upvoted a paper 5 months ago

LongLive: Real-time Interactive Long Video Generation

Paper • 2509.22622 • Published Sep 26, 2025 • 188

upvoted 2 papers 7 months ago

Qwen-Image Technical Report

Paper • 2508.02324 • Published Aug 4, 2025 • 272

Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

Paper • 2508.00819 • Published Aug 1, 2025 • 63

Jianzong Wu

AI & ML interests

Recent Activity

Organizations

jianzongwu's activity