10 35 1

Yang Shi

DogNeverSleep

https://FrankYang-17.github.io/

FrankYang-17

AI & ML interests

👨🏻‍🎓PhD student at Peking University

Recent Activity

upvoted a paper about 13 hours ago

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

upvoted a paper about 13 hours ago

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

upvoted a paper about 13 hours ago

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

View all activity

Organizations

upvoted 3 papers about 13 hours ago

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Paper • 2604.10949 • Published 2 days ago • 36

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Paper • 2604.11804 • Published 2 days ago • 55

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

Paper • 2604.10098 • Published 4 days ago • 55

updated a dataset about 19 hours ago

asdnao21/Edit-Res-1

Viewer • Updated about 7 hours ago • 4.2k • 3.98k

published a dataset 2 days ago

asdnao21/Edit-Res-1

Viewer • Updated about 7 hours ago • 4.2k • 3.98k

upvoted a paper 5 days ago

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Paper • 2604.08545 • Published 6 days ago • 40

upvoted a paper 7 days ago

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Paper • 2604.05015 • Published 9 days ago • 232

authored 2 papers 8 days ago

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Paper • 2604.03016 • Published 12 days ago • 37

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

Paper • 2604.04707 • Published 9 days ago • 200

upvoted a paper 8 days ago

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

Paper • 2604.04707 • Published 9 days ago • 200

upvoted a paper 9 days ago

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Paper • 2604.03016 • Published 12 days ago • 37

updated a dataset 10 days ago

asdnao21/RM_Model_Infer

Viewer • Updated 9 days ago • 5.9k • 14.3k

published a dataset 11 days ago

asdnao21/RM_Model_Infer

Viewer • Updated 9 days ago • 5.9k • 14.3k

authored a paper 22 days ago

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Paper • 2603.15030 • Published 30 days ago • 21

upvoted a paper 26 days ago

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Paper • 2603.15030 • Published 30 days ago • 21

submitted a paper to Daily Papers 26 days ago

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Paper • 2603.15030 • Published 30 days ago • 21

authored 4 papers about 2 months ago

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Paper • 2602.12876 • Published Feb 13 • 12

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Paper • 2602.04804 • Published Feb 4 • 50

Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

Paper • 2602.01630 • Published Feb 2 • 50

DiaDem: Advancing Dialogue Descriptions in Audiovisual Video Captioning for Multimodal Large Language Models

Paper • 2601.19267 • Published Jan 27

Yang Shi

AI & ML interests

Recent Activity

Organizations

DogNeverSleep's activity