Zehui Chen 陈泽徽

Researcher

Bytedance, Seed

Email: lovesnowbest@gmail.com
Google Scholar: Google Scholar Link
Github: https://github.com/zehuichen123/

Biography

I am a researcher at ByteDance, Seed, as a member of TopSeed. I got my Ph.D. degree from University of Science and Technology of China (USTC), advised by Prof. Feng Zhao in 2025. I got a B.E. degree at Tongji University in 2020. I also led the ~~high-level vision~~ language model group at USTC-BIVLab.

I am currently working on general agents, focused on agent data synthesis and training (~~search & code~~ professional & general tasks), along with the agent RL scaling for officially-released Seed models. Discussions and cooperations are welcomed! (Wechat: lovesnowbest)

✨ NOTE: Our Lab [Link] is looking forward to having elegant students or researchers join us. Positions for Master’s, Ph.D., and post-doc are opening. If you are interested in our research and want to join us, just email me!

🔥 NOTE: Our team (Seed LLM) is looking forward to having elegant researchers join us. Intern and FTE positions are opening. If you are interested in LLM reasoning/agent, feel free to contact me~

News

[2026.2] We released Seed 2.1. As a core contributor, I am responsible for the general agent ability of Seed 2.1.
[2026.2] We released Seed 2.0. As a core contributor, I am responsible for the general agent ability of Seed 2.0.
[2025.12] We released Seed 1.8. As a core contributor, I am responsible for the general agent ability of Seed 1.8.
[2025.9] We released FutureX, the largest and most diverse live benchmark for future prediction, which is reposted by Alon Musk (link)!
[2025.9] We released UI-TARS-2, an end-to-end RL training framework for GUI agent, which supports Doubao Phone!
[2024.7] We released MindSearch(思·索), which is an awesome AI search engine comparable to Perplexity.ai Pro. Welcome to use and provide your feedback!
[2024.3] We released Agent-FLAN, which explores the construction of high-quality agent corpus for LLMs.
[2023.12] We released T-Eval, a step-by-step evaluation benchmark to gauge your LLMs on tool utilization.
[2023.8] We released LAgent, an extremely simple LLM agent framework. Welcome to use and provide your feedback!

Experience

Sep.2019 - Jul.2020, Perception Research Intern, TuSimple
Oct.2020 - Mar.2021, Computer Vision Intern, ByteDance
Mar.2021 - Aug.2023, Perception Research Intern, SenseTime
Aug.2023 - Aug.2024, LLM Research Intern, Shanghai AI Laboratory
Aug.2024 - Aug.2025, LLM Research Intern, ByteDance, Seed
Aug.2025 - Now, LLM Researcher, ByteDance, Seed

Awards

CAS President Award (Special Award). 2025.
National Scholorship. 2024.
1^st place at VCL2023 Challenge, Multitask Learning for Robustness Track! (ICCV 2023 Workshop)
1^st place at VCL2023 Challenge, CTTA for Semantic Segmentation Track! (ICCV 2023 Workshop)
2^nd place at VCL2023 Challenge, CTTA for Object Detection Track! (ICCV 2023 Workshop)
National Scholarship. 2022.
3^rd place at SSLAD 2022 Challenge, 3D Object Detection Track! (ECCV 2022 Workshop)
2^nd place at Mobile AI 2022 Challenge, Monocular Depth Estimation Track! (ECCV 2022 Workshop)
National Scholarship. 2021.
2^nd place at Streaming Detection Challenge, Full Stack Track! (CVPR 2021 Workshop)
3^rd place at UG2+ Challenge, Low-Light Face Detection Track! (CVPR 2021 Workshop)
1^st place at 3D FUTURE Challenge, Instance Segmentation Track! (IJCAI 2020 Workshop)
1^st place at Waymo Open Challenge, 2D Detection Track! (CVPR 2020 Workshop)

Selected Publications

* denotes equal contribution. ♦ denotes project leader.

Preprint Papers

Seed2.1 Model Card: Agentic Intelligence for Productivity
Bytedance, Seed
2026
[PDF] [Project]

Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity
Bytedance, Seed
2026
[PDF] [Project]

Seed1.8 Model Card: Towards Generalized Real-World Agency
Bytedance, Seed
2025
[PDF] [Github]

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
Bytedance, Seed
Arxiv, 2025
[PDF] [Demo]

Published Papers

♠ (Co-) First author Papers

Show (Co-) First author Papers (12)

MindSearch: Mimicking Human Minds Elicits Deep AI Searcher
Zehui Chen*, Kuikun Liu*, Qiuchen Wang, Jiangning Liu, Wenwei Zhang, Kai Chen, Feng Zhao
International Conference on Learning Representations (ICLR), 2025
[PDF] [Project] [Code]

PlainMamba: Improving Non-hierarchical Mamba in Visual Recognition
Chenhongyi Yang*, Zehui Chen*, Miguel Espinosa*, Linus Ericsson, Zhenyu Wang, Jiaming Liu, Elliot J Crowley
The British Machine Vision Conference (BMVC), 2024
[PDF] [Code]

Graph-DETR4D: Spatio-Temporal Graph Modeling for Multi-View 3D Object Detection
Zehui Chen, Zheng Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Wu, Feng Zhao
IEEE Transactions on Image Processing (TIP), 2024

Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
Zehui Chen, Kuikun Liu, Qiuchen Wang, Wenwei Zhang, Jiangning Liu, Dahua Lin, Kai Chen, Feng Zhao
Findings of the Association for Computational Linguistics (ACL Findings), 2024
[PDF] [Code] [Project]

T-Eval: Evaluating the Tool Utilization Capability Step by Step
Zehui Chen*, Weihua Du*, Wenwei Zhang*, Kuikun Liu, Jiangning Liu, Miao Zheng, Jingming Gao, Songyang Zhang, Dahua Lin, Kai Chen, Feng Zhao
Annual Meeting of the Association for Computational Linguistics (ACL), 2024
[PDF] [Code] [Project]

Learning with Noisy Data for Semi-Supervised 3D Object Detection
Zehui Chen, Zhenyu Li, Shuo Wang, Dengpan Fu, Feng Zhao
International Conference on Computer Vision (ICCV), 2023
[Code]

DDOD: Dive Deeper into the Disentanglement of Object Detector
Zehui Chen, Chenhongyi Yang, Jiahao Chang, Feng Zhao, Zheng-Jun Zha, Feng Wu
IEEE Transactions on Multimedia (TMM)
[Code]

BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao
International Conference on Learning Representations (ICLR), 2023
[PDF] [Code]

Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao
ACM International Conference on Multimedia (ACM MM), 2022
[PDF] [Code]

AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao
European Conference on Computer Vision (ECCV), 2022
[PDF] [Code]

AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao, Bolei Zhou, Hang Zhao
International Joint Conference on Artificial Intelligence (IJCAI), 2022
[PDF]

Disentangle Your Dense Object Detector
Zehui Chen*, Chenhongyi Yang*, Qiaofei Li, Feng Zhao, Zheng-Jun Zha, Feng Wu
ACM International Conference on Multimedia (ACM MM), 2021
[PDF] [Code]

♠ Co-author Papers

ICML 2026 (3)

VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph
Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang, Zhuoning Guo, Bosi Zhang, Wenxuan Huang, Lin Chen, Zehui Chen, Pengjun Xie, Ruixue Ding
International Conference on Machine Learning (ICML), 2026

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang
International Conference on Machine Learning (ICML), 2026

Unbiased Principles, Robust Rewards
Qingnan Ren, Zhen Fang, Shiting Huang, Yu Zeng, Lin Chen, Zehui Chen, Feng Zhao
International Conference on Machine Learning (ICML), 2026

ACL 2026 (3)

Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
Qisheng Su, Shiting Huang, Zhen Fang, Ziyan Chen, Zehui Chen, Feng Zhao
Annual Meeting of the Association for Computational Linguistics (ACL), 2026

UnICorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
Zhen Fang, Ruiyan Han, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao
Annual Meeting of the Association for Computational Linguistics (ACL), 2026

Breaking Block Boundaries: Anchor-based History-stable Decoding for Diffusion Large Language Models
Shun Zou, Yong Wang, Zehui Chen, Lin Chen, Chongyang Tao, Feng Zhao, Xiangxiang Chu
Annual Meeting of the Association for Computational Linguistics (ACL), 2026

ICLR 2026 (5)

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning
Zhiheng Xi*, Jixuan Huang*, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
International Conference on Learning Representations (ICLR), 2026

Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
Yu Zeng, Wenxuan Huang, Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao
International Conference on Learning Representations (ICLR), 2026

V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction
Yiming Zhao, Yu Zeng, Yukun Qi, YaoYang Liu, Xikun Bao, Lin Chen, Zehui Chen, Qing Miao, Chenxi Liu, Jie Zhao, Feng Zhao
International Conference on Learning Representations (ICLR), 2026

FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction
Zhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Yixiao Tian, Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang
International Conference on Learning Representations (ICLR), 2026

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
International Conference on Learning Representations (ICLR), 2026

NeurIPS 2025 (1)

VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning
Qiuchen Wang, Ruixue Ding, Yu Zeng, Zehui Chen, Lin Chen, Shihang Wang, Pengjun Xie, Fei Huang, Feng Zhao
Neural Information Processing Systems (NeurIPS), 2025

EMNLP 2025 (3)

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents
Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
Conference on Empirical Methods in Natural Language Processing (EMNLP), 2025

CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios
Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao
Conference on Empirical Methods in Natural Language Processing (EMNLP), 2025

Enhancing Large Vision-Language Models with Ultra-Detailed Image Caption Generation
Yu Zeng, Yukun Qi, Yiming Zhao, Xikun Bao, Lin Chen, Zehui Chen, Shiting Huang, Jie Zhao, Feng Zhao
Conference on Empirical Methods in Natural Language Processing (EMNLP), 2025

ACL 2025 (1)

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiecao Chen
Annual Meeting of the Association for Computational Linguistics (ACL), 2025

ICLR 2025 (2)

PseDet: Revisiting the Power of Pseudo Label in Incremental Object Detection
Qiuchen Wang, Zehui Chen, Chenhongyi Yang, Jiaming Liu, Zhenyu Li, Feng Zhao
International Conference on Learning Representations (ICLR), 2025

MMSearch: Benchmarking the potential of large models as multi-modal search engines
Dongzhi Jiang*, Renrui Zhang*, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
International Conference on Learning Representations (ICLR), 2025
[PDF] [Project] [Code]

AAAI 2025 (2)

VFM-Adapter: Adapting Visual Foundation Models for Dense Prediction with Dynamic Hybrid Operation Mapping
Zheng Chen, Yu Zeng, Zehui Chen, Hongzhi Gao, Lin Chen, Jiaming Liu, Feng Zhao
AAAI Conference on Artificial Intelligence (AAAI), 2025

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding
Senqiao Yang, Jiaming Liu, Ray Zhang, Mingjie Pan, Zoey Guo, Xiaoqi Li, Zehui Chen, Peng Gao, Yandong Guo, Shanghang Zhang
AAAI Conference on Artificial Intelligence (AAAI), 2025
[PDF]

NeurIPS 2024 (2)

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
Lin Chen*, Xilin Wei*, Jinsong Li*, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin2, Feng Zhao, Jiaqi Wang
Neural Information Processing Systems (NeurIPS), 2024, Dataset Track
[PDF] [Project]

Are We on the Right Way for Evaluating Large Vision-Language Models?
Lin Chen*, Jinsong Li*, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Jiaqi Wang, Yu Qiao, Dahua Lin, Feng Zhao
Neural Information Processing Systems (NeurIPS), 2024
[PDF] [Project]

ECCV 2024 (1)

Stream Query Denoising for Vectorized HD Map Construction
Shuo Wang, Fan Jia, Yingfei Liu, Yucheng Zhao, Zehui Chen, Tiancai Wang, Chi Zhang, Xiangyu Zhang, Feng Zhao
European Conference on Computer Vision (ECCV), 2024
[PDF]

CVPR 2024 (1)

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation
Jiaming Liu, Ran Xu, Senqiao Yang, Renrui Zhang, Qizhe Zhang, Zehui Chen, Yandong Guo, Shanghang Zhang
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024
[PDF]

AAAI 2024 (2)

Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-Supervised 3D Object Detection
Hongzhi Gao, Zheng Chen, Zehui Chen, Lin Chen, Jiaming Liu, Shanghang Zhang, Feng Zhao
AAAI Conference on Artificial Intelligence (AAAI), 2024

Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction
Senqiao Yang, Jiarui Wu, Jiaming Liu, Xiaoqi Li, Qizhe Zhang, Mingjie Pan, Yulu Gan, Zehui Chen, Shanghang Zhang
AAAI Conference on Artificial Intelligence (AAAI), 2024

ICCV 2023 (1)

DETRDistill: A Universal Knowledge Distillation Framework for DETR-families
Jiahao Chang*, Shuo Wang*, Haiming Xu*, Zehui Chen, Chenhongyi Yang, Feng Zhao
International Conference on Computer Vision (ICCV), 2023

CVPR 2023 (1)

Towards Domain Generalization for Multi-view 3D Object Detection in Bird-Eye-View
Shuo Wang*, Xinhai Zhao*, Haiming Xu, Zehui Chen, Dameng Yu, Jiahao Chang, Zhen Yang, Feng Zhao
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023

ECCV 2022 (1)

Unsupervised Domain Adaptation for Monocular 3D Object Detection via Self-Training
Zhenyu Li, Zehui Chen, Ang Li, Liangji Fang, Qinhong Jiang, Xianming Liu, Junjun Jiang
European Conference on Computer Vision (ECCV), 2022
[PDF] [Code]

AAAI 2022 (1)

SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for Spatial-Aware Visual Representations
Zhenyu Li, Zehui Chen, Ang Li, Liangji Fang, Qinhong Jiang, Xianming Liu, Junjun Jiang, Bolei Zhou, Hang Zhao
AAAI Conference on Artificial Intelligence (AAAI), 2022
[PDF] [Code]