I am a Research Scientist in Huawei Noah’s Ark Laboratory. I received my PhD degree from the University of Chinese Academy of Sciences in 2021. My research interests include 2D/3D open-set recognition, 3D scene understanding, embodied AI, and LLMs/VLMs.

We are now recruiting project/research interns. If you are interested in, please directly send your CV to zhu.yee at outlook.com.

The video of our ECCV 2022 workshop "Cross-modal Human-robot Interaction (2nd)" [link] is available at [link].

Publications

* indicates equal contribution.

UNIT: Unifying Image and Text Recognition in One Vision Encoder

Yi Zhu, Yanpeng Zhou, Chunwei Wang, Yang Cao, Jianhua Han, Lu Hou, Hang Xu.

Neural Information Processing Systems (NeurIPS), 2024.

Paper Code

VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation

Youpeng Wen, Junfan Lin, Yi Zhu, Jianhua Han, Hang Xu, Shen Zhao, Xiaodan Liang.

Neural Information Processing Systems (NeurIPS), 2024.

Towards Deviation-robust Agent Navigation via Perturbation-aware Contrastive Learning

Bingqian Lin, Yanxin Long, Yi Zhu, Fengda Zhu, Xiaodan Liang, Qixiang Ye, Liang Lin.

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023.

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation

Kaixin Cai, Pengzhen Ren, Yi Zhu, Hang Xu, Jianzhuang Liu, Changlin Li, Guangrun Wang, Xiaodan Liang.

International Conference on Computer Vision (ICCV), 2023.

LayouTransformer++: Sequential Pattern Modeling with Transformer for Generating Layout Patterns

Liangjian Wen, Yi Zhu, Lei Ye, Guojin Chen, Bei Yu, Jianzhuang Liu, Zenglin Xu, Chunjing Xu.

IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems (TCAD), 2023.

ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency

Pengzhen Ren, Changlin Li, Hang Xu, Yi Zhu, Guangrun Wang, Jianzhuang Liu, Xiaojun Chang, Xiaodan Liang.

International Conference on Learning Representation (ICLR), 2023.

Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation

Bingqian Lin, Yi Zhu, Xiaodan Liang, Liang Lin, Jianzhuang Liu.

Association for the Advancement of Artificial Intelligence (AAAI), 2023.

RelCLIP: Adapting Language-Image Pretraining for Visual Relationship Detection via Relational Contrastive Learning

Yi Zhu*, Zhaoqing Zhu*, Bingqian Lin, Xiaodan Liang, Feng Zhao, Jianzhuang Liu.

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022.

CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation

Zicheng Zhang*, Yi Zhu*, Jianzhuang Liu, Xiaodan Liang, Wei Ke.

Neural Information Processing Systems (NeurIPS), 2022.

Paper

LayouTransformer: Generating Layout Patterns with Transformer via Sequential Pattern Modeling

Liangjian Wen*, Yi Zhu*, Lei Ye, Guojin Chen, Bei Yu, Jianzhuang Liu, Chunjing Xu.

International Conference on Computer-Aided Design (ICCAD), 2022.

ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts

Bingqian Lin, Yi Zhu, Zicong Chen, Xiwen Liang, Jianzhuang Liu, Xiaodan Liang.

Computer Vision and Pattern Recognition (CVPR), 2022.

Paper Code

Contrastive Instruction-Trajectory Learning for Vision-Language Navigation

Xiwen Liang, Fengda Zhu, Yi Zhu, Bingqian Lin, Bing Wang, Xiaodan Liang.

Association for the Advancement of Artificial Intelligence (AAAI), 2022.

Paper Code

Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

Yi Zhu*, Yue Weng*, Fengda Zhu, Xiaodan Liang, Qixiang Ye, Yutong Lu, Jianbin jiao.

International Conference on Computer Vision (ICCV), 2021.

Paper Code

Retreat for Advancing: Dynamic Reinforced Instruction Attacker for Robust Visual Navigation

Bingqian Lin, Yi Zhu, Yanxin Long, Xiaodan Liang, Qixiang Ye, Liang Lin.

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021.

Paper

SOON: Scenario Oriented Object Navigation with Graph-based Exploration

Fengda Zhu, Xiwen Liang, Yi Zhu, Qizhi Yu, Xiaojun Chang, Xiaodan Liang.

Computer Vision and Pattern Recognition (CVPR), 2021.

Paper Challenge

Vision-Dialog Navigation by Exploring Cross-modal Memory

Yi Zhu, Fengda Zhu, Zhaohuan Zhan, Bingqian Lin, Jianbin jiao, Xiaojun Chang, Xiaodan Liang.

Computer Vision and Pattern Recognition (CVPR), 2020.

Paper Code

Vision-Language Navigation with Auxiliary Reasoning Tasks

Fengda Zhu, Yi Zhu, Xiaojun Chang, Xiaodan Liang.

Computer Vision and Pattern Recognition (CVPR) oral, 2020.

Paper

Configurable Graph Reasoning for Visual Relationship Detection

Yi Zhu, Xiwen Liang, Bingqian Lin, Jianbin jiao, Qixiang Ye, Liang Lin, Xiaodan Liang.

IEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2020.

Paper

Selective Sparse Sampling for Fine-grained Image Recognition

Yao Ding*, Yanzhao Zhou*, Yi Zhu, Qixiang Ye, Jianbin Jiao.

International Conference on Computer Vision (ICCV), 2019.

Paper Code

Learning Instance Activation Maps for Weakly Supervised Instance Segmentation

Yi Zhu, Yanzhao Zhou, Huijuan Xu, Qixiang Ye, David Doermann, Jianbin Jiao.

Computer Vision and Pattern Recognition (CVPR), 2019.

Paper Demo

Weakly Supervised Instance Segmentation using Class Peak Response

Yanzhao Zhou, Yi Zhu, Qixiang Ye, Qiang Qiu, Jianbin Jiao.

Computer Vision and Pattern Recognition (CVPR) spotlight, 2018.

Paper Code

Soft Proposal Networks for Weakly Supervised Object Localization

Yi Zhu, Yanzhao Zhou, Qixiang Ye, Qiang Qiu, Jianbin Jiao.

International Conference on Computer Vision (ICCV), 2017.

Paper Code

Correlated Topic Vector for Scene Classification

Pengxu Wei, Fei Qin, Fang Wan, Yi Zhu, Jianbin Jiao, Qixiang Ye.

IEEE Transactions on Image Processing (TIP), April 2017.

Paper

Projects

Aerial Detection System, 2017

Our system won first place ( vehicle detection) and second place (plane detection) in the XingTu Cup Remote-Sensing Contest. Media coverage

Contraband detecting of luggage in X-ray images, 2017

To address the problem of obtaining object-level annotations of large scale Xray images, I lead a team to develop an weakly-supervised contraband detecting system based on Soft Proposal Network (my ICCV 2017 paper).

Honors

Chinese Academy of Sciences Dean's Award, 2020.
Women in Computer Vision (WiCV) of CVPR 2018, Travel Award.
Merit Student Award in UCAS, 2018.
National Scholarship, 2017
First place of Xingtu Cup Vehicle Detection Competition, 2017.
Second place of Xingtu Cup Plane Detection Competition, 2017.
Merit Student Award in UCAS, 2017.

Contanct

zhuyi215 at mails.ucas.ac.cn
No.380 Huaibeizhuang, Huairou District, Beijing, China.
A-2 BLDG, RM. 332.
https://github.com/yeezhu

Hobbies

Taekwondo (black belt 1st dan).
Traveling, hitchhiking, cycling.