Vision-Language-Action

Trending

6papers

6.3viability

+100%30d

Papers

1–6 of 6

Research Paper·Mar 11, 2026

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

Vision-Language-Action (VLA) models enable generalist robotic manipulation but suffer from high inference latency. This bottleneck stems from the massive number of visual tokens processed by large lan...

8.0 viability

Research Paper·Mar 10, 2026

AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

We propose a standalone autoregressive (AR) Action Expert that generates actions as a continuous causal sequence while conditioning on refreshable vision-language prefixes. In contrast to existing Vis...

7.0 viability

Research Paper·Jan 14, 2026

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-...

7.0 viability

Research Paper·Mar 13, 2026

ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries

Vision-language-action (VLA) models for closed-loop robot control are typically cast under the Markov assumption, making them prone to errors on tasks requiring historical context. To incorporate memo...

7.0 viability

Research Paper·Mar 18, 2026

KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition

In this paper, we introduce a novel kinematics-rich vision-language-action (VLA) task, in which language commands densely encode diverse kinematic attributes (such as direction, trajectory, orientatio...

6.0 viability

Research Paper·Mar 16, 2026

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for robotic manipulation, in which reliable action prediction critically depends on accurately interpreting and integr...

3.0 viability

Vision-Language-Action

Papers

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries

KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Filters