Computer Vision and Pattern Recognition

Self-supervision drives representational convergence in medical foundation models more than clinical supervision

Self-supervision drives representational conve...

Computer Vision and Pattern Recognition

Soroosh Tayebi Arasteh

3 views

Online Neural Space Time Memory for Dynamic Novel View Synthesis

Online Neural Space Time Memory for Dynamic No...

Computer Vision and Pattern Recognition

librarian

34 views

MeanFlowNFT: Bringing Forward-Process RL to Average-Velocity Generators

MeanFlowNFT: Bringing Forward-Process RL to Av...

Computer Vision and Pattern Recognition

librarian

32 views

SHOVIR: A Benchmark for Evaluating Vision Shortcut Learning in Radiology Report Generation

SHOVIR: A Benchmark for Evaluating Vision Shor...

Computer Vision and Pattern Recognition

Filippo Ruffini

26 views

Steering Optimisation Trajectories in Diffusion Representation Learning

Steering Optimisation Trajectories in Diffusio...

Computer Vision and Pattern Recognition

librarian

33 views

Enhancing Brain MRI Anomaly Detection and Reasoning with ROI Rethink and Synthetic Data

Enhancing Brain MRI Anomaly Detection and Reas...

Computer Vision and Pattern Recognition

librarian

58 views

PhyGround: Benchmarking Physical Reasoning in Generative World Models

PhyGround: Benchmarking Physical Reasoning in ...

Computer Vision and Pattern Recognition

librarian

104 views

Image Generators are Generalist Vision Learners

Image Generators are Generalist Vision Learners

Computer Vision and Pattern Recognition

Vision Banana

169 views

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

MM-WebAgent: A Hierarchical Multimodal Web Age...

Computer Vision and Pattern Recognition

librarian

138 views

ActionParty: Multi-Subject Action Binding in Generative Video Games

ActionParty: Multi-Subject Action Binding in G...

Computer Vision and Pattern Recognition

Alexander Pondaven

178 views

No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models

No Hard Negatives Required: Concept Centric Le...

Computer Vision and Pattern Recognition

Hai Pham*

175 views

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Do VLMs Need Vision Transformers? Evaluating S...

Computer Vision and Pattern Recognition

librarian

181 views

SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues

SAVeS: Steering Safety Judgments in Vision-Lan...

Computer Vision and Pattern Recognition

librarian

169 views

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

DreamPartGen: Semantically Grounded Part-Level...

Computer Vision and Pattern Recognition

librarian

185 views

Near-perfect photo-ID of the Hula painted frog with zero-shot deep local-feature matching

Near-perfect photo-ID of the Hula painted frog...

Computer Vision and Pattern Recognition

yoavram

272 views

Multilayer Graph Approach to Deep Subspace Clustering

Multilayer Graph Approach to Deep Subspace Clu...

Computer Vision and Pattern Recognition

lovro-sindicic

254 views

Label-independent hyperparameter-free self-supervised single-view deep subspace clustering

Label-independent hyperparameter-free self-sup...

Computer Vision and Pattern Recognition

lovro-sindicic

256 views

PersonaLive! Expressive Portrait Image Animation for Live Streaming

PersonaLive! Expressive Portrait Image Animati...

Computer Vision and Pattern Recognition

Grisha Samokhin

273 views

Mull-Tokens: Modality-Agnostic Latent Thinking

Mull-Tokens: Modality-Agnostic Latent Thinking

Computer Vision and Pattern Recognition

librarian

292 views

Linear Gaussian Bounding Box Representation and Ring-Shaped Rotated Convolution for Oriented Object Detection

Linear Gaussian Bounding Box Representation an...

Computer Vision and Pattern Recognition

rahulraj Kk

283 views

Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer
Memory

Point3R: Streaming 3D Reconstruction with Expl...

Computer Vision and Pattern Recognition

librarian

575 views

FADRM: Fast and Accurate Data Residual Matching for Dataset Distillation

FADRM: Fast and Accurate Data Residual Matchin...

Computer Vision and Pattern Recognition

librarian

530 views

HalluSegBench: Counterfactual Visual Reasoning for Segmentation
Hallucination Evaluation

HalluSegBench: Counterfactual Visual Reasoning...

Computer Vision and Pattern Recognition

librarian

615 views

Whole-Body Conditioned Egocentric Video Prediction

Whole-Body Conditioned Egocentric Video Prediction

Computer Vision and Pattern Recognition

librarian

615 views

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven
Thinking and Visual Drawing

Reinforcing Spatial Reasoning in Vision-Langua...

Computer Vision and Pattern Recognition

librarian

675 views

Outside Knowledge Conversational Video (OKCV) Dataset -- Dialoguing over
Videos

Outside Knowledge Conversational Video (OKCV) ...

Computer Vision and Pattern Recognition

librarian

559 views

Decoupling the Image Perception and Multimodal Reasoning for Reasoning
Segmentation with Digital Twin Representations

Decoupling the Image Perception and Multimodal...

Computer Vision and Pattern Recognition

librarian

699 views

Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via
Spatial Reasoning

Direct Numerical Layout Generation for 3D Indo...

Computer Vision and Pattern Recognition

librarian

741 views

Refer to Anything with Vision-Language Prompts

Refer to Anything with Vision-Language Prompts

Computer Vision and Pattern Recognition

Shengcao Cao

721 views

Thinking with Generated Images

Thinking with Generated Images

Computer Vision and Pattern Recognition

librarian

685 views

Let Androids Dream of Electric Sheep: A Human-like Image Implication
Understanding and Reasoning Framework

Let Androids Dream of Electric Sheep: A Human-...

Computer Vision and Pattern Recognition

Anastasia Kokkanen

912 views

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

Delving into RL for Image Generation with CoT:...

Computer Vision and Pattern Recognition

librarian

681 views

Web analytics