VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang

December, 2024

Type

Preprint

Publication

arXiv preprint arXiv:2412.00947

NLP CV selected

Ryo Kamoi

PhD student at Penn State University (2023-), MS at UT Austin, BE at Keio University. My research interests are in building trustworthy natural language processing systems.