Papers-Benchmarks - a sugatoray Collection

sugatoray 's Collections

Papers + RL/Reasoning

Marimo

RLMs (Reasoning Language Models)

Books And Notes

Reasoning Datasets

SmolAgents Tools (Spaces)

Bookmark::Models

LLMs

AV LLMs

LLM Training Datasets

Papers

Leaderboards 🔥

Papers-Fundamentals

TFM: TimeSeries Foundation Models

Papers-Benchmarks

LLMs-EmbeddingModels

LLM + Datasets : Finance

Papers-Benchmarks

updated Jun 19, 2025

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery

Paper • 2406.08587 • Published Jun 12, 2024 • 16
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

Paper • 2406.09170 • Published Jun 13, 2024 • 27
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

Paper • 2407.18901 • Published Jul 26, 2024 • 35
Benchmarking Agentic Workflow Generation

Paper • 2410.07869 • Published Oct 10, 2024 • 29
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Paper • 2412.07626 • Published Dec 10, 2024 • 28
opendatalab/OmniDocBench

Viewer • Updated Sep 26, 2025 • 1.36k • 8.19k • 59
Sleeping

4

OmniEval

🥇

4
RUC-NLPIR/OmniEval-AutoGen-Dataset

Updated Dec 19, 2024 • 456 • 5
m-ric/agents_medium_benchmark_2

Viewer • Updated Dec 27, 2024 • 142 • 207 • 11
gaia-benchmark/GAIA

Viewer • Updated Oct 28, 2025 • 932 • 16k • 579
GAIA: a benchmark for General AI Assistants

Paper • 2311.12983 • Published Nov 21, 2023 • 244
m-ric/agents_small_benchmark

Viewer • Updated Jan 19, 2024 • 100 • 144 • 11
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Paper • 2502.09560 • Published Feb 13, 2025 • 35
m-a-p/CodeCriticBench

Preview • Updated Nov 2, 2025 • 181 • 4
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

Paper • 2503.01935 • Published Mar 3, 2025 • 29
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

Paper • 2502.12115 • Published Feb 17, 2025 • 46
MMTEB: Massive Multilingual Text Embedding Benchmark

Paper • 2502.13595 • Published Feb 19, 2025 • 43
kyutai/Babillage

Viewer • Updated Mar 21, 2025 • 465k • 86 • 12
YourBench: Easy Custom Evaluation Sets for Everyone

Paper • 2504.01833 • Published Apr 2, 2025 • 22
Running

4

Agent Reward Bench Demo

💻

4

Explore agent trajectories and judgments in web benchmarks
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

Paper • 2504.08942 • Published Apr 11, 2025 • 28
Benchmarking LLMs' Swarm intelligence

Paper • 2505.04364 • Published May 7, 2025 • 20
FullFront: Benchmarking MLLMs Across the Full Front-End Engineering Workflow

Paper • 2505.17399 • Published May 23, 2025 • 14
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

Paper • 2506.14028 • Published Jun 16, 2025 • 93