jeinlee1991/chinese-llm-benchmark
Evaluation & TestingReLE评测:中文AI大模型能力评测(持续更新):目前已囊括335个大模型,覆盖chatgpt、gpt-5.2、o4-mini、谷歌gemini-3-pro、Claude-4.5、文心ERNIE-X1.1、ERNIE-5.0-Thinking、qwen3-max、百川、讯飞星火、商汤senseChat等商用模型, 以及kimi-k2、ernie4.5、minimax-M2、deepseek-v3.2、qwen3-2507、llama4、智谱GLM-4.6、gemma3、mistral等开源大模型。不仅提供排行榜,也提供规模超200万的大模型缺陷库!方便广大社区研究分析、改进大模型。
GitHub Metrics
Stars
5.6k
Forks
224
Open Issues
12
Watchers
62
Contributors
2
Weekly Commits
0
Language
—
License
—
Last Commit
Feb 26, 2026
Created
Jun 4, 2023
Latest Release
v5.8.13
Release Date
Feb 14, 2026
Synced: Mar 3, 2026
Quality Scores
Documentation Qualityw: 20%
0.0
Community Healthw: 20%
0.0
Maintenance Velocityw: 15%
0.0
API Design & DXw: 20%
0.0
Production Readinessw: 15%
0.0
Ecosystem Integrationw: 10%
0.0
Tags
agentic-aiartificial-intelligencellm-agentllm-evaluation
Radar
No scores yet