新闻中心

人工智能

全球模型新榜单,阿里千问超DeepSeek

2025-02-10 14:37:20


025年2月4日,Chatbot Arena LLM Leaderboard更新了最新一期的榜单,阿里云通义团队的Qwen2.5-Max模型以1332分位列全球第七名,超越了DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型


引用:最新全球模型榜单:阿里Qwen2.5-Max超DeepSeek V3!又一国产大模型海外出圈!


640.jpg


以下是关于Qwen2.5-Max的详细信息:


Qwen2.5-Max的主要特点

  • 性能表现:Qwen2.5-Max在数学和编程上排名第一,在Hard prompts方面排名第二,展现出极强劲的综合性能。

  • 技术架构:该模型采用了超大规模的专家混合(MoE)模型架构,预训练数据量超过20万亿个token,运用监督微调(SFT)和人类反馈强化学习(RLHF)技术进行优化。

Qwen2.5-Max与其他模型的对比

  • 与DeepSeek V3的对比:Qwen2.5-Max在多个领域表现强劲,特别是在专业技术向的(编程、数学、有难度的提示词等)方面,几乎全面超越了DeepSeek V3。

  • 与其他顶级模型的对比:在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

返回