人工智能
全球模型新榜单,阿里千问超DeepSeek
2025-02-10 14:37:20
025年2月4日,Chatbot Arena LLM Leaderboard更新了最新一期的榜单,阿里云通义团队的Qwen2.5-Max模型以1332分位列全球第七名,超越了DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型。
引用:最新全球模型榜单:阿里Qwen2.5-Max超DeepSeek V3!又一国产大模型海外出圈!

以下是关于Qwen2.5-Max的详细信息:
Qwen2.5-Max的主要特点
性能表现:Qwen2.5-Max在数学和编程上排名第一,在Hard prompts方面排名第二,展现出极强劲的综合性能。
技术架构:该模型采用了超大规模的专家混合(MoE)模型架构,预训练数据量超过20万亿个token,运用监督微调(SFT)和人类反馈强化学习(RLHF)技术进行优化。
Qwen2.5-Max与其他模型的对比
与DeepSeek V3的对比:Qwen2.5-Max在多个领域表现强劲,特别是在专业技术向的(编程、数学、有难度的提示词等)方面,几乎全面超越了DeepSeek V3。
与其他顶级模型的对比:在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
