Qwen3 相关信息详解:性能、突破、训练方法、版本迭代

Qwen3发布新系列模型,包括MoE架构(30B和235B)和Dense架构(0.6B至32B)六款,其中235B旗舰版本性能或超过DeepSeek R1;引入思考模式/非思考模式无缝切换功能,支持119种语言方言,加强Agent能力和代码能力;训练过程分为预训练(36万亿token,三阶段)和后训练(四阶段优化),通过渐进式训练实现长文本和复杂推理能力提升。

搜索