-
OpenAI 发布「最强小模型」GPT-5.4 mini 与 nano
3 月 18 日消息,今天,OpenAI 正式发布了 GPT-5.4 mini 与 GPT-5.4 nano 两款新模型,官方称其为「迄今为止能力最强的小型模型」。这两款模型将 GPT-5.4 的核心能力引入更轻量的架构,专为高吞吐量、对延迟敏感的工作负载而设计。 GPT-5.4 mini 在代码编写、推理、多模态理解及工具调用方面均较 GPT-5 mini 有显著提升,运行速度提升超过 2 倍。…- 214
-
Anthropic 发布 Sonnet 4.6 模型,上下文窗口翻倍至 100 万 token
2 月 18 日消息,Anthropic 发布了其中等规模 Sonnet 模型的新版本,延续了公司每四个月更新一次的节奏。在宣布新模型的公告中,Anthropic 重点强调了其在代码能力、指令遵循与计算机操作方面的改进。 Sonnet 4.6 将成为免费版与 Pro 版用户的默认模型。 本次推出的 Sonnet 4.6 测试版将支持 100 万 token 的上下文窗口,是此前 Sonnet 最大…- 1.2k
-
智谱上线全新模型 GLM-5
2 月 12 日消息,刚刚,智谱正式上线并开源最新模型 GLM-5。 据介绍,GLM-5 是迈向 Agentic Engineering 的产物:在 Coding 与 Agent 能力上,其取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。 GLM-5 采用全新基座:参数规模从 355B(激活 32B)扩展至 744B…- 1.6k
-
神秘模型「Pony Alpha」上线引发热议,它会是国产大模型中的谁
2 月 9 日消息,2 月 6 日,全球模型服务平台 OpenRouter 上架了一个名为「Pony Alpha」的神秘模型,并且模型很快跑到了搜索前几名。 据模型介绍页信息显示,Pony Alpha 为新一代通用大模型,在编码、代理工作流程、推理和角色扮演方面表现出色,非常适合实际编码和现实世界使用。 模型拥有 200k 上下文窗口,支持 131k 输出,并且支持免费使用。 据博主…- 2.4k
-
OpenAI 与 Anthropic 同时发布重磅模型更新
2 月 6 日消息,今天凌晨,OpenAI 与 Anthropic 先后发布重磅模型更新,分别推出 GPT‑5.3‑Codex 与 Claude Opus 4.6。 OpenAI 宣称,GPT‑5.3‑Codex 是其首个在自身研发过程中发挥关键作用的模型,团队使用早期版本参与调试训练、部署管理与评估分析。 该模型在 SWE‑Bench Pro、Terminal‑Bench 2.0 与 OSWor…- 1.7k
-
OpenAI「备战负责人」官宣上任,加速布局前沿模型风险防护
2 月 5 日消息,昨天,OpenAI CEO 山姆 · 奥特曼(Sam Altman)宣布 Dylan Scand 加入公司,出任全新的「备战负责人」(Head of Preparedness)一职,负责前沿模型的高风险场景评估与缓解工作。 该职位此前因最高可达 55.5 万美元的薪酬(另含股权)在业内引发讨论。 奥特曼表示,OpenAI 即将进入「与极其强大的模型共事」的阶段,进展速度会「非常…- 850
-
OpenAI 宣布下月退役 GPT‑4o,多款旧模型将同步下线
1 月 30 日消息,OpenAI 宣布将于 2026 年 2 月 13 日在 ChatGPT 中正式下线多款旧模型,包括 GPT‑4o、GPT‑4.1、GPT‑4.1 mini 以及 OpenAI o4‑mini,同时此前已公布的 GPT‑5 Instant 与 GPT‑5 Thinking 也将在同日退役。 GPT‑4o 曾在 GPT‑5 发布期间短暂下线,随后因部分 Plus …- 1.5k
-
小米突然发布新模型:媲美 DeepSeek-V3.2
12 月 17 日消息,刚刚,小米正式发布并开源新模型 MiMo-V2-Flash,先看表现: MiMo-V2-Flash 总参数 3090 亿,活跃参数 150 亿,采用专家混合架构 (MoE),性能还能和 DeepSeek-V3.2、Kimi-K2 这些头部开源模型掰掰手腕。 除去「开源」这一标签,MiMo-V2-Flash 真正的杀手锏在于架构设计上的激进创新,把推理速度拉到了 150 to…- 4.2k
-
腾讯混元 0.5B、1.8B、4B、7B 模型开源发布,消费级显卡即可运行
8 月 4 日消息,腾讯混元今日发布了四款开源的小尺寸模型,参数分别为 0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景,且支持垂直领域低成本微调。 目前,四个模型均在 Github 和 Huggingface 等开源社区上线,Arm、高通、英特尔、联发科技等多个消费级终端芯片平台也都宣布支持部署。 新开源的 4 个模型属于融合推理模型,具…- 4.3k
-
Mistral AI 旗下 Codestral 模型获 25.01 更新:支持超 80 种编程语言、上下文长度提至 25.6 万个 Token
近日,Mistral AI 宣布为旗下 Codestral 编程模型推出 25.01 版本,官方强调相关版本主要在处理上下文长度和代码完成效率方面获得较大改进。 具体来说,Codestral 25.01 将模型支持的上下文长度提升 25.6 万个 Token,号称能够有效应对大型项目和复杂代码的生成需求,此外新版模型还支持超过 80 种编程语言,覆盖 Python、Java、JavaScript …- 2.8k
-
腾讯研发全球首个大熊猫模型:实时识别、统计、分析大熊猫行为并生成报告
腾讯 10 月 25 日宣布,为了帮助饲养员全方位观察大熊猫,腾讯、中国大熊猫保护研究中心、广东工业大学,联合打造了全球首个大熊猫行为智能识别模型及智慧系统。 该模型可以识别大熊猫进食、喝水、睡觉等日常行为,并自动生成日报、周报、月报等可视化数据报表。项目组通过优化 SlowFast 算法,大幅提升了系统在遮挡环境下的行为识别能力,目前室内遮挡场景下的大熊猫行为识别准确率提升到了 80% 以上。 …- 9.9k
-
阿尔特曼回应 OpenAI 计划推出下一代模型 Orion:假消息失控了
10 月 25 日消息,昨日午间,OpenAI 首席执行官山姆・阿尔特曼在 X 平台回应了近期有关“下一代模型 Orion”的报道:fake news out of control(假消息失控了)。 附前情提要: 今天早些时候有外媒报道称,OpenAI 计划今年 12 月推出代号为“Orion”的新款前沿模型。“Orion”采用有别于 GPT-4o 和 o1 的发布模式,不会通过 ChatGPT …- 5.8k
-
全球最强模型:OpenAI 被曝 12 月推出 Orion,AI 性能百倍级跃升
科技媒体 The Verge 今天(10 月 25 日)发布博文,报道称 OpenAI 计划今年 12 月推出代号为“Orion”的新款前沿模型。 该媒体报道,“Orion”采用有别于 GPT-4o 和 o1 的发布模式,不会通过 ChatGPT 广泛发布,而是先授权与其密切合作的公司,帮其构建自己的产品和功能。 此外消息源还表示微软内部工程师正在准备最早于 11 月在 Azure 上托管“Ori…- 6k
-
智谱发布新一代基础模型,清言App 国内率先面向 C 端开放视频通话服务
智谱 AI 在 KDD 2024 大会上发布了新一代基础模型,自称在相应领域均达到了国际第一梯队的水准,并宣布在 MaaS 平台上免费开放 GLM-4-Flash API: 语言模型 GLM-4-Plus:在语言理解、指令遵循、长文本处理等方面性能得到全面提升。 文生图模型 CogView-3-Plus:具备与当前最上面的 MJ-V6 和 FLUX 等模型接近的性能。 图像 / 视频理解模型 GL…- 11.7k
-
小而强悍!10人团队炼出首个微调Llama 3.1 405B
一个仅有10人的小团队,竟然敢挑战科技巨头Meta的地位,这简直就是现实版的"大卫战胜歌利亚"! 这个名叫Nous Research的初创公司可不是什么无名之辈。他们刚刚推出的Hermes3,是基于Llama3.1的405B模型微调而成的。别看团队人数少,但他们的实力可不容小觑。这个"十人天团"已经成功微调了Mistral、Yi、Llama等多个模型,下载量…- 9.1k
-
谷歌发布全新Gemma 2 2B模型,性能超越GPT-3.5-Turbo与Mixtral-8x7B
谷歌正式推出了其 Gemma2系列的新成员 ——Gemma22B 模型。这个拥有20亿参数的模型,展现出了在多种硬件环境下的卓越性能。除了强大的模型本身,谷歌还推出了 ShieldGemma 安全分类器,以过滤有害内容,并提供 Gemma Scope 工具,供研究人员分析模型的决策过程。 Gemma22B 在 “聊天机器人竞技场” 排行榜上的表现尤为抢眼,以1130的高分,成功超越了包括 GPT-…- 8.4k
-
智谱 AI宣布GLM-4-9B、CodeGeeX4-ALL-9B 支持 Ollama 部署
智谱 AI宣布GLM-4-9B和CodeGeeX4-ALL-9B模型现在支持通过Ollama进行部署。 GLM-4-9B是智谱AI推出的开源预训练模型,属于GLM-4系列,它在语义、数学、推理、代码和知识等多方面展现出卓越的能力。 CodeGeeX4-ALL-9B是在GLM-4-9B基础上训练的多语言代码生成模型,进一步提升了代码生成能力。 Ollama是一个工具,专为本地环境中运行和定制大型语言…- 9.8k
-
Meta AI为移动设备开发紧凑型语言模型MobileLLM,仅3.5亿参数
Meta AI 研究人员推出了 MobileLLM,这是一种为智能手机和其他资源受限的设备设计高效语言模型的新方法。这项研究于2024年6月27日发布,挑战了有关有效 AI模型必要规模的假设。 该研究团队由 Meta Reality Labs、PyTorch 和 Meta AI Research (FAIR) 的成员组成,专注于优化参数少于10亿的模型。这只是 GPT-4等模型的一小部分,据估计,…- 8.7k
-
B站开源轻量级 Index-1.9B 系列模型:2.8T 训练数据,支持角色扮演
B站昨日开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、角色扮演模型等多个版本。 官方简介: Index-1.9B base : 基座模型,具有 19 亿非词嵌入参数量,在 2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先。 Index-1.9B pure : 基座模型的对照组,与 base 具有相同的参数和训练策略,不同之处在于严格过滤了该版…- 11.1k
-
stable diffusion写实真人大模型推荐,极致摄影,大片质感
今天和大家分享一个之前在很多文章里面使用到的基于SD1.5的写实大模型:墨幽人造人。当时使用该模型的版本是V1030, 在LiblibAI网站模型首页有过一段这样的介绍。 墨幽人造人,不只是人造人。 她是一个全功能的综合模型,她包含真实的一切。 她拥有着极强的各类lora兼容性,并且还是一个用来训练真实系lora的绝佳底模。 她可以是女人,也可以是男人,她还可以是各种动物、或是想象中的物种。 她是…- 15.7k
-
阿里巴巴开源 1100 亿参数 Qwen1.5-110B 模型,与 Meta Llama3-70B 相媲美
阿里巴巴日前宣布,开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B,该模型在基础能力评估中与 Meta-Llama3-70B 相媲美,在 Chat 评估中表现出色,包括 MT-Bench 和 AlpacaEval 2.0。 主要内容: 据介绍,Qwen1.5-110B 与其他 Qwen1.5 模型相似,采用了相同的 Transformer 解码器架构。它包含了分组查询注意力(G…- 3.1k
-
开源大模型DBRX:1320亿参数,比Llama2-70B快1倍
大数据公司Databricks最近发布了一款名为DBRX的MoE大模型,引发了开源社区的热议。DBRX在基准测试中击败了Grok-1、Mixtral等开源模型,成为了新的开源之王。这款模型的总参数量达到了1320亿,但每次激活只有360亿参数,并且其生成速度比Llama2-70B快1倍。 DBRX是由16个专家模型组成,每次推理有4个专家处于激活状态,上下文长度为32K。为了训练DBRX,Data…- 3.8k
-
港大开源OpenGraph:攻克图基础模型难题,实现多领域通用图模型
近期,香港大学发布了OpenGraph,这是一项突破性的成果,成功攻克了图基础模型领域的三大难题。该模型通过巧妙的技术实现了零样本学习,可以适配多种下游任务。OpenGraph的构建主要分为统一图Tokenizer、可扩展的图Transformer和大语言模型知识蒸馏三个部分。 OpenGraph通过创建统一的图Tokenizer解决了不同数据集之间节点集合和特征空间的变化问题。采用拓扑感知映射方…- 7.8k
-
李开复旗下 AI 公司零一万物宣布开源 Yi-9B 模型,号称同系列代码、数学能力最强
“零一万物 01AI”官方公众号今晚发文宣布开源 Yi-9B 模型,官方称其为 Yi 系列模型中的“理科状元”——Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,实际参数为 8.8B,默认上下文长度为 4K tokens。 该模型是在 Yi-6B (使用了 3.1T tokens 训练)的基础上,使用了 0.8T tokens 进行继续训练,数据截至 2023 年 6 月。 据介绍,…- 5.6k
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!























