时间: 2025-11-17 18:02:33 | 作者: 拉链知识库
世界互联网大会乌镇峰会上,宇树科技、强脑科技、群核科技、云深处科技、游戏科学、深度求索六家「杭州六小龙」企业负责人首次同台
宇树科技王兴兴强调机器人发展源于「全球共创」——中国公司可以提供廉价高性能硬件平台,全球开发者共同开发软件和算法。他认为相比核聚变等技术,具身智能和人形机器人更接近梦想实现。
强脑科技韩璧丞分享脑机接口「从痛到大」的产品化路径,先帮助残疾人,再推广至睡眠、体重管理等大众市场。最大挑战是解析大脑 860 亿到上千亿个神经元的数据。他举例说,给失去右手几十年的大伯做假肢时,对方已完全忘记手指感觉,只能用 AI 模型让其像婴儿一样重新学习。
群核科技黄晓煌阐述空间智能价值,发现 Scaling Law 在空间模型上同样适用。公司战略从「向人类收费」转向「向机器收费」,因为 AI 让创意岗位减少,但替人工作的机器会增加十倍。
云深处朱秋国强调应用场景驱动。2018 年机器狗用于电力巡检时,现场测试发现橡胶垫磨损、机器发热、遇雨损坏等问题,团队据此一直在改进,今年发布全球首台可走向室外的防护型人形机器人。
游戏科学冯骥指出,《黑神话:悟空》成功是中国游戏产业十年积累的结果。多个方面数据显示,去年全球收入前 10 游戏中,4 款来自中国团队研发,另有 3 款有中国公司参与。
深度求索陈德里表示,DeepSeek 核心优势就是长期主义,坚持做前沿智能突破这条主线, 而在这样的一个过程中,DeepSeek 也舍弃了很多支线上的事情,不做那些短平快的支线事情。
就未来挑战和社会影响方面,王兴兴认为机器人最大挑战是具身智能 AI 模型。与大语言模型不同,机器人领域硬件各异、数据分散、传感器位置无统一标准。
朱秋国细化了两大挑战:具身移动(无先验知识的导航)和具身操作(双手完成复杂任务)。他坦言路径不清晰,需创新模型架构,降低算力和数据需求。
韩璧丞指出,人类 36% 医疗花销与大脑相关,但阿尔茨海默病、自闭症等无药可治。脑机接口数据采集和解析难度极大。他看到「美妙闭环」:AI 理论受大脑启发,现在 AI 反过来帮助攻克脑科学难题。
冯骥从宏观层面思考两个社会挑战:一是 AI 是否会让少数公司垄断科技优势;二是 AI 超越人类后怎么样应对恐慌。他因 DeepSeek 的开源实践变得乐观,认为 AI 能赋能普通人创造更多高质量内容。
陈德里强调这轮 AI 革命与工业革命本质不同——发明的不是工具而是智能体,会比人类更聪明。「AI 革命成功的标志,就是它取代了绝大多数人类工作。」但他对技术乐观,认为 AI 解决「锯齿智能」问题后,将通过多模态和具身智能实现持续学习,迎来跨越式发展。
今天凌晨, OpenAI 发布最新报告,阐述 AI 技术的发展现状与未来展望。报告说明,当图灵测试这一里程碑被轻松跨越时,日常生活却并未发生剧变,尽管计算机已能进行对话并解决复杂问题。
报告称,目前 AI 系统在某些高难度智力竞赛中的表现已超越顶尖人类选手。虽然这些系统仍存在很明显短板, 但其解决难题的能力已接近真正 AI 研究员水平的八成。公众对 AI 的实际应用与其真实能力之间有巨大认知差距。
在软件工程领域,AI 仅用数年时间就从只能完成几秒钟的简单任务进化到能处理需要人类一小时以上的复杂工作。OpenAI 预计很快将出现能完成需时数天甚至数周任务的系统。与此同时, 相同智能水平的成本正以每年 40 倍的速度骤降。
OpenAI 预测,2026 年 AI 将具备进行小规模科学发现的能力, 到 2028 年及以后则有望实现更重大的突破。不过报告也承认, 尽管技术能力将快速提升, 日常生活的变化速度可能依然缓慢, 因为人类的生活方式有着非常强的惯性。
报告强调,AI 将在健康管理、材料科学、药物研发、气候建模和个性化教育等领域发挥作用, 让更多人过上充实的生活。但同时也坦言, 工作形态将发生改变, 经济转型可能面临困难, 甚至有可能需要重构基本的社会经济契约。
在安全问题上,OpenAI 表示会将超级智能系统的风险视为潜在灾难性威胁, 认为在无法稳健控制此类系统之前, 任何人都不应部署它们。报告建议前沿实验室应就安全原则达成共识, 分享安全研究成果, 建立类似建筑规范和消防标准的行业标准。
OpenAI 还呼吁建立与 AI 能力相匹配的公共监督机制, 构建类似互联网时代网络安全生态系统的「AI 韧性生态系统」, 并持续测量 AI 对就业等领域的实际影响。报告将先进 AI 的普及比作电力、清洁水和食物, 认为社会应支持让这些工具广泛可及, 帮助人们实现自身目标。
特斯拉 CEO 埃隆·马斯克周四在公司年度股东大会上表示,特斯拉在大多数情况下要自建一座「超级芯片工厂」来生产人工智能芯片,并公开提及可能与英特尔展开合作。
马斯克在会上对欢呼的股东们说:「也许我们会与英特尔合作。虽然还没有签署任何协议,但值得与英特尔进行讨论。」对此,英特尔方面拒绝置评。
特斯拉正在设计第五代 AI 芯片以支撑其自动驾驶目标。马斯克解释称,即使按照供应商最乐观的产能预期推算,芯片供应仍然不足。
他透露,特斯拉已经与台积电和三星建立了合作关系,但这还不够。少量 AI5 芯片将在 2026 年生产,2027 年才能实现大规模量产,而 AI6 芯片预计 2028 年中期量产,性能将提升约一倍。
马斯克表示,特斯拉在大多数情况下要建造一座他称之为「万亿级芯片厂」的设施,规模远超特斯拉现有的「超级工厂」。
这座工厂每月至少要达到 10 万片晶圆投片量。他强调这款芯片将针对特斯拉自有软件来优化,功耗约为英伟达旗舰 Blackwell 芯片的三分之一,制造成本仅为后者的十分之一。
「我现在对芯片极度专注,你们应该能看出来,」马斯克说,「我满脑子都是芯片。」
据彭博社报道,苹果正在与 Google 商讨合作,计划以每年约 10 亿美元的费用使用 Google 开发的 1.2 万亿参数 Gemini 人工智能模型,为 AI Siri 的重大升级提供支持。
该模型将负责 Siri 的「总结器」与「规划器」功能,帮助语音助手在信息整合与复杂任务执行方面实现突破。
消息人士称,苹果将此视为过渡方案,直至其自研的 1 万亿参数云端模型成熟并投入消费级应用。新一代 Siri 预计将在明年春季随 iOS 26.4 推出,内部代号为「Linwood」。
此外,苹果仍在推进中国市场的 Siri 升级。在中国大陆地区,相关版本将采用苹果自研模型,并结合阿里巴巴开发的过滤层,以满足监督管理要求。报道还提到,苹果也在探索与百度的合作可能。
小鹏汽车近日发布的新一代人形机器人 IRON 因外形逼真而遭到外界质疑,被认为「里面藏有人类」。
对此,小鹏汽车董事长兼 CEO 何小鹏于昨天在社会化媒体发布一段「一镜到底」视频回应。
视频中展示了机器人完整的走猫步过程,并由团队现场拉开背后拉链,公开内部结构,包括背部晶格肌肉与控制器、肩部运输固定器、耳朵位置的麦克风阵列以及手部谐波关节等。
何小鹏在现场强调,未来三年内中国机器人创业公司将推动更高阶人形机器人量产,具备语言交互、自主行走和简单任务执行能力。他表示这是「这一代创业者的使命」。
针对外界疑虑,何小鹏在 11 月 6 日晚的「小鹏 X9 鲲鹏超级增程技术发布会」上采取了更直接的证明方式。工作人员在全程直播镜头下当场切开 IRON 的外层材料和仿生肌肉组织,将内部的金属骨骼、液压系统等机械构造完整呈现。
牛津互联网研究所联合三十多家机构的研究人员周二发布报告,对当前人工智能评估体系提出严厉批评。
研究团队分析了 445 项主流 AI 基准测试后发现,这些大范围的使用在衡量模型能力的测试方法普遍缺乏科学严谨性,可能系统性地夸大了 AI 的实际表现。
研究发现,约半数被检测的基准测试甚至没有明确界定它们究竟要测试什么能力,许多测试还重复使用旧有数据和方法,且很少采用可靠的统计手段来比较不同模型的表现。
虽然该测试常被用来证明 AI 具备基础数学推理能力,但论文作者马赫迪表示,答对题目不等于真正掌握数学推理。「就像一年级学生能正确回答二加五等于七,但你能由此断定他掌握了数学推理吗?答案很可能是否定的。」
微软 AI 部门负责人穆斯塔法·苏莱曼周四发表长篇博文,宣布成立一支专门团队,致力于开发「人本主义超级智能」。苏莱曼强调,这种 AI 将完全以服务人类为目的,确保人类始终处于主导地位。
苏莱曼表示,微软研发的超级智能不会成为高度自主、不受约束的实体,而是经过精心校准、情境化处理并受到严格限制的系统。他去年加入微软担任 AI 部门首席执行官,该部门最近刚推出首批自主研发的文本、语音和图像生成模型。
值得注意的是,尽管苏莱曼在博文中表示微软将拒绝参与通用AI竞赛的说法,但微软与 OpenAI 的竞争实际上正在升温。根据双方最新协议,微软现在可以独立或与第三方合作研发通用AI,并且有权使用 OpenAI 的知识产权开发自己的系统。
苏莱曼为「人本主义」超级智能规划了三大应用方向:作为 AI 助手帮助人们学习、工作和提高生产力,在医疗保健领域提供专业支持,以及在清洁能源等领域推动科学突破。
「在微软 AI 部门,我们始终相信人类比 AI 更重要,」苏莱曼写道,「人本主义超级智能让人类始终处于核心位置。它是人类的助手,是可控的 AI,不会也不能打开潘多拉魔盒。」
近日,柯林斯词典宣布「vibe coding(氛围编程)」成为 2025 年度词汇。
这一术语指代一种新兴的软件开发方式,利用 AI 将自然语言直接转化为计算机代码,使开发者能够专注于创意输出,而「忘记代码的存在」。
柯林斯词典通过监测涵盖社会化媒体等多种来源、总计 240 亿词的柯林斯语料库,每年选出反映语言发展的新趋势的新词和重要词汇。词典学家们之所以选中「氛围编程」,是因为该词自今年 2 月首次出现以来,使用量激增。
「vibe coding」一词由前特斯拉 AI 总监、OpenAI 创始工程师之一 Andrej Karpathy 推广,他用该词描述 AI 如何帮助开发者实现更自由的创作过程。
柯林斯方面指出,该趋势反映了 AI 在编程与创意产业中的快速渗透,凸显了人机协作的新阶段。此次公布还伴随其他候选词的入围,但「vibe coding」最终脱颖而出,成为年度语言现象的代表。
Kimi 本周正式对外发布并开源其迄今最强的思考模型「Kimi K2 Thinking」。
据介绍,该模型基于「模型即 Agent」理念,具备原生的「边思考,边使用工具」能力,在多项国际基准测试中取得 SOTA(最先进)成绩,全方面提升了推理、搜索、编程和写作等能力。
Kimi 表示,K2 Thinking 模型可在无需人工干预的情况下完成高达 300 轮的工具调用与多轮推理,明显地增强复杂问题的解决能力。
在「人类最后的考试」这一涵盖 100 多个专业领域的测试中,K2 Thinking 取得了 44.9% 的成绩,刷新了同类模型纪录。
在 OpenAI 发布的 BrowseComp 浏览基准中,该模型以 60.2% 的成绩超越人类中等水准(29.2%),展现出更强的自主搜索与信息整合能力。
值得注意的是,K2 Thinking 采用原生 INT4 量化技术,在保持推理性能的同时,将生成速度提升约 2 倍,并优化了对国产加速芯片的兼容性。
该模型已上线 kimi 官网及最新版 Kimi App,API 也已开放,支持 256K 上下文输入。
此外,据外媒 CNBC 援引知情人士消息,Kimi K2 Thinking 模型的训练成本仅约 460 万美元,与 OpenAI 动辄数十亿美元的投入相比,这一成本在海外引发了广泛关注。
11 月 8 日凌晨,LMArena 大模型竞技场最新排名显示,文心全新模型 ERNIE-5.0-Preview-1022 登上文本排行榜全球并列第二、中国第一。
据悉,该模型在创意写作、复杂长问题理解、指令遵循等方面表现突出,超过多款国内外主流模型。
创意写作可用于生成文章、营销文案、剧本等内容,大幅度的提高内容产出的效率,ERNIE-5.0-Preview-1022 在创意写作维度得分第一。
复杂长问题理解用于处理多层逻辑和长文本任务,如学术问答、报告分析、知识推理等。
指令遵循保证模型能准确理解并执行用户意图,适用于智能助理、代码生成、业务流程自动化等场景。
在复杂长问题理解和指令遵循两项维度中,ERNIE-5.0-Preview-1022 得分突出,为多场景内容生成提供了高效支持。
谷歌最强 AI 芯片 TPU v7 Ironwood 正加速向市场开放供应,可用于训练和运行大型 AI 模型。
通过同时推出 Ironwood 和 Axion 两大产品线,谷歌为其自家 Gemini 等 AI 产品提供更强支撑,也标志着谷歌在 AI 基础设施竞赛中迈出了迄今为止最大的一步。
就在刚刚,一款疑似为谷歌 「Nano Banana 2」 的新图像生成模型在网络流传。
AI 博主 leo 表示,这款疑似「Nano Banana 2」的模型在处理包含大量文本的复杂提示词时表现出色,并能准确生成名人面孔。不过他也指出,目前流传的版本似乎未加载内容审核机制,即便真是该模型,正式对外发布时也有一定可能会有更多限制。
他给出提示词「时钟指向 11 点 15 分,酒杯斟满」,模型成功在单张图像中同时准确呈现了时钟的正确时间和装满的酒杯——这两项测试此前一直是图像生成模型的难点。
另一位测试者 Angel 展示了模型的图像编辑能力,通过简单的「把水变成粉红色」指令,对比了疑似初代版本和新版本的效果差异。
开发者 pomterre 表示,流传的版本看起来是一个没有护栏机制的早期检查点,并提醒用户需要注意生成内容与现实的区别。目前该模型可通过特定网站体验,但访问链接已被部分屏蔽。
从测试结果来看,这款疑似「Nano Banana 2」的模型在文本渲染、物理常识理解和图像编辑精度上都表现出色。但由于其真实来源和版本信息尚未得到证实,与可能的正式版本之间的差异也有待进一步验证。
本周,英伟达 CEO 黄仁勋、Meta AI 负责人杨立昆以及杰弗里·辛顿、约书亚·本吉奥、李飞飞和比尔·戴利等顶尖计算机科学家共同获得伊丽莎白女王工程奖。这些被誉为 AI「教父」的先驱人物在领奖时,就通用AI(AGI)的现状发表了观点。
黄仁勋直言,在许多领域机器已经具备与人类同等的智能。他表示:「AI 首次成为真正增强人类能力的智能,它解决劳动力问题,完成实际工作。我们已拥有足够的通用智能,可以在未来几年将技术转化为大量有益社会的应用,而且我们今天就在做这件事。」
Meta 的杨立昆认为,AGI 不会是一个突然到来的时刻,「它不是单一事件,因为所有的领域的能力会逐步扩展。」黄仁勋对此表示赞同:「我们已达到那个阶段了,这已经不重要了,因为现在这更像是个学术问题。」
李飞飞从更具体的角度阐述了机器的优势:「我们当中有多少人能识别世界上 2.2 万种物体?又有多少人能翻译 100 种语言?机器在某些方面已经超越了人类。」不过她也强调,人类智能在社会中仍将占据关键地位。
去年刚获得诺贝尔物理学奖的辛顿预测:「在 20 年内,如果你和机器辩论,它肯定会赢。」同为图灵奖得主的本吉奥则表示:「从概念上讲,制造出能做我们所有事情的机器并非不可能,虽然目前还有不足。」不过本吉奥也提醒业界保持审慎:「现在有很多可能的未来,不应该基于技术的未来发展做出夸大的断言和重大决策。」
据澎湃新闻报道,昨天在浙江乌镇举行的 2025 年世界互联网大会开幕式上,京东集团创始人兼董事局主席刘强东发表演讲。
他指出,随着人工智能与机器人技术的成熟,未来五年的技术进步可能超过过去十年的成就,员工可能「一周只需工作一天甚至一小时」,而现阶段的许多情况也将随之改变。
刘强东在演讲中提到,京东物流十年前就提出建设无人仓,如今自动化设备已具备规模化部署潜力。京东在北京的分拣中心已实现 90% 的人工由机器人替代,并计划在明年 4 月建成全球首个全无人配送站。
针对社会普遍担忧的就业与公平问题,刘强东认为,机器人时代并非意味着人类工作的终结,而是将人类从繁重劳动中解放出来,缩短工作时间,并催生更多人文、艺术及探索类需求。
他强调:「我觉得数智时代大家不用担心工作被机器取代和公平性的问题,未来我们可以做的事情还有很多,现阶段的很多情况也一定会改变。」
作为扩散 Transformer 技术发明者,Bill 解释了其与传统自回归模型的区别:扩散模型通过向视频添加噪声再训练神经网络预测噪声,实现同时生成整个视频,有效解决了画面质量随时间衰减的问题。
Sora 的关键创新是「时空 token」——将视频分解为包含空间和时间维度的立方体单元,通过注意力机制相互通信,使模型理解物体在整个视频中的运动和持续性。
Sora 2 并非单纯扩大规模。Bill 指出,团队重点提升了模型对物理规律的理解。
一个显著变化是:生成「篮球明星投篮」场景时,如果投失,Sora 2 不会强行让球进筐,而是遵循物理定律让球弹回。这种「智能体失败」而非「模型失败」标志着世界模拟能力的质的飞跃。
数据显示,几乎 100% 用户首日即创作,70% 回访用户持续创作。Thomas 强调将通过各种机制打破「赌场式」消费循环,将用户推回创作模式。Cameo 功能(将用户形象植入场景)上线后,团队信息流瞬间被相关内容占据。与混音功能结合后,催生了极其丰富的创意表达。
Bill 强调,目前视频领域已达到 GPT-3.5 时刻,「让我们确保世界意识到现在可能发生什么。」
此外,Bill 认为 Sora 模型将深刻理解每个人的成长历程和社会关系,成为真正的「数字克隆」。Sora 最终将演变为运行在手机上的平行现实,用户的多个数字分身可在其中互动、执行知识工作,然后向现实世界汇报。
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知