JavaScript is required
多来米同学
2025-05-07
小米SU7
L9

理想Ai talk第二季的ai总结

新出行社区 · 文章

豆包:

1. **AI发展与个人工作变化**:过去130天,中国人工智能在基座模型、推理模型和多模态等方面取得显著进步,与美国差距缩小。李想认为人工智能工具目前多被用作信息工具,存在问题,应发展为生产工具,如Agent智能体成为生产工具时,才能真正改变工作成果、减少工作时长。

2. **从DeepSeek获得的启发**:DeepSeek运用人类最佳实践,先研究再研发,将能力转化为业务价值。其开源加速了理想汽车VLA视觉语言行动模型的研发进程,理想汽车也因此开源了自研的整车操作系统理想星环OS作为回馈。尽管有DeepSeek,理想汽车仍需自研基座模型,以满足车上对话、多模态及VLA模型训练的特殊需求,且加大了相关投入。

3. **VLA模型的相关探讨**

    - **模型架构与训练**:VLA模型经历从机器学习感知配合规则算法,到端到端,再到像人类司机一样工作的三个阶段。其训练过程包括预训练、后训练和强化训练,最终形成能在车端运行的模型,并搭建司机Agent智能体实现与人类自然语言交互。

    - **优势与挑战**:VLA模型在交通领域具有规则清晰、便于模仿学习和强化等优势,但面临vision和action数据获取难、模型与人类安全对齐、模型黑盒等问题,理想汽车成立了超级对齐团队来解决这些问题。

    - **与其他架构的关系**:端到端是VLA的一部分基础,直接研发VLA不现实。VLA能力强但对算力要求高,不是效率最高的架构,未来可能有更优架构出现。它在解决复杂路况理解和与人沟通等长尾案例上优于端到端加VLM架构。

4. **其他话题**

    - **对标学习对象**:特斯拉FSD进入中国,但未释放真实能力。理想汽车学习苹果、特斯拉等公司扎实的基本功,认为在人工智能时代,基本功至关重要。

    - **创业回顾与感悟**:回顾理想汽车十年,李想印象深刻的是理想ONE发布和理想L9发布的场景。创业中虽经历困难,但也带来成长和机遇。他认为应关注人,接受自己和他人的优缺点,用成长替代改变,从亲密关系中获取能量。同时,他认为智慧是与万物的接触,人工智能的意义在于帮助人们有更多时间接触万物;所有人性都应保留,好坏相互依存 。

Kimi总结:

### 中国人工智能领域的进步 

- **技术层面**:中国的基座模型、推理模型、多模态等技术与美国的差距缩小,甚至在某些方面达到同一水平线。在预训练、训练和推理层面,中国企业通过深层工程改造实现了更高的效率。 

- **企业层面**:以DeepSeek和千问为代表的企业在模型研发上取得了显著成果,像Manus、Genspark等在智能体方面也有了惊喜突破,为中国人工智能领域注入信心。 

### 李想个人及工作的变化 

- **工作时长与强度**:尽管人工智能发展迅速,但李想的工作时长并未减少,反而增加。他认为目前大多数人仍将AI视为信息工具,而信息工具存在局限性,如生成内容的准确性问题。 

- **对AI角色的思考**:李想将AI的发展分为信息工具、辅助工具和生产工具三个阶段,认为只有当AI成为生产工具,真正替代人类完成专业工作并产生有效生产力时,才算真正实现了人工智能的爆发。 

### 对DeepSeek的看法及学习 

- **技术优势**:DeepSeek运用了人类最佳实践,如MoE架构,通过组合专家能力来构建模型,其在训练和推理效率等方面表现出色,并且开源举措对行业有巨大推动作用。 

- **学习与借鉴**:李想从DeepSeek学到了研究、研发、能力表达和业务价值转化的四步最佳实践,并将其应用于理想汽车的VLM和VLA等项目中,提升了研发效率和业务价值。 

### 理想汽车的AI发展策略 

- **VLA(视觉语言行动模型)**:理想汽车致力于研发VLA,希望其成为交通领域的生产工具,像人类司机一样工作。VLA的发展经历了从规则算法到端到端+VLM,再到VLA的三个阶段,分别对应昆虫、哺乳动物和人类的智能运作方式。 

- **数据与模型训练**:理想汽车在数据收集方面具有优势,能够获取vision和action的数据,并通过预训练、后训练和强化训练等步骤提升VLA的能力。同时,注重模型的安全对齐训练,以确保其符合人类的驾驶习惯和交通规则。 

- **技术挑战与应对**:李想认为,VLA的发展是进入无人区的探索,面临着诸多技术挑战。理想汽车通过自身的技术积累和团队建设,不断提升模型能力,并在解决实际问题中推进AI的发展。 

### 对AI行业的展望 

- **技术路线选择**:尽管目前技术路线尚未完全收敛,但李想认为交通领域是VLA最早实现的领域之一,因为其规则清晰、控制自由度相对较低,且能够进行有效的模仿学习和强化训练。 

- **行业竞争与合作**:李想表示,理想汽车在AI领域的发展既注重自身的技术研发,也积极学习和借鉴其他企业的优势,如苹果和特斯拉的基本功扎实、创新能力等。同时,他也强调了行业内的合作与开源的重要性。

DeepSeek总结:

**一、AI技术发展与企业战略**

1. 中国AI技术突破  

   中国基座模型、推理模型和多模态技术已接近或达到国际领先水平,例如DeepSeek和千问的成果展现了工程效率优势。李想特别强调,AI需从信息工具(如对话式AI)向生产工具(如自动驾驶Agent)进化,才能真正释放生产力。

2. 拥抱开源与技术创新  

   理想汽车基于DeepSeek开源模型加速VLA(视觉-语言-动作)研发,将原计划9个月的技术进程缩短至3个月,并开源自研操作系统“理想星环OS”作为回馈。李想认为,企业基因决定技术路径,理想聚焦“物理世界理解”而非纯语言模型。

**二、VLA(视觉-语言-动作)模型解析**

1. 技术架构与演进  

   • 三阶段进化:  

     ◦ 规则算法阶段(昆虫智能):依赖高精地图和固定规则(如2021年方案)。  

     ◦ 端到端+VLM阶段(哺乳动物智能):模仿人类驾驶行为但缺乏物理世界理解(如2024年方案)。  

     ◦ VLA阶段(人类智能):融合3D视觉、语义理解和动作生成,实现“司机大模型”,支持复杂场景推理(如2025年MindVLA架构)。  

   • 训练流程:  

     1. 预训练:融合视觉、语言和驾驶数据构建基座模型;  

     2. 后训练(驾校阶段):加入动作模仿学习;  

     3. 强化训练(社会驾驶):通过人类反馈(RLHF)和物理规则优化安全性与舒适性。

2. 技术优势与挑战  

   • 可解释性:通过语言模型生成决策逻辑(如“因检测到行人减速”)。  

   • 泛化能力:解决长尾场景(如临时交通管制)需依赖真实数据积累和世界模型仿真。  

   • 算力瓶颈:VLA需200+TOPS算力,依赖Thor芯片等硬件突破。

**三、自动驾驶行业洞察**

1. 技术路线之争  

   VLA被视为“端到端2.0”,其多模态融合能力超越传统模块化方案。理想汽车通过自研编译优化和芯片底层适配(如Orin-X的INT4量化),实现双芯片高效运行。

2. 商业化落地  

   • 成本与信任:李想提出“司机Agent”定价为人类雇佣费用的1/5-1/3,并整合保险和能源服务。  

   • 超级对齐团队:100+人团队专注模型安全与职业性对齐,防止“能力越强风险越高”(如加塞行为)。

3. 竞争格局  

   特斯拉FSD进入中国但受限于本土数据适配,理想认为其真实能力(如V13版本)尚未释放。中国复杂路况为VLA提供天然试验场,本土企业或率先突破。

**四、企业哲学与未来展望**

1. 技术价值观  

   • 拒绝捷径:李想强调技术积累不可跳跃,“无法直接吃第十个包子”,需扎实研究-研发-落地闭环。  

   • 工具与效率平衡:确定性场景优先规则算法(如ETC车道选择),VLA专注复杂决策。

2. 组织能量观  

   • 关注成长:个人与企业需通过能力成长而非“改变”获取能量;  

   • 亲密关系支撑:家庭与团队的三维支撑(如与14岁女儿的深度沟通)成为创新动力源。

总结

李想访谈揭示了理想汽车以VLA为技术核心、生产工具导向的AI战略,同时展现了对开源生态的开放态度和对行业痛点的深刻洞察。其“司机大模型”不仅是一次技术跃迁,更是对自动驾驶价值逻辑的重构——从功能升级转向人机共处范式的革新。

通义千问脑图:

新出行理想社区
理想AI Talk
理想汽车开源自研汽车操作系统
全部评论
只看作者
  • 最热
  • 最新
  • 最早
  • 赞赏
  • 1
    点赞
  • 抢沙发