多模态理解 - 财报，业绩电话会，研报，新闻

多模态理解

搜索文档

自动驾驶之心· 2025-07-09 12:56

大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化，理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算：研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展：探索检索增强生成（RAG）和参数高效微调（PEFT）技术 [3] - 复杂推理优化：研究链式思维（CoT）和强化学习优化（GRPO）等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法，包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT，结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论，形成清晰知识体系 [8] - 提升Coding能力，实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象：大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数：6人/期，至多8人 [5] - 要求：具备深度学习基础，熟悉Python和PyTorch，有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿，具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码，涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡，建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea，目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月，确保后续研究支持 [22]

大模型在自动驾驶后期的落地与研究方向有哪些？

自动驾驶之心· 2025-07-07 23:31

大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化，理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [1] - CoT方案是后期完成空间感知的重点，VLA+强化学习等高级推理范式受行业重点关注 [1] 大模型优化课程核心内容 - 课程系统探讨大模型前沿优化方法，聚焦参数高效计算、知识动态扩展和复杂推理三大方向 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成（RAG）和参数高效微调（PEFT）技术 [2] - 推理优化方面研究链式思维（CoT）和强化学习优化（GRPO）等范式 [2] 课程技术重点 - 结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等关键技术 [2] - 使用LLaMA、GPT等主流大模型作为实验平台 [2] - 多智能体协作和多模态理解等前沿方向 [2][3] 课程安排与产出 - 12周在线小组科研+2周论文指导+10周论文维护期 [7] - 每周1-1.5小时课程，涵盖大模型剪枝、量化加速、PEFT、多智能体协作等主题 [18][20] - 最终产出包括论文初稿、写作方法论、投稿建议 [6][7] 学员收获 - 系统掌握大模型优化理论体系，解决知识零散问题 [6] - 获得导师提供的定制化研究idea和baseline代码 [7][17] - 提升Coding能力，掌握论文写作与投稿技巧 [6][7] 技术要求与资源 - 需具备PyTorch和Python基础，建议配备4张4090显卡 [13] - 提供公开数据集和Baseline代码，包括LLM-Pruner、LLaVA等开源项目 [15][16][17] - 必读论文涵盖GPTQ量化、Sheared LLaMA剪枝等前沿研究 [17][19]

具身智能之心· 2025-07-05 02:25

大模型优化课程核心内容 - 课程聚焦大语言模型(LLM)和多模态模型的前沿优化技术，涵盖参数高效计算、知识动态扩展和复杂推理三大方向 [1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等，实验平台采用LLaMA、GPT等主流模型 [1] - 重点解决参数压缩(剪枝稀疏化/量化加速)、知识扩展(RAG/PEFT)和推理优化(CoT/GRPO)等核心挑战 [1] 课程结构与招生信息 - 采用12周在线科研+2周论文指导+10周维护期的教学模式，每期限招6-8人 [3][10] - 目标学员包括大模型方向本硕博学生、科研人员及AI从业者，需具备PyTorch和Python基础 [4][5] - 硬件要求最低配置2张NVIDIA 4090显卡，推荐4张或使用云服务器 [11] 课程产出与学术支持 - 学员将获得定制化研究idea、baseline代码及公开数据集，最终完成论文初稿 [10][13][14] - 论文指导覆盖SCI 1-4区和CCF A/B/C类会议，提供从选题到投稿的全流程方法论 [18] - 必读论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)等前沿成果 [15][17] 课程技术模块 - 剪枝量化模块：涵盖结构化剪枝算法、GPTQ量化技术及TVM编译器优化 [15] - 知识扩展模块：通过RAG解决幻觉问题，采用PEFT实现垂类任务高效微调 [16] - 推理增强模块：包含Chain-of-Thought多步推理和GRPO强化学习优化 [16][17] - 多模态扩展：涉及LLaVA视觉语言模型和Flamingo多模态学习框架 [15][17] 教学安排与服务 - 每周1-1.5小时专题授课，包含多智能体协作、动态知识扩展等14个核心模块 [16][18] - 采用腾讯会议直播+小鹅通回放形式，提供6个月答疑周期和学术诚信监督 [18] - 课程产出包括顶会论文模板应用、动机凝练方法和选刊投稿策略 [18]

下一代大模型高效计算：参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦！

自动驾驶之心· 2025-07-04 07:13

大模型优化课程核心内容课程简介与目标 - 聚焦大语言模型(LLM)和多模态模型的前沿优化技术，涵盖参数高效计算、知识动态扩展、复杂推理三大方向[1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等[1] - 采用LLaMA、GPT等主流模型作为实验平台，结合理论讲解与实验实践[1] 课程结构与内容 - 12周在线科研+2周论文指导+10周论文维护期的完整科研周期[11] - 每周1-1.5小时课程，覆盖剪枝稀疏化、量化加速、PEFT微调、RAG知识扩展、CoT推理等核心技术[16][18] - 提供公开数据集和Baseline代码，包括LLM-Pruner、GPTQ、LLaVA等开源项目[15] 学员收获与产出 - 系统掌握大模型优化知识体系，解决零散知识整合问题[5] - 获得定制化研究idea，完成论文初稿并掌握顶会论文写作方法论[11][18] - 提升coding能力，在baseline代码基础上开展创新实验[11] 招生要求与资源配置 - 每期限招6-8人，要求具备PyTorch和Python基础，熟悉深度学习框架[3][7] - 硬件建议配置4张4090显卡，最低要求2张4090[12] - 需完成Linux开发环境搭建，掌握CUDA基础语法和代码辅助工具[12] 核心技术与参考文献 - 重点论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)、LLaVA多模态(NeurIPS 2023)等[15][17] - 涉及TVM编译器优化(OSDI 2018)、PagedAttention内存管理(SOSP 2023)等系统级优化技术[17] - 涵盖Flamingo多模态学习(NeurIPS 2022)、CoT推理(NeurIPS 2022)等前沿算法[17]

实测豆包1.6，最火玩法all in one！Seedance登顶视频生成榜一，豆包APP全量上线

量子位· 2025-06-12 07:11

豆包大模型1.6系列性能突破 - 豆包大模型1.6系列在推理、数学、多模态能力上进入全球第一梯队[1] - 海淀区高考模拟测试中文理科成绩均突破700分其中理科较去年提升154分（706分 vs 552分）[2][3] - 主力模型doubao-seed-1.6支持256K上下文是国内首个支持该长度的思考模型具备深度思考自适应功能[24] Seedance 1.0 Pro视频模型技术领先 - 文生视频（ELO 1299）和图生视频（ELO 1343）双榜单全球第一超越Google Veo 3和OpenAI Sora[4][5] - 具备无缝多镜头叙事能力支持航拍/第一人称/近景等视角切换生成速度达40秒/5秒视频[38][40][49] - 理解能力突出可精准还原唐代服饰细节合理调整人物动作顺序[44][46] 行业定价模式重构 - Seedance 1.0 Pro视频生成成本低至3.67元/5秒行业最低价[11] - 豆包1.6采用输入长度区间定价 0-32K区间综合成本较1.5版本降低63%[13][14] - 特惠区价格进一步降至0.8元/百万tokens（输入）与1.0版本持平[16][18] 多模态能力升级 - 新增视频理解功能可基于视频内容生成朋友圈文案[31] - 具备GUI操作能力能自主完成酒店预订全流程操作[35][36] - 语音播客模型支持秒级生成双人对话具备声线模仿等高级功能[51][55] 企业级Agent开发支持 - 推出PromptPilot工具支持自动优化提示词和badcase修复[61] - 开源veRL强化学习框架支持LLM基础设施与模块化API集成[63] - AgentKit工具链实现全栈开发支持可自动化生成研究报告和网站[68][66] 市场表现与行业地位 - 豆包大模型日均tokens使用量达16.4万亿较发布初期增长137倍[73] - 火山引擎占据中国公有云大模型46.4%市场份额调用量达114.2万亿tokens[74] - 已服务联想、宝马、奔驰等头部企业大模型业务成增速最快板块[75][76]

细扒字节Seed 逆天招人要求！这5%本地顶级大脑做出了首个跨7大语言代码修复基准，让大模型成本狂降83%！

AI前线· 2025-04-28 11:10

字节跳动Top Seed招聘计划 - 公司启动2026届Top Seed大模型顶尖人才校招计划，覆盖大语言模型、机器学习算法、多模态生成/理解、语音等方向，计划招募约30位顶尖应届博士[2] - 招聘不限专业背景，注重研究潜力，要求候选人具备技术信仰、出色研究能力、好奇心与驱动力[5][6] - 提供一流科研环境、充分研究自由度，并依托公司丰富应用场景实现技术落地[7] - 该计划去年5月首次推出，同年7月增设研究实习生专项，为豆包大模型团队筛选人才[9] - 目标招聘人群为最顶尖的5%人才，要求其完成95%人群难以实现的技术突破[10] 已入职人才案例 - 昝道广（中科院博士）构建并开源首个多语言代码修复基准Multi-SWE-bench，覆盖7种编程语言1632个真实修复任务，提升大模型高阶编程能力[12][14][16] - 秦禹嘉（清华博士）主导开源多模态智能体项目UI-TARS-1.5，在7个GUI评测基准中取得SOTA表现，GitHub Star破万[22][24][26] - Zihao Huang（南开硕士）提出超稀疏模型架构UltraMem，推理速度较MoE提升2-6倍，成本降低83%[28][31][33] 人才待遇与资源 - 提供行业顶级薪资，实习生月薪可达4万元（按2000元/天×20天计算）[37] - 配备充足算力与数据资源，支持技术快速落地至视觉数据处理等产品场景[38][39] - 免除PPT制作与会议流程，聚焦核心研究工作[43] - 导师团队包括豆包大模型各方向负责人（王明轩、项亮等）及DeepMind前研究副总裁吴永辉[44][46][48][52] 行业人才竞争态势 - 人工智能工程师春招求职增速达69.6%，平均月薪超2万元[55] - 大模型算法等岗位连续2年位列人才紧缺度前十[56] - 阿里国际2026届校招80%为AI岗位，腾讯计划三年新增28000个实习岗位，技术类占比超60%[59][60][62] - 行业偏好年轻人才因20-30岁阶段创造力与学习能力更强，适合AI领域快速迭代特性[63][64]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Previous Next