k8凯发(中国)天生赢家·一触即发

科研动态|“铜铜铜铜铜铜铜铜铜好大好深色”的战略意义

铜铜铜铜铜铜铜铜铜好大好深色

  记者|AI for Science突出重围 :被海外巨头围剿的“中国OpenAI”冉翀伍洋宇

  编辑|刘方远

  2017年夏天 ,一趟从北京飞往纽约的国际航班上 ,张林峰正在反复比对两组几乎一模一样的数字 ,以确认它们真的如此接近 。

  这两组数字都代表64个水分子在10皮秒内(10的-11次方秒 ,比一瞬间还短暂)模拟运动的计算结果 。其中一组是在1985年用量子力学原理算出来的 ,消耗了2亿核时 ,即便在算力发达的今天 ,也需要大约2000万的计算费用才能实现 。另一组就来自张林峰手里这台笔记本 ,上面正运行着他与合作者完成的某套算法 ,因为从上飞机就插着电 ,大概只消耗了一些航空公司的电费——这可能吗?他甚至觉得自己抄错了 。

  下飞机之后 ,张林峰立刻写了一封邮件 ,将模拟的结果发送给自己在普林斯顿大学的导师 、中国科学院院士鄂维南 。来自远方的回复简洁而有力 :“Toogoodtobetrue(好得难以置信) 。”

  人类团队写的AI算法读懂了微观世界的某种客观规律——这像是一颗投向分子模拟领域的普罗米修斯火种 ,很多事情将就此被永远改变 ,但当时没人清晰预见 。

  再次回国后 ,一场老友见面 ,张林峰将飞机上发生的故事讲给了自己的北大元培校友 ,一边从事科技方向投资一边寻找合适创业项目的孙伟杰 。

  孙伟杰关注过市面上绝大多数AI项目 ,早就发现这个行业的共性问题是缺乏GoldenStandard(黄金准则)来衡量成果 。张林峰带来的故事是一种认知冲击——如果AI的核心是发现并学习某种规律 ,其价值等同于它所学到的规律价值 ,那当今世界还有什么规律的价值高于科学规律?

  用AI来学习和发现科学规律 ,没错 ,他们应该做这样一套东西——达成这一共识之后 ,张林峰和孙伟杰开始筹划共同创业 ,他们为新公司取名“深势科技” ,致力于用人工智能深度学习解决微观尺度的问题 。

  时间快进到2024年GTC大会 ,英伟达CEO黄仁勋在演讲中谈到了AI领域的三个关键方向 ,LLM(大语言模型) ,具身智能 ,以及AIforScience(科学智能) 。

  在前两个领域 ,OpenAI和Tesla两家美国公司已经形成鲜明主导地位 ,全球范围内的竞争者均对其亦步亦趋 。鲜有人知的是 ,第三个领域——AIforScience——早在七年前就在鄂维南院士的推动下在东方世界定下根基 。

  更加反直觉的在于 ,过去几年来 ,AIforScience领域声名在外的两家科技巨头GoogleDeepMind和微软并未形成实质上的引领地位 ,而是一直在与那个年轻东方团队相互追赶 。

  2017年 ,在鄂维南院士的带领下 ,张林峰与团队合作发布DeePMD ,紧接着GoogleDeepMind完成一套十分相近的技术框架;随后 ,张林峰团队做出了DeePWF ,一种电子波函数的AI计算方法 ,次年 ,DeepMind发布相同方向的解决方案FermiNet;2020年 ,张林峰团队再度发布DeePKS ,而DeepMind的对标框架DM21在2021年诞生 。

  2020年底 ,在鄂维南 、张林峰等人因DeePMD相关工作获得有高性能计算领域“诺贝尔奖”之称的戈登贝尔奖时 ,DeepMindAlphaFold-2的工作改变了整个结构生物学领域 。而到了2021年底 ,深势科技成为了全球首家成功复现AlphaFold-2并完全开源训练代码的机构 。

  深势科技创始人兼首席科学家张林峰

  大概只因为AIforScience才刚刚起步 ,人们无从发现这个前沿科技领域正在上演一场激烈的全球竞逐 。

  AIforScience有多重要?任正非曾指出中国的基础科学薄弱 ,在最基础的科研和工业问题上被“卡着脖子” 。中国实体产业已经在新能源汽车 、光伏等领域诞生多个全球第一 ,但回到电池研发层面 ,仍在基础科学问题上破茧无门 。而大量重要科学问题的终极答案都指向微观世界 。

  事实上 ,AIforScience的重要性已经与大国竞争的新局面挂钩 。大洋彼岸 ,在美国白宫一份行政命令要求下 ,PCAST(美国总统科技顾问委员会)近日撰写了题为《加速研究 :利用人工智能应对全球挑战》的报告 。其中 ,由知名数学家陶哲轩领衔的一份技术报告概述了AIforScience的潜在影响 。

  报告指出 ,AI将从根本上改变人类进行科学研究的方式 。其阐述了AI在材料 、半导体设计 、气候 、物理 、生命科学等领域已经做出的改变 ,并高度总结了AI如何通过提供研究工具来加速科学发现和技术进步 ,从而革命性地改变人类解决最紧迫问题的能力 。

  这恰恰是深势科技决心投入并试图引领中国产业去突破的问题 。成立近六年时间 ,深势科技已经把当初那颗火种衍生为一套完整的产品框架 。用多尺度建模 、机器学习和高性能计算去解决微观尺度下的工业设计难题 。这件事天然地适合药企 、材料研发和科研机构 ,是真正有可能四两拨千斤的魔法工具 。

  但这趟旅程并不完全是一个天之骄子的爽文故事 。因为人才难寻 ,这家AIforScience领域的“中国OpenAI”在创业之初甚至有一半以上的员工是实习生 。深势科技在天使轮拿到了1600万人民币融资 ,听上去不少 ,但去年由谷歌孵化 ,并由谷歌创始人挂帅的SandboxAQ首轮单笔公开融资就已达到5亿美金 。孙伟杰说 ,当他看到海外对手可能是以每年数十亿美⾦为计在投⼊的时候 ,他知道自己还得做到更好 。

  深势科技联合创始人兼CEO孙伟杰

  作为深势科技创始人兼首席科学家 ,张林峰判断 ,AIforScience领域的科学大模型正处在GPT-2阶段 ,这意味着涌现时刻已经不会太远 。他对未来的终局想象是无论半导体工业 、电池 、合金 ,还是药物 ,都能从原子开始生产制造 。一个形象的比喻大概就是 ,原⼦尺度下的“活字印刷术” 。

  而作为公司CEO ,孙伟杰说 ,他们的创业出发点是做一家真正源自中国 、引领世界的科技公司 。他认为一代公司有一代公司的使命 ,中国已经走过了拿来主义的阶段 ,这个时代在呼唤更多有底层创新技术的公司 。

  打开微尺度的大门 :看到光照不进的地方

  我们觉得在分子模拟里 ,可以发现人类的未来 ,所以就把公司口号定成了这句话 。

  另一个问题则是它动的太快了 。对于常见的物质来说 ,原子间振动的常用时间尺度是是十的负十五次方秒 ,也就是百万亿分之一秒 。刚才过去的一秒钟 ,它动了一百万亿次 。

  所以是真的“看不到”它怎么动 ,只能模拟 。

  比如生命和非生命的界限到底在哪?一个细胞可以是一个生命 ,但是细胞也是由无生命的原子构成的 ,那为什么它会变成一个生命体呢?如果我们从最小的地方一点点开始模拟 ,一个原子 ,两个原子 ,三个原子 ,直到组成蛋白质 ,组成线粒体 ,一点点往上加 ,加到什么样的时候 ,它突然就有生命了?这是人类的一个终极问题 ,生命是“涌现的“ ,你怎么知道那个界限在哪?

  再比如说 ,中国目前在电动车和电池行业已经

  靠量子力学这样的算法 ,随原子数量的上升 ,计算量是三次方指数上升 。一百个原子和一万个原子 ,差的原子数量是一百倍 ,但是差的计算量是一百万倍 。这就导致我们想要算一个真正感兴趣的问题 ,如果里面有几十万个原子 ,可能把全球的算力加起来都不够用 ,这个叫做维数灾难 。

  第二种方法就是经验力场 ,靠归纳 。我就简单地把原子间的力抽象成一个化学键 ,像个皮筋一样 。它不那么准 ,但至少能算 ,在相当长的历史阶段里面也解决了很多问题 。但一旦面临精度很高的体系 ,就不管用了 。

  我们研究新材料 ,比如说一块橡皮泥 ,为什么它有这种弹性形变?现在是没有原理能够解释的 。我们只是观察到了 ,它一捏可以这样 ,但我们不知道为什么会这样 。

  而当我们有了分子模拟 ,就有可能通过模拟的方式搞明白背后的原理 ,这样在我们需要有弹性形变的材料时可以尝试把这个原理使用上去 。

  中国团队扛起AIforScience的大旗

  我本科毕业刚刚去普林斯顿的时候 ,其实做了非常多的纯理论的探索 ,量子计算 、量子场论等等 。在找科研方向的时候有一句话是共振程度最高的 ,是杨振宁说的“thepartyisover” ,找不到令人振奋的方向了 。

  那时候鄂老师直接劝我不要再继续上课了 ,尽管普林斯顿有很多菲尔兹奖 、诺贝尔奖得主的课程 ,重学一遍也挺开心的 。但我理解他的意思是 :上课只会满足你的虚荣心 ,你80%都会了然后上去再会一点 ,并不是在定义重要问题 。

  比如AI处理图像 ,以一个32乘32像素的图像为例 ,算上RGB的三个值 ,那有3000多个数字作为输入 ,然后输出的画面就是猫或者狗或者别的 。这个事儿我们现在去看好像挺自然 ,但事实上从数学建模的角度来讲 ,是非常反直觉的 ,至少是反一代数值算法科学家的经验和直观的 。

  世界上本来就不存在学科 ,以前分学科是为了教育方便 。过去因为方法能力的限制 ,各个尺度下面的不同场景已经被四分五裂到不同的学科 。而现在我们有了一个统一的工具 ,也就是AI ,能表示所有的复杂高维函数 ,那我们可以带着一个全新的视角把所有的东西都重新审视一遍 。

  而如果我们把这个东西拿AI一学 ,然后用来做模拟 ,模拟的分子数大10倍 ,时间长10倍 ,用你这个笔记本跑一天就可以了 。

  64个水分子的模拟 ,我是在去美国的飞机上跑通的 。当时在飞机上用笔记本插着电跑 ,跑完之后出来的结果跟RobertoCar的模拟互相重叠 ,我甚至以为抄错数据了 。下飞机以后我发给鄂老师写了一个邮件说了这件事情 ,然后他只回了一句话 :“toogoodtobetrue 。”

  同时我们还做了一个开源社区DeepModelling ,很快就有来自非常多不同领域 ,半导体 、电池 、合金材料 、天文地理的科学家都拿AIforScience的工具做了很多应用 。在这个基础上 ,它慢慢地形成了一个比较广泛的影响 。

  也是从18年开始 ,我们确定了分子模拟能真正打开微观工业研发的大门 ,而AI会推动整个工业研发新范式的变革 。

  创业 :10亿做一个科学大模型 ,但当时兜里只有20万

  当时我看了很多AI相关的方向 。我最早对AI的认知是 :AI可以从大量数据里面找到背后的规律 ,所以说AI的价值是由它学到的规律的价值决定的 。学到的规律越有价值 ,它就能解决越多问题 。

  林峰的工作让我意识到 ,

  后来发现这个牛吹出去也还挺难实现的 ,源自中国 、引领世界 、科技公司这三点可能是每一个拆出来都还行 ,合在一起就发现这样的公司很少 。我们不敢定义自己已经实现了这样的目标 ,但我觉得我们确实是照这个目标在前行 。

  我记得最早我们盘算了一下这个事情大概需要多少钱 。当时我们想的是去训练一个涵盖宇宙所有物质的万物模型 ,我们觉得至少要需要10亿个数据点 。一个数据点差不多10块钱 ,这个成本是可以优化的 ,如果我们优化到一个数据点1块钱 ,那也要10亿 。但当时卡里只有20多万 。

  决赛的最终答辩是在张林峰提前定好的婚礼的第二天 ,前一天我们还开着车回张林峰的老家山西去举办婚礼 。婚礼当天不得不喝酒 ,张林峰过来说 :别喝太多啊 ,明天还要答辩呢 ,1200万 !当时我直接就清醒了 。

  后来林峰20年初毕业 ,回来了我就可以融资了 。当时BP都写好了 ,然后就碰上疫情了 。那时候融资确实是摸爬滚打 ,林峰在线上也参与了很多次投资人的拷问 ,最后总算在林峰回来之前把第一轮融资搞定了 。

  19年8月份 ,我们决定先做FEP(注 :FEP是一种用于计算分子A转变为分子B过程中自由能变化的计算化学方法 。通过模拟分子结构细微变化引起的能量差异 ,能预测候选药物分子与蛋白质的结合能力 ,在药物研发中有重要应用 。)药物领域已经有了一个微尺度的软件叫薛定谔 ,是一家美国上市公司 ,而FEP是他最核心的功能 ,当时也只有他做得好 。但我们认为通过机器学习和分子模拟 ,我们可以做得更好 。

  比如前面说的FEP是计算药物分子与蛋白质结合自由能的变化 。由分子A转变为分子B的过程可能有多种途径 ,学术界只需要关注其中有限的情况并且算准了 ,就足以成为一篇优秀的论文 。

  然而 ,在工业界 ,重点是确保转变过程中不会出现重大问题 ,无论是崩溃还是中断 ,都是不可接受的 。因此 ,需要将解决方案提升到工业级 ,然后再结合更好的方案 ,这样才能充分发挥新方案的价值 。

  到2020年 ,我们才真正把自己定位成一家微尺度工业软件公司 。现在不光是在药物领域 ,我们推出了BDA电池设计自动化平台Piloteye ,这是世界上首个电池设计工业软件系统 ,而恰好电池也是我们国家的优势领域 。

  中国科技缺乏原始创新?一代公司有一代公司的使命

  国外的这些真正有非常强原创技术的公司 ,它一定是在实现了超额利润的基础之上 ,在追求下一个时代 、下一个增长曲线的布局的时候 ,才有很多这种原创性的基础研究 。

  AIforScience就是对研发手段 、研发能力的革新 ,让做底层创新的公司有更高投入产出比 、更高效的研发方式 。

  当然 ,在2020年DeepMind做出了AlphaFold-2 ,改变了整个结构生物学领域 。我们在21年成功复现了AlphaFold-2 ,在国内是第一个 。

  我可以说如果当时不是鄂老师一直在推AIforScience ,我们没有创立深势科技 ,现在很有可能这个领域也是国外完全主导的 。

  创业公司中比较有名的有SandboxAQ ,他的创始人是谷歌的联合创始人谢尔盖·布林 。他们也是用AI学习量子力学的方法做药物设计等方向 ,第一个应用的是FEP ,听起来有没有很熟悉?跟我们的路径一模一样 。但是它们第一轮公开市场的融资单笔已经拿到了5亿美金 。

  所以我说我们选了一个重要的方向 ,但是把自己丢进了一个地狱模式的难度里 。

  说到实习生 ,我们在融资的时候曾经有过一个非常“奇怪”的条款 。在A轮融资的时候 ,领投方给我们的一个条件是 ,在完成本轮融资后的18个月内将公司的实习生的人数的比例降低到50%以下 ,说“你们公司实习生太多了” 。

  并且 ,“地狱模式”还有一个好处是没有过早的分工 ,我们可以更加放开想象力去做 。我内部经常说 ,“如果你的反应不是退缩 、而是激动” ,那就应该一起做最伟大的事情 。

  提高原子使用率 ,科学大模型已经走到了GPT-2

  AIforScience差不多就是晚一个周期 ,15 、16年那个时候人们开始用AI解决一些科学问题 ,包括AlphaFold最开始出现也是在那时候 。然后到了20年有两个比较关键的点 ,一个是DeePMD拿到了戈登贝尔奖 ,另一个是AlphaFold2出世 ,证明AIforScience毫无疑问是可以做出非常牛逼的应用的 ,行业进入了技术设施建设期 。现在该有的基础设施基本也都出现了 。

  而且我觉得AIforScience由于借鉴了很多过去大模型发展的路径 ,它的速度可能还会比大语言模型要更快一些 。

  自然法则本来是Scale的 ,但我们有点像反过来 ,是anti-scale ,这就是为什么要搞到原子级 ,因为你是scaleback然后再重新reconstruct的过程 ,这个点是不一样的 。

  另外一个就是说科学问题的结构更丰富 ,很多时候不是一个单模态的扩展 ,而是这个组合型的scale ,这也跟大模型有一些不同 。当然训练模型的逻辑是一致的 ,有大规模的数据 、大规模的训练模型实现更好的迁移创造和生成 。

  而对于AIforScience来说是利用AI去拓宽人们的认知的边界 ,拓宽我们的底层构建能力 ,去重塑整个世界 。到最后其实我们会发现AGI最后的边界还是物理 ,无论是物理规律还是物理的实体 ,在这一轮数字世界的闭环的基础上 ,下一步可能还是要跟物理世界产生一个有效的连接 ,这也是AGI和AIforScience产生连接的地方 。

  目前 ,我们已经有专注软件的DeepModeling社区 、提供“教学研用”一体化服务的玻尔科研空间站以及涉及数据模型工作流的AISSqaure 。有了这些基础设施 ,科研工作者就能通过新的方式集结和协作起来 ,我们今年在推出DPA-2之后 ,也面向社区发起了OpenLAM大原子模型计划 。

  开源精神其实和我们的文化是一致的 ,我们想要推动一个向善的 、真正做好事的技术体系 ,并且在生态共建的过程中持续成就伙伴 。

  另一方面 ,我们一直说重构 ,发起这样一个大规模的开源协作本身也是“重构科研协作”的一个实践 ,鄂老师一直强调科研未来要走向“安卓模式” ,我们认为未来的平台化科研和工业研发应该就是这个样子 。

  责任编辑 :欧阳名军

联系我们