他们冒着失败的风险,大胆尝试了MLA(多头潜在注意力机制)★★、DeepSeekMoE(混合专家模型)等多种开创性技术★★★。
最终★,这群年轻人创造了历史★:DeepSeek-V3横空出世,一夜震惊了硅谷。
这推动幻方量化基金规模持续攀升,2021年一度超千亿元大关,位列国内量化四大天王之一。
也就是同一时期★★★,随着深度学习算法的突破★★★,人工智能大爆发。早年在浙大就研究人工智能的梁文峰,燃起雄雄斗志。
在梁文峰看来,中国企业在过去被商业驱动的惯性束缚了★★。他希望DeepSeek能摆脱这种束缚。
不仅没有海外人才,也没有行业大佬。梁文峰更喜欢没有经验的年轻人yl23455永利10大★,因为他们不受条条框框的束缚。
这种看似松散的管理方式★★★,极大地调动了所有人的好奇心和创造欲,让DeepSeek-V3得以横空出世。
今天★,从大疆无人机汪滔,到宇树机器人王兴兴……一大批新生代企业家★★★,正将中国科技产业带向无人区★。
于是★★,过去几年★★,当很多大模型厂商忙着抢用户,做商业化变现时★★,梁文峰却苦哈哈搞起了看似不赚钱的基础研究。
不少美国人认为★★,这比六代机更像上世纪50年代,苏联抢先发射第一颗人造卫星的斯普特尼克时刻★★★。
这股神秘的东方力量,令人称奇的地方在于,它幕后的资方并不是腾讯、阿里这样的互联网巨头★,而是一家低调的私募基金——幻方量化。
比如★,DeepSeek-V3最重要的创新之一MLA架构,就来自一个年轻人的突发奇想。
紧接着2021年,他又投资10亿元,建成★★“萤火二号★★”★,搭载1万A100算卡,算力相当于76万台个人电脑。
当西方还沉浸在圣诞节的狂欢中时★,一位中国码农,站在巨大的落地窗前★,远眺着窗外的京杭大运河★★★。
事实上,从2023年创立深度求索★★★,进军大模型的第一天起,梁文峰及其团队对算法框架的反思就开始了★★。
12月26日,杭州一家名为★“深度求索★”的中国初创公司★★,发布了全新一代大模型:
然而,真正让美国硅谷感到震撼的,还不是DeepSeek-V3的高性能★、低成本★,而是中国人展现出的首创精神★★★。
很多硅谷大佬在纷纷点赞的同时,也体验到中国科技带来的苦涩★★:当美国人休息时,他们在奋力追上我们!
几番折腾下来★★,他决定下场做量化投资。但这个决定并不容易,毕竟当时量化在国内还是个新事物★。
仅仅一年后,他们就上线了第一笔由AI驱动的实盘交易,并在随后,将所有交易策略都AI化。
相比之下,中国企业家似乎把更多的目光,放在了赚钱和生存上,很少抬头仰望星空★★,对创新的重视也不够。
因为工作太前沿,这些年轻人在开展工作时,几乎没有参考资料。但也正是这种空白,让他们敢于突破传统★★。
时至今日,他依旧延续着低调的作风,和公司其他研究员一样★★,每天看论文,写代码,参与小组讨论。
每当困难时★★,梁文峰总会想起量化投资之父西蒙斯的一句话:一定有办法对价格建模★★★。
令人惊讶的是★,DeepSeek-V3在性能比肩GPT-4o的同时,研发却只花了558万美元,训练成本不到后者的二十分之一。
2017年,谷歌研究团队在一篇开创性的论文中,首次提出Transformer架构★★。这是一种完全基于注意力机制的神经网络★★★,它颠覆了过去的传统算法。
在此之前★★★,谷歌和Open AI花了几年时间★★★,耗资数亿甚至数十亿美元,调用了几万块最先进的GPU,才干成同样的事情★★。
在多个基准测试中,DeepSeek-V3的性能均超越了其他开源模型★★★,甚至与顶尖的闭源大模型GPT-4o不相上下。
事实上,这家初创公司并非外界传言的,有一批高深莫测的奇才,而都是一些毕业才几年的年轻人。
这两句从梁文峰口中喊出的话,不仅事关AI产业,也是中国企业在跟随、模仿了西方几十年后,不得不面对的突破方向。
这使得他★★★,有足够的资本,听从内心的声音★★★,去做自己喜欢的事情,而不是首先权衡利弊得失。
中国AI公司过去几乎都在照搬硅谷,以致人们普遍认为:美国擅长从0到1的技术突破,而中国只擅长从1到100的应用落地。
研究过程中,如果有想法,每个人都可以拉人讨论,并随时调用公司训练集群的卡,无需审批,不设上限。
几个月后,当英伟达发布最新A100芯片时,梁文峰再次抢跑,成为亚太地区第一批拿到此卡的人★。
一家叫OpenAI的美国初创公司★★★,基于新架构不断训练自己的大模型。最终在2022年以ChatGPT引爆AI大模型时代★★★。
但一群初生牛犊的年轻人,在梁文峰的带领下,干了一件极其疯狂的事:他们试图改进Transformer架构。
美国人惊讶地发现★,原来中国公司也可以作为创新贡献者★,在他们的游戏之外,自定游戏规则。这在过去是极其罕见的。
事实上,过去30年★,我们已经习惯摩尔定律从天而降★★,躺在家里18个月就会出来更好的硬件和软件★★★。
那一年,从浙大毕业、主修软件工程的他,没有像同龄人一样,进入大厂当码农★★,而是一个人跑到成都,蜗居在出租屋里。
梁文峰是中国AI界非常罕见的人,他拥有恐怖的学习能力★,兼具强大的infra工程和模型研究能力,又能调动资源。
当很多大模型公司热衷于去海外挖人时,梁文峰却反其道而行之★★★,坚持从本土招人,并放出豪言:
在这个信念支撑下★,梁文峰苦苦熬了两年★,终于柳暗花明。2010年,沪深300股指期货推出,量化投资迎来了春天。
AI交易策略需要算力支持,尤其是,随着模型参数的激增,对GPU算力的需求也在不断增长。
但这种局面,在近几年悄然改变,中国新生代企业家正以突破性创新★★★,在西方的游戏之外另起炉灶。
早在上大学时★,梁文峰就笃定:AI一定会改变世界。毕业后,他在量化投资上,赚了足够多的钱。
一家私募基金囤这么多算力★★★,究竟意欲何为?甚至有媒体抱怨★★★:幻方量化把A股散户吓坏了。
它在2023年成立子公司★★★“深度求索★★”,开始DeepSeek大模型的研发,整个团队只有139名成员★★,远少于OpenAI的1200人。
几个意气风发的年轻人,试图用数学和人工智能,在中国打造一个像文艺复兴那样世界顶级的量化对冲基金。
DeepSeek-V3打破了这种成见★,它以MLA★、DeepSeekMoE等多项开创性技术★,大幅提升了模型的性能和训练效率。
当年就投资2亿元,建成“萤火一号”AI算力集群,搭载1100块GPU算卡。而彼时的特斯拉,才刚刚提出Dojo超算概念。