建华文学 > 其他小说 > 股海弄潮 > 第384章 17岁,跨洋代码
2024年7月25日,星期四,晚上八点。
深圳,默石资本,技术部。
暑假已经过半,技术部的灯比平时亮得更晚。陆方坐在工位上,面前是三块屏幕,每块都显示着密密麻麻的代码和模型输出。他正在测试星海大模型模块的准确率——89%,比上个月提高了1个百分点,但离90%的目标还有差距。他有些沮丧。不是因为他不够努力,是因为他觉得自己可能走错了方向。大模型的发展太快了,每个月都有新论文,每个月都有新模型。他追不上。
手机震动了。是陈曦发来的消息:“陆方叔叔,我这边是早上。你那边应该是晚上吧?吃饭了吗?”
陆方回复:“还没。在调模型。”
陈曦:“什么模型?”
陆方:“星海的大模型模块。准确率卡在89%,上不去了。”
陈曦:“你有没有试过开源模型?比如LLaMA、Falcon、Bloom?我用它们在伯克利的服务器上做过测试,准确率能到92%。”
陆方愣了一下。他当然知道这些开源模型,但他没有试过。因为他的思维还停留在“自己训练模型”的阶段,没有想过用现成的开源模型做微调。这就是代际差异——他这一代人,习惯从零开始造轮子;她那一代人,习惯站在巨人的肩膀上。
陆方:“我没试过。你能帮我跑个测试吗?”
陈曦:“可以。你发我一份测试数据集。”
陆方从星海平台导出100份招股书摘要和对应的分析报告,打包发给陈曦。数据集不大,几百兆。
陈曦:“收到了。我明天给你结果。”
陆方:“好。谢谢。”
陈曦:“不客气。”
2024年7月26日,星期五,上午十点。陆方收到了陈曦的测试结果。她用了三个开源模型——LLaMA-7B、Falcon-7B、Bloom-7B——在伯克利的服务器上做了微调。结果让陆方震惊——LLaMA-7B的准确率最高,达到91.5%,比星海大模型模块的89%高出2.5个百分点。Falcon-7B达到90.2%,Bloom-7B达到89.8%。三个模型的平均准确率90.5%,超过了星海。
陆方看着那个数字,沉默了很久。他想起自己花了三个月时间调参数、优化模型,准确率只提高了1个百分点。陈曦只花了一个晚上,用开源模型微调,就把准确率提高了2.5个百分点。不是他不够努力,是方向错了。
他给陈曦发消息:“结果收到了。开源模型确实比我们的好。”
陈曦:“不是我强,是模型强。你们也可以试试。开源模型,成本低,效果好。不用自己从头训练。”
陆方:“我试试。”
陈曦:“需要帮忙吗?”
陆方:“需要。你教我怎么微调。”
陈曦:“好。我写个教程给你。”
陆方看着那行字,笑了。他想起2019年,陈曦第一次来公司,画了那张产业链图谱。那时候,她才11岁,什么都不懂。现在,她在伯克利,教他做大模型。时间过得真快。
陆方:“你才学多久,就比我们强了。”
陈曦:“不是我强,是模型强。你们也可以试试。”
陆方:“已经在试了。等你回来,我们一起做星海4.0。”
陈曦:“好。一言为定。”
2024年7月27日,星期六,上午九点。陈默走进技术部,看到陆方正对着屏幕发呆。
“怎么了?”陈默问。
陆方转过头。“陈总,昨天陈曦帮我跑了开源模型测试,准确率91.5%,比星海大模型模块高2.5个百分点。”
陈默愣了一下。“她怎么做到的?”
“用开源模型微调。LLaMA、Falcon、Bloom。在伯克利的服务器上跑了一个晚上。”
陈默走到屏幕前,看着那些数据。“你试了吗?”
“正在试。她用了一个简单的微调方法,只训练了最后一层。效果好,速度快。”
陈默笑了。“下一代,真的不一样。”
陆方点头。“对。他们比我们开放。我们习惯从零开始造轮子,他们习惯站在巨人的肩膀上。”
陈默拍了拍陆方的肩膀。“那就跟着他们学。”
陆方也笑了。“好。”
2024年7月28日,星期日,下午两点。陆方按照陈曦的教程,成功微调了LLaMA-7B模型。准确率91.2%,和伯克利的结果基本一致。他兴奋地给陈曦发消息:“成功了!91.2%。”
陈曦回复:“恭喜!接下来可以试试更大的模型,比如LLaMA-13B。准确率还能再提高。”
陆方:“13B需要更大的显存。我没有。”
陈曦:“用云服务。按需付费,不贵。”
陆方:“我试试。”
他注册了一个云服务账号,租了一台带A100显卡的服务器。按小时计费,一小时十几块钱。他把模型上传,开始微调。等了两个小时,结果出来——准确率93.1%。他靠在椅背上,长出一口气。
他给陈曦发消息:“13B跑通了。93.1%。”
陈曦:“厉害!下一步,可以试试多模型集成。把几个模型的预测结果加权平均,准确率还能再提高。”
陆方:“多模型集成?我没试过。”
陈曦:“试试。不复杂。就是把几个模型的输出做加权平均。权重可以用验证集上的准确率来定。”
陆方:“我明天试试。”
陈曦:“好。有结果告诉我。”
2024年7月30日,星期二,上午九点。陆方完成了多模型集成的测试。他用LLaMA-7B、Falcon-7B、Bloom-7B三个模型,在验证集上计算准确率,然后用准确率作为权重,对三个模型的输出做加权平均。测试结果——准确率94.2%,超过了单一模型。他给陈曦发消息:“多模型集成跑通了。94.2%。”
陈曦:“厉害!夏普比率多少?”
陆方:“1.9。”
陈曦:“不错。继续优化,争取到2.0。”
陆方笑了。他想起2019年,陈曦第一次来公司,画了那张产业链图谱。那时候,她才11岁,什么都不懂。现在,她在伯克利,教他做多模型集成。
他关掉电脑,站起来,走到窗前。窗外,深圳的夏阳炽烈,平安金融中心的玻璃幕墙反射着刺眼的白光。远处,深圳湾的海面平静如镜。他想起周寻说过的话——“淘汰我们的不是技术,是我们不会用技术。”他学会了用技术。不是被技术淘汰,是用技术淘汰别人。这是他的路。
他转过身,走回工位,打开电脑,继续调模型。
2024年8月1日,星期四,上午九点。技术部晨会。陆方站在白板前,手里拿着马克笔。他的眼袋很深,但眼神很亮。
“过去一周,我用开源模型做了微调和多模型集成。准确率从89%提高到94.2%。”他在白板上写了几个数字:89%→94.2%。
“下一步,我计划把开源模型正式接入星海平台,替换掉现有的大模型模块。成本更低,效果更好,而且我们自己可以控制模型,不用依赖外部API。”
周寻举手。“那现有的大模型模块怎么办?”
陆方想了想。“保留。作为备用。两个模型并行跑,结果交叉验证。哪个准,用哪个。”
陈默站在门口,听着陆方的汇报,笑了。他转身走回办公室,对沈清如说:“陆方把准确率提高到94.2%了。”
沈清如抬起头。“这么快?”
“用了陈曦教的方法。开源模型微调,多模型集成。”
沈清如笑了。“这一代,真的不一样。”
陈默点头。“对。他们比我们开放。我们习惯从零开始,他们习惯站在巨人的肩膀上。”
沈清如看着他。“你不觉得,我们被超越了?”
陈默想了想。“不觉得。因为我们也在学。学无止境。”
2024年8月15日,陈曦回国了。她拖着行李箱,背着双肩包,站在深圳宝安国际机场的到达大厅。沈清如看到女儿,眼眶红了,但没哭。陈默站在旁边,双手插在裤兜里,没有说话。
陈曦跑过去,抱住沈清如。“妈,我回来了。”
沈清如拍了拍她的背。“瘦了。”
“没瘦。还胖了两斤。”
陈默走过去,把陈曦的行李箱接过来。“走吧,回家。”
车上,陈曦坐在后排,看着窗外的深圳。她离开还不到一年,但感觉这座城市又变了很多。新的高楼拔地而起,旧的道路拓宽了,连空气里的味道都不一样了。
“爸,陆方叔叔说,星海的大模型准确率到94.2%了。”陈曦说。
陈默点头。“他用了你教的方法。”
陈曦笑了。“那是我在伯克利学的。教授说,不要重复造轮子,要站在巨人的肩膀上。”
沈清如转过头。“那你觉得,星海4.0应该怎么做?”
陈曦想了想。“用开源模型做基础,加上星海自己的数据,做微调。然后,多模型集成,强化学习优化。应该能到95%以上。”
陈默握着方向盘,嘴角微微上扬。
回到家,陈曦把行李箱拖进房间,然后跑到技术部。陆方正在工位上调模型,看到她进来,笑了。“陈曦,你回来了。”
“回来了。模型怎么样了?”
“94.2%。卡住了,上不去了。”
陈曦走到屏幕前,看了一眼。“试试强化学习。用夏普比率做奖励函数,不仅要准,还要稳。”
陆方愣了一下。“夏普比率?我用的是分类任务,不是交易策略。”
“分类任务也可以用夏普比率。把准确率看成收益,把方差看成风险。最大化夏普比率,就是最大化收益风险比。”
陆方沉默了几秒。“有道理。我试试。”
陈曦笑了。“需要帮忙吗?”
陆方也笑了。“需要。你帮我写个奖励函数。”
陈曦坐下来,打开电脑,开始写代码。陆方站在她身后,看着她熟练地敲击键盘。他想起2019年,她第一次来公司,连Python都不会装。现在,她在伯克利学计算机,代码写得比他还快。时间过得真快。
陈曦用了半个小时,写好了奖励函数。她递给陆方。“试试这个。”
陆方接过代码,跑了一遍。结果——准确率94.8%,夏普比率2.1。他愣住了。“94.8%?”
陈曦点头。“对。我说过,能到95%以上。”
陆方看着她。“你才学多久,就比我们强了。”
陈曦笑了。“不是我强,是模型强。你们也可以试试。”
周寻走过来,站在陈曦身后。“已经在试了。等你回来,我们一起做星海4.0。”
陈曦转过头。“好。一言为定。”
陈默站在技术部门口,看着这一幕,对沈清如说:“下一代,真的不一样。”
沈清如也笑了。“对。他们比我们开放,比我们敢试。”
陈默点头。“所以,我们要向他们学习。”
晚上,一家三口坐在客厅里。陈曦在讲伯克利的见闻——教授、同学、课程、图书馆、食堂。沈清如听得很认真,陈默偶尔插一句。
“爸,你说,星海4.0能做到95%以上吗?”陈曦问。
陈默想了想。“能。因为你已经在做了。”
陈曦笑了。“那我要加油。”
陈默看着她。“不要累着。学业重要,身体更重要。”
“我知道。”
沈清如插话。“还有,别忘了,学好之后回来帮我们升级星海。”
陈曦笑。“那是自然。”
2024年8月20日,陈曦的暑假结束了。她拖着行李箱,背着双肩包,站在深圳宝安国际机场的出发大厅。沈清如站在她面前,帮她整理衣领。“到了报平安。”
“嗯。”
“按时吃饭,不要熬夜。”
“知道了,妈。”
沈清如的眼眶红了。她没有哭,忍住了。陈默站在旁边,双手插在裤兜里。他看着女儿,沉默了很久。
“爸,你没什么要说的吗?”陈曦看着他。
陈默想了想。“没有。该说的都说过了。”
陈曦笑了。“那抱一下。”
陈默张开双臂,把女儿抱在怀里。他拍了拍她的背,没有说话。陈曦松开他,转身走向安检口。她回头看了一眼,挥了挥手。沈清如也挥手。陈默站在那里,没有挥手。
陈曦消失在安检口。沈清如靠在陈默肩上。“她走了。”
陈默点头。“嗯。”
“你哭了?”
陈默擦了擦眼角。“没有。眼睛进沙子了。”
沈清如笑了。“你每年都说眼睛进沙子。”
陈默也笑了。“因为每年都有沙子。”
2024年8月21日,陈曦抵达旧金山。她打开手机,给陈默发消息:“爸,到了。”陈默秒回:“好。去宿舍,早点休息。”陈曦:“嗯。你们也早点睡。”陈默:“好。”
陈曦坐上车,看着窗外的城市。旧金山的夜,灯火辉煌。远处,金门大桥的灯光在夜色中闪烁。她想起2024年暑假,自己帮陆方做了大模型实验,准确率从89%提高到94.8%。陆方感叹:“你才学多久,就比我们强了。”她说:“不是我强,是模型强。”她想起周寻说的话:“等你回来,我们一起做星海4.0。”她笑了。
她拿出手机,给陆方发了一条消息:“陆方叔叔,我到美国了。星海4.0,等我回来。”陆方秒回:“好。等你。”
她放下手机,闭上眼睛。窗外,旧金山的夜色渐深。她知道,她会回去。不是现在,是以后。等她学好了,带着新东西回去,升级星海。这是她答应爸爸的,她会做到。
她翻了个身,沉沉睡去。

温馨提示:方向键左右(← →)前后翻页,上下(↑ ↓)上下滚用, 回车键:返回列表

上一章|返回目录|下一章