文章      动态     相关文章     最新文章     手机版动态     相关动态     |   首页|会员中心|保存桌面|手机浏览

17l9p

http://17l9p.kub2b.com/

相关列表
文章列表
  • 暂无文章
推荐文章
为什么数据质量仍是实现AGI最重要的基础,Surge AI创始人首次公开分享!
发布时间:2025-08-05        浏览次数:0        返回列表

linkloud 引言

Surge AI 于 2020 年在硅谷成立,与 Scale AI 一样同样专注于数据标注的技术平台,他们在没有任何外部资金的情况下实现了超过 10 亿美元的收入增长。

而与此同时,Scale AI 则一路融资筹集了超过13亿美元的资金,但 ARR 却只有 8.5 亿美元。相对于拥有 1,200 人的 Scale,Surge 仅有 120 名。在 Scale 创始人 Alexandr Wang 卖身 meta 后,Surge 的高效表现和创始人 Edwin Chen 逐渐走入公众视野。
这也是他第一次接受公开采访,这场来自 20VC 的播客在主持人 Harry 看来也是“少见特别”的对话,期间有许多“非主流”的观点,包括对数据标注壁垒和“小公司”组织发展等,非常犀利,我们一起走进这位隐形冠军的愿景,Enjoy!
(文末附完整版播客视频)
一、Surge 的崛起:以质量为核心,重新定义数据标注
Surge 这家公司,正是上述理念的实践者。他们与行业内其他公司的根本区别,在于他们对自身定位的认知。
1. 从不是人力外包公司
在数据标注这个领域,很多公司本质上并不是技术公司。它们要么是纯粹的人力外包公司,要么是伪装成技术公司的人力外包公司。
“人力外包公司”意味着它们没有任何核心技术。很多时候他们做的只是招募人力,比如看到简历上有博士学位就立即雇佣,然后把这些人“传递”给 AI 公司。他们没有一个平台让工作者去工作,也没有技术去衡量这些工作者做得好不好。
因此,他们无法进行例如 A/B 测试某个质量分组算法、调整工具或筛选方法看效果如何这样的实验。他们无法回答“这样的改动是会让工作者更高效,还是会降低质量”这类问题。因为他们交付给客户的,是“人”本身,而不是经过技术手段保障的“数据”。这意味着他们没有任何技术来衡量或改进任何东西。
Surge 的商业模式则完全不同。他们交付的是数据,而不是人力。这意味着他们的盈利方式和产品形态都与竞争对手有着根本性的差异
2. 质量控制的极端挑战
Surge 的思考方式始终以数据质量作为第一原则。为了实现这一点,他们必须构建相应的技术来衡量和改进质量。
这个领域的一个常见误区是,人们低估了质量控制的难度。很多人想当然地认为,人类很聪明,只要把一群人扔到问题上,就能得到好的数据。但事实证明,这完全是错误的。
现实情况是,即使是来自顶尖学府的人,也未必能胜任。比如,即便是 MIT 计算机科学专业的毕业生,也可能有一半人写不出像样的代码。所以,检测“高质量”本身就是一个极具挑战性的问题。
更具挑战性的是,即使你真的找到了那些会写代码的顶尖人才,他们还可能会想方设法地欺骗你。他们可能会把自己的账户卖给第三世界国家的人,可能会尝试用大语言模型来生成数据,会想出各种疯狂的方法来攻击系统。因此,检测“低质量”也是一个非常具有挑战性、甚至充满对抗性的问题
3. 从个人痛点到创业原点
Surge 的创立源于 Edwin 在大公司担任 ML 工程师时遇到的真实痛点。他一直面临的问题是,很难直接获得训练模型所需的数据。
一个典型的例子是,他曾在 Twitter 从事广告系统的工作,想做的第一件事是构建一个情感分类器。这本该是一个非常简单的问题,只需要 10,000 条被标记为正面或负面的推文来训练模型。
但当时公司内部的人工数据系统,仅仅是从广告网站上雇佣的两个朝九晚五的员工。这个项目光是启动就先花了一个月,然后再等一个月让这两个人在电子表格里标记推文,因为当时的现有工具都十分糟糕。
而且最终拿到数据时,也根本无法直接使用。因为他们不理解网络俚语,也不理解 Hashtag 和推文特有的语言生态。最后,Edwin 不得不自己花了一周时间标记推文,因为那样反而更快、质量更好。
这还只是简单的情感分析。更宏大的问题在于,如何为 ML 系统优化正确的目标。比如,如何构建一个能以积极方式吸引用户的信息流?在 X 还是纯时间顺序排序的旧时代,一个核心目标是让用户更容易发现他们真正关心的推文。最显而易见的方法是基于点击和转推来训练推荐算法。但当团队尝试这样做时,却陷入了一个负面反馈循环。
一旦为点击优化,那些最能吸引眼球的内容就会被推到顶部,结果就是平台充斥着大量种族主义内容、比基尼女孩照片、以及“10 种可怕皮肤病”之类的列表文章。
因此,Edwin 团队希望能在更深层次的原则上训练模型。他们会要求人工评分员根据产品原则来标记推文,比如“这条推文是否帮助用户与他们的兴趣建立了有意义的连接?”或者“某人对特定主题的见解是否非常有趣?”
尤其是在 2020 年 GPT-3 发布之后,整个行业都在向前迈进,Surge 应运而生,宗旨是为行业提供一种全新的、更高质量的数据。
二、反硅谷模式:先构建产品,而不是先融资
Surge 的成长路径,也充满了对硅谷主流创业范式的挑战。他们没有遵循“先融资、再招人、后开发”的传统路径,而是选择了一条截然相反的道路。
1. 融资只是为了虚荣的地位游戏
作为 MVP 的忠实拥护者,Edwin 花了几个星期就构建出了第一个版本的产品。他在这个领域有长期的工作经验,所以对想要构建什么已经有了非常清晰的愿景。不需要先招聘 10 个工程师,或者先融资 1,000 万到 3,000 万美元。他只想自己动手构建产品,自己去和客户交流。
他把产品发布在自己的博客上,向遇到的每一个人描述产品,结果发现市场对这种高质量数据确实有巨大的需求
硅谷有一种疯狂的现象:对大多数人来说,创业如同一个“地位游戏”。许多人融资就是为了融资本身。他们的目标往往不是构建一个真正能解决问题的伟大产品,而是为了向朋友们吹嘘自己融了 1,000 万美元,并登上 TechCrunch 的头条。
很多在大公司工作了 10 年的人,当他们考虑创业时,甚至都没有一个想要解决的问题。他们只是觉得工作有些乏味,想尝试新东西。同时,他们也完全有能力支付自己几个月的薪水。但他们做的第一件事是去融资。他们可能会尝试和一些用户交谈,构建一个 MVP,但这样做的目的只是为了在 YC 的申请表上打个勾。
他们会不断地围绕随机的想法进行转向,直到找到某个碰巧获得一点关注、听起来能打动 VC 的东西。于是他们把所有时间都花在发 X、发表热门观点、社交和参加各种 VC 晚宴上。这一切,都只是为了获得那个“融资 1,000 万美元”的标题。
正确的做法应该是,找到一个自己深信不疑、能够改变世界的大胆想法。这个想法的来源并不重要,可能是因为你在这个领域有丰富经验,也可能是因为你和很多用户交谈过。但它必须是你愿意在未来几年全身心投入的事情。
对于今天 90% 到 95% 的创业公司来说,除非是构建硬件这类需要大量前期资本的项目,否则完全没有借口在没有 MVP 的情况下就去融资
2. 为什么要拒绝融资?
当 Surge 的产品出现巨大需求时,如果是其他公司可能会选择去融资、或雇佣销售团队,但 Surge 并没有这样做。
直接的原因是,融资对他们没有任何帮助。他们很幸运,从第一个月就开始盈利,所以根本不需要钱。他们也不需要销售团队,甚至不希望有销售团队去推销产品。他们希望客户购买产品,是因为客户真正理解高质量数据的价值,看到了数据带来的实际收益。
早期客户至关重要,因为他们会塑造你正在构建的产品。他们会给你大量宝贵的反馈。这对于 Surge 来说非常重要。他们不希望销售团队给 10,000 个人发邮件问:“嘿,想不想要点好数据?” 这与他们想要构建的产品类型完全不符。
也许一切都有价格,但是对于 Surge 和它的创始人来说,不是这样。Edwin 甚至认为,不会以 300 亿甚至 1,000 亿美元的价格出售公司。因为作为一家公司,他已经拥有了他想要的一切:公司是盈利的,对自己的命运有完全的控制权,并且拥有所有资源去做任何想做的事情。
3. 数据质量高于一切
Surge 从一开始就有非常强的产品原则,其中最核心的一条就是专注于质量,超越一切。如果无法提供所承诺的质量,就会拒绝项目,而不是像其他公司那样,为了向 VC 证明数字在增长而绝望地去接受任何订单。
这种对质量的坚持,深深地植入了公司的 DNA。每个新加入的员工都会被告知:质量是最重要的事情,比任何其他事情都重要。如果因为质量问题需要推迟交付日期,是可以接受的。
这种原则也延伸到了对员工的招聘上。很多公司面临的困境是,急需某个岗位的人,但又找不到完美的人选,于是就雇佣了一个“7 分”的人,降低了标准。但回过头来看,那些被紧急填补的职位,那个工程师到底在做什么?他可能在构建一个没人关心的功能,或者一个只能将公司生产力提高 2%,却同时要占用其他人 5% 到 10% 时间去开会的内部工具。
三、在 AI 浪潮之巅
1. ChatGPT 带来的拐点
ChatGPT 的出现,让人们看到了人工标注数据在强化学习中的巨大价值。因此,ChatGPT 的问世成为了 Surge 业务增长的一个重要拐点。但即使在那之前,公司也一直保持着非常强劲的增长势头。
有趣的是,Scale AI 被收购后,Surge 获得了大量新的关注。对于这些新客户来说,看到真正高质量的数据是什么样的,是一次耳目一新的体验。他们中的许多人曾尝试从其他供应商那里获取数据,但过程非常漫长。而 Surge 的理念是,从合作的第一天起,就向客户展示真正高质量的数据。
公司的核心概念之一,就是始终生产你无法从其他任何地方获得的数据,通过提供具有丰富复杂性的数据,来开辟新的研究途径和产品类型。
2. 数据质量:通往 AGI 的最大瓶颈
在推动 AI 进展的三大要素——算力、算法和数据质量中,他认为数据质量仍是最大瓶颈,其次是算力,然后是算法。
很多人相信可以靠投入更多算力来解决问题,但这种想法是危险的。如果没有高质量的训练数据,或者没有正确的目标和评估指标,你的计算机只是在朝着错误的方向优化。最终会陷入一种“看起来在进步,实则不然”的陷阱
数据质量问题已经成为许多前沿 AI 实验室的挑战。很多团队在找到 Surge 之前,都经历过这样的痛苦:他们用其他方式获取数据,训练模型,评估模型,指标看起来在不断上升。但六个月甚至一年后,他们才意识到,当初的训练数据和评估数据都是不合格的。他们以为看到的所有进展,实际上完全具有误导性。六个月后,他们要么毫无进展,要么模型甚至比开始时更差了。
一个典型的例子就是 LLM Arena,当前主流的语言模型排行榜。这个排行榜基本上相当于“标题党”竞赛。用户进入聊天机器人竞技场,输入一个提示,看到两个模型的响应,然后投票选择哪个更好。但问题是,用户根本不会花时间去真正阅读和评估响应的准确性。其中一个模型可能完全在编造事实,但因为它使用了表情符号和漂亮的格式,用户就会投票给它。
实际上它完全是幻觉的响应,仅仅因为它有几个表情符号和漂亮的排版,就会获得更高的评价。人们会说,“看起来不错”,而不会去事实核查。如果向排行榜上某个排名第一的模型提问,它会输出一个看起来令人印象深刻的很长的回应,但答案完全是错误的。
很多公司为了提高排行榜排名,在不知不觉中只是训练他们的模型生成更长的响应,添加更多的表情符号和格式。他们看到模型在排行榜上攀升,就以为在取得进展,而实际上他们只是在训练模型产生更好的标题党。当他们最终在六个月或一年后意识到这一点时,已经浪费了大量时间和算力,取得了零进展甚至负进展。
4. 合成数据的虚与实
那么,合成数据能否解决数据瓶颈问题?很多人认为合成数据是一个巨大的威胁,但实际上,人们高估了它的能力。
合成数据在某些特定场景确实很有用,但它有一个根本性的缺陷:合成数据让模型擅长解决合成问题,而不是真实世界的问题。现在很多模型都经过了大量合成数据的训练,结果就是它们在学术基准测试上表现优异,但在现实世界的用例中却表现糟糕。
许多公司告诉 Surge,他们花了一年时间用合成数据训练模型,现在才意识到这造成了所有问题,正在花费几个月的时间丢弃大量数据。其中很多公司表示,由 Surge 生成的几千条真正高质量的人工数据,实际上比 1,000 万条合成数据更有价值。Surge 做的很多工作,实际上就是在清理这些合成数据造成的混乱。模型在合成数据创造的非常狭窄的相似性范围内会“崩溃”,无法获得所需的多样性和泛化能力。
四、硅谷大公司的弊端:
1. 90% 的工作都是在解决无用的问题
Edwin 认为,在 Google、meta 等大公司里,大部分人力资源都耗费在了意义不大的项目上。这并非危言耸听,而是源于对这些公司内部运作效率的长期观察。由这个观察得出的结论是:可以用 10% 的资源和人员,建立一个完全不同类型的公司,但是发展速度和产品质量却能达到过去的十倍
想象一下,如果能像变魔术一样移除那 90% 不在处理“有趣”问题的人,公司会变成什么样?首先,公司的规模会急剧缩小。一个只有以往十分之一规模的公司,自然就不需要那么多的支持性人员。这意味着花在面试上的时间、开会的时间、为了汇报而汇报的时间都会减少。
当公司规模变小,每个人都能更清晰地了解公司全局,因为没有那么多噪音来掩盖真正重要的事情。由于人才密度更高,团队更精简,沟通质量会得到极大的提升,产品迭代速度也随之加快,更好的想法能够更快地传播和实现。
2. 高管为晋升而非为客户工作
那么,为什么大公司会陷入这种困境?一个核心问题在于优先级的设定。在庞大的组织里,优先级对不同的人来说是模糊的,每个人都觉得自己的项目最重要。但很多时候,这些优先级的设定并不是为了最终客户或最终产品的利益。
在那些更大的公司里,很多工作的驱动力是为了给某个人留下深刻印象。比如,一个工程师需要给他的 VP、经理、总监留下好印象,从而获得晋升机会。他构建的东西,可能并非真正对最终客户有益,而是服务于内部的某种机制。
这就像一个永无止境的循环:公司为了增长而盲目扩张,导致团队成员要花 20% 的时间在开会上;为了弥补这部分时间损耗,又要去改进内部工具,试图让大家的生产力提高 5%。可到头来,许多所谓的 “优先级” 任务都与最终客户和产品脱节,它们几乎只是为了维持公司这台庞大内部机器的运转而存在。
这种机制的存在,很大程度上是因为组织内的许多人,他们的目标并非是构建伟大的产品。他们的目标,或许只是为了能告诉朋友们,自己是一个管理着上千人组织的 VP,听起来很有权势。于是,他们的工作重心就变成了思考:如何让我的组织增长得更快?如何找到更多可以雇佣的团队?如何进行这些月度绩效评估?我已经建立了这个千人组织,现在我需要向我的上级证明,我建立的这个组织是高效和有用的。
五、构建高效能团队的原则
如果说大公司的模式充满了内耗与低效,那么一个高效能的、以产品为核心的团队应该如何构建?这需要从招聘、会议文化到对人才的根本认知上,都采取一种截然不同的方法。
1. 招聘:如何识别真正的执行者?
在招聘时,如何区分那些只是喜欢头脑风暴、享受权力感的人,和那些真正能够动手完成任务的执行者?很大程度上归结于他们提出的问题类型。
面试时,有些人会问关于产品的非常有趣的问题。他们会主动思考如何让产品变得更好,比如他们会说:“我浏览了你们的网页,为什么不改进这些地方?”或者“我尝试以工作者的身份注册,流程中的这些设计是出于什么考虑?如果改成那样会怎么样?”这表明他们的思维始终围绕着产品和用户。
而另一些人则会问:“如果我加入一年后,能成为一个经理吗?”或者“我能雇佣 20 个人来支持我吗?”他们关心的是职位、团队规模和个人权力。这两种截然不同的问题,清晰地反映了候选人内心深处最关心的是什么。前者是真正的构建者,后者则可能更倾向于成为庞大官僚机器的一部分。
2. 无情地取消不必要的会议
会议是侵蚀生产力的一个巨大黑洞。Shopify 的 CEO Toby Lütke 曾提倡无会议文化,而这种理念在这里也得到了极大的认同。
Edwin 本人几乎不开一对一会议。他的日历通常是惊人地空旷,尽力避免让会议填满自己的时间。
某些新员工加入时,常常会带着大公司的习惯,提议要和所有合作的同事每周进行一次一对一会议。Edwin 总会反问他们:“为什么要开这些固定的每周一对一会议?难道不是每天都在 Slack 上和其他人交流吗?是不知道他们在做什么吗?”
事实上,如果需要通过每周一次的会议来同步信息、提出问题,这本身就是一个负面信号。它意味着日常的沟通是断裂的,你只能等到固定的会议时间才能发现和解决问题。因此,对于取消不必要的会议,Surge 内部的态度是很果断的。
3. 效率:100 倍工程师真的存在吗?
关于“10 倍工程师”的讨论由来已久,Edwin 相信“100 倍工程师”也总有一天会出现。在现实中,这种巨大的效率差异是真实存在的。Surge 的效率就比竞争对手高得多。
这种巨大的效率差异来自于多个维度的叠加。有些人编码的速度就是比别人快 2 到 3 倍;有些人的想法质量就是比别人高 2 到 3 倍;有些人工作就是比别人努力 2 到 3 倍;有些人花在开会上的时间比别人少 2 到 3 倍;还有些人能想出别人根本想不到的创新点。如果你把所有这些因素相乘,2 到 3 倍的差异实际上常常是低估了。更何况有些人的仅是编码生产力就能达到其他人的 5 倍。
而 AI 的出现,则进一步放大了这种差距。AI 究竟是把 10 倍工程师变成了 100 倍工程师,还是把普通工程师变成了 10 倍工程师?答案可能是两者都有,但在未来,前者会更加明显。
六、终极目标助力实现 AGI
当被问到 Surge 的最终目标,Edwin 直言就是为了帮助人类实现 AGI。
每个孩子可能都曾梦想过出现一种能做各种神奇事情的 AI。如今,人类也确实有机会去实现它。而 Surge 正在成为所有这些前沿公司构建 AGI 的关键部分。
当客户在发布下一个重要模型时,做的第一件事就是联系他,说一句“没有你我们无法做到这些”,这让 Edwin 感到无比快乐:
“因为这意味着我们真正在这个时代最重要技术发展中发挥了作用!”