专栏名称: 投资银行在线
投资银行在线 Investment Bank Online,一个资本与项目对接的平台,一个互联网金融的探索者和实践者。
目录
相关文章推荐
现代财经  ·  《现代财经-早读早分享》2025年6月4日周 ... ·  8 小时前  
现代财经  ·  《现代财经-早读早分享》2025年6月4日周 ... ·  8 小时前  
铅笔道  ·  年入5.89亿,湖南杀出超级隐形冠军:用AI ... ·  12 小时前  
青海市场监管  ·  规范专利行政执法 ... ·  20 小时前  
青海市场监管  ·  规范专利行政执法 ... ·  20 小时前  
DataFunTalk  ·  交易价值约2.5亿美元 6月2日,云 ... ·  23 小时前  
DataFunTalk  ·  交易价值约2.5亿美元 6月2日,云 ... ·  23 小时前  
红杉汇  ·  AI Agents:从工具到伙伴 | ... ·  昨天  
51好读  ›  专栏  ›  投资银行在线

万字对谈 Scale AI 创始人 Alex Wang:为什么数据才是大模型的最大瓶颈,而非算力?

投资银行在线  · 公众号  · 科技投资  · 2024-08-06 09:44

主要观点总结

Scale AI 是一家为 AI 模型提供数据标注服务的公司,完成了新一轮近 10 亿美元融资,估值飙升至 138 亿美元。创始人 Alex Wang 瞄准 AI 领域的空白,辍学创办 Scale AI,并在三年之内跻身独角兽。他分享了关于模型性能瓶颈、获取数据途径的看法,以及 Scale AI 的组织建设经验。他提到数据是模型性能的最大瓶颈,需要更多算法和数据的改进,但更重要的是确保有更多的数据支持这些改进。他探讨了克服数据瓶颈的方法,并讨论了前沿数据的重要性。他还讨论了企业专有数据的价值,并分享了 Scale AI 的公关与人才招募经验。在快问快答中,他分享了关于 AI 的看法,对未来数据的看法,以及关于 Scale AI 未来发展的看法。

关键观点总结

关键观点1: Scale AI 的背景与成就

Scale AI 是一家为 AI 模型提供数据标注服务的公司,完成了新一轮近 10 亿美元融资,估值飙升至 138 亿美元。创始人 Alex Wang 辍学创办 Scale AI,并在三年之内跻身独角兽。

关键观点2: 数据瓶颈与前沿数据

Alex Wang 认为数据是模型性能的最大瓶颈,需要更多算法和数据的改进,但更重要的是确保有更多的数据支持这些改进。他探讨了克服数据瓶颈的方法,并讨论了前沿数据的重要性。

关键观点3: 企业专有数据的价值

Alex Wang 强调企业专有数据的价值,并讨论了摩根大通等企业的专有内部数据集对 AI 模型的重要性。他提到这些数据量巨大,但通常不会公开,需要被利用以推动 AI 进步。

关键观点4: 公关与人才招募经验

Alex Wang 分享了 Scale AI 的公关与人才招募经验,强调直接传达信息的重要性,并讨论了顶尖人才的招聘和保持高标准的策略。

关键观点5: 对未来的看法

在快问快答中,Alex Wang 分享了对 AI 的看法,对未来数据的看法,以及关于 Scale AI 未来发展的看法。他强调了数据的重要性,并希望十年后 Scale AI 仍在推动 AI 的进步。


正文

请到「今天看啥」查看全文



因此, 一种获取途径是挖掘所有这些现有的企业数据,并发掘其中所有的优质信息。 这些数据量非常巨大,我们可以挖掘这些现有的企业数据,获取其中的价值。

其次,虽然这些数据是专有的,但我们可以将其定制交付给需要的客户。最后,我们需要通过一系列的过程来提炼和使用这些数据,以解决企业面临的实际问题。

Harry Stebbings:但他们永远不会将其开源,对吧?这些都是专有的。

Alex Wang: 没错。这只能是每个企业经历这样一个过程,比如我的企业有一系列非常重要的问题,然后我需要挖掘我所有现有的数据并提炼它们,以用于 AI 系统来解决企业自己的问题。

Harry Stebbings:一开始我们提到了收益递减的问题,前几天我和一位重要的 CTO 交谈过,他们认为真正的突破在于我们是否能真正解决「推理」这一技术问题。你怎么看待我们解决推理问题的能力,以及数据在帮助我们应对这个问题方面的影响?

Alex Wang: 我认为,这些模型在被大量数据训练的基础上非常擅长推理。然而,人类智能和机器智能存在很大的差异。人类具有非常通用的智能形式,能够适应环境、自我调整、了解周遭发生了什么,而今天没有任何 AI 系统能够做到,我们必须意识到这是一个限制。

这意味着,对于我们希望这些模型表现良好的任何情况,我们都需要有该情况或该场景的数据,我们需要为模型提供足够的数据来支持其在各种情境下的推理能力。实际上,如果模型拥有足够的数据,它们将能够在各种情境下表现出色。

所以,解决推理差距的问题可能有两种方法,一是建立某种通用的推理能力,一旦建成将会是一个巨大的突破; 二是从数据角度让每一个场景下都有足够的数据来支持模型的训练, 你只需要在所有这些场景中用数据淹没它们,就会得到推理能力很好的模型。

Harry Stebbings:当我们看到像摩根大通、高盛或任何大型企业都掌握着庞大数据时,我们怎样才能从数据稀缺的环境过渡到数据丰富的环境呢?这些数据由于其专有性质,并不会轻易流向广义的模型,而这些模型原本可以帮助世界、人类或实现任何突破性的进展。我们怎样才能实现从数据稀缺到数据富足的转变?是通过创造合成数据吗?我们该如何思考这个问题?

Alex Wang: 是的,我认为你的观点很对,我们需要产生新的数据。 为了从 GPT-4 发展到 GPT-10,我们需要找到新的前沿数据的生产方式。 以芯片为例,我们需要建造更多的晶圆厂,提高分辨率、制造出纳米级的元件。谈及计算能力的提升,我们很自然地会想到增加生产资料,但我认为在数据上我们没有想到要增加生产资料,我认为需要改变这种观念。

生产数据的过程其实是一种混合的人工合成过程。 我们需要算法来完成大部分繁重的数据合成工作,但同时也需要人类专家的输入和指导,以便在 AI 系统遇到问题或者遇到特殊情况时提供帮助。

自动驾驶的规模化就很好地说明了这一点,很多时候都是依赖安全驾驶员的。在车里配备安全驾驶员,当汽车出现问题时,安全驾驶员可以接管控制,AI 系统也需要这样的设置。我们需要 AI 模型来生成大量数据,同时也需要人类在必要时接管并调整模型,以确保数据的质量。

Harry Stebbings:这种人在当今的组织结构中会是什么样的?我们是否为这些 AI 的「拯救者」创造了新的角色?

Alex Wang: 是的,我们可以称他们为「AI 训练师」(AI trainers)或「AI 贡献者」(AI contributors)。我很想说, 向 AI 贡献数据的工作实际上是人类可以拥有的最具影响力的工作之一 比如说,我是一名数学家。我可以选择独自研究纯数学,这是我生活的一条轨迹,但我也可以选择利用我所有的技能、才能和智慧来帮助 AI 模型变得更聪明。

比如说,我可以让 GPT-4 在数学方面变得更聪明一些。如果我把这一点改进应用到 GPT-4 的每一次使用中,考虑到所有将使用 GPT-4 的数学学生、公司和开发者,那将产生巨大的影响。因此,作为人类专家,你有能力通过生产数据来帮助改进这些模型,从而对整个社会产生影响。

我们看到的是,对于科学家、数学家、医生以及世界上的所有人类专家来说,这是一个非常令人兴奋的提议,他们可以把自己的能力、智慧、训练等所有这些都传输到一个模型中,而这个模型将对整个社会产生影响。

Harry Stebbings:人们经常说,数据治理中最大的挑战实际上就是数据的结构和清晰度。那么该如何看待数据的结构?比如说,虽然我不知道具体情况,但我推测摩根大通 150PB 的数据并没有完美地结构化,并能让许多模型能够高效地摄取。我们应该如何看待这个巨大的数据集的结构化问题和挑战?

Alex Wang: 我认为这是一个需要两方面并行努力的情况。一方面是挖掘现有数据,这无论如何都会是一次性完成的工作。从挖掘所有现有数据中,你将获得一次性的收益,这可能是非常有意义的。

Harry Stebbings:你认为在五年内,每个人都会内部挖掘他们最大的数据源吗?

Alex Wang: 我不认为每个人都会,但最先进的公司肯定会。然后我们将到达一个仍然需要改进模型的地步,最终这一切都归结为数据生产。你需要什么样生产资料来服务你下一步的数据生产,就像你在芯片领域的前瞻性生产一样。

Harry Stebbings:另一种形式呢?

Alex Wang: 另一个是推动数据生产。 数据挖掘与推动数据生产是数据来源的核心方向。 从更广泛的角度来看,我认为很多 AI 进步的瓶颈在根本上更多是由于数据,随着 NVIDIA 继续制造价值数千亿美元的芯片,如果我们能够在获得越来越多芯片的同时,按比例生产相应数量的数据。如果我们能够同时生产这两者,那么我们将获得超越想象的更厉害的模型能力。

Harry Stebbings:所以当我们考虑增加数据的供应时,我们实际上可以采取什么方法呢?我想到的是 Limitless 的 Dan Siroker,他基本上通过这个新的硬件设备,可以记录你说的和做的每一件事,并且它会生成你自己的个人 AI,因为它拥有你一天中所说的所有内容。在我心中,这是一种新的数据创建形式。你如何看待增加数据的供应?

Alex Wang: 可能主要有两个方面。一方面是像 Limitless 这样的努力,这基本上是更多的纵向数据收集,收集世界上自然发生的更多事情。另一方面在工作场所,可能会有某种对类似「正在使用什么应用程序」的持续数据收集,使用应用程序的顺序是什么,把一个东西从哪里复制到另一个地方。

Harry Stebbings:你有很多这样的 RPA 和许多 UiPath 流程来完成这种任务,我很习惯于这种方式。

Alex Wang: 是的。这是流程挖掘,SaaS 中的一个术语,基本上就像是对现有企业流程的持续收集。然后是消费者的角度,有点像你所提到的,对你自己生活的纵向视角的收集,比如戴一个 Meta Ray-Ban。然后就是必须致力于让人类专家与模型合作来产生前沿数据。

我所提到的两种途径,无论是企业流程挖掘,还是消费者数据收集,这些都将产生有价值的数据集,但它们不会产生实际推动模型前进的数据。

因为 要推动模型提升,你需要非常复杂的数据,这就是你需要代理行为、复杂推理链的地方, 这就是你需要高级代码数据或可能的高级物理、生物或化学数据的地方,这些才是真正需要推动模型边界的东西。

我认为 这是一个需要全球基础设施级别的努力, 我们需要使之发生。就像我认为我们需要考虑如何让世界上的专家与模型合作,帮助产生将成为世界上最好的科学家的 AI 系统,或者成为世界上最好的代码员或数学家。
03
专有的、差异化的数据
将会 成为企业的「护城河」

Harry Stebbings:当我们考虑到模型的商品化,我们该如何思考对这些数据源的专有访问权呢?以前有人对我说过 OpenAI 的模型并不一定更好,他们只是能更好地访问数据,他们购买了更多的数据等等,数据是他们过去表现更好的主要原因。但我们会看到一个模型获得其他模型没有的数据访问权吗?我们该如何从模型的角度思考对数据的公平公正的访问?

Alex Wang: 我认为你的观点很对,如果你考虑一下这些不同的模型提供商之间的竞争领域,我认为数据实际上是出现真正持久竞争优势的主要支柱。

因此, 如果考虑他们在大型语言模型(LLM)竞争中的护城河在哪里,我认为数据是少数几个可以产生可持续壁垒的领域之一。 因为算法是 IP,但总会在某个时候被整个行业了解;你可以拥有比别人更多的计算资源,但别人只需花更多的钱就可以购买同样的计算资源。而数据是仅有的可以真正产生长期可持续竞争优势的领域。

Harry Stebbings:我同意,当你查看 OpenAI 的一些协议时,他们显然与《金融时报》合作并获得了《金融时报》历史资料库的访问权,我认为他们实际上与 Axel Springer 也进行了不少合作。这是许多其他模型无法获得的访问权,这让他们在任何相关查询中都能获得更优质的内容。

Alex Wang: 没错。我认为这是开始将数据视为护城河的一种思维方式。《金融时报》、Axel Springer 是第一个迹象,但在未来,这些实验室会考虑很多问题,比如,我要用什么数据来与竞争对手区分开来?我将如何生产这些数据?以及这会创造什么长期持久的优势?






请到「今天看啥」查看全文


推荐文章
美味书单  ·  截个屏看看哪个是你男朋友?!
8 年前