AG尊龙凯时- 尊龙凯时官方网站- APP下载实时十博BET官网_社会新闻_大众网

尊龙凯时 zunlongkaishi 分类>>

尊龙官网 zunlongguanwang

24小时服务热线：0898-08980898

公司地址：江西省南昌市
客服QQ：123456789
传真：400-123-4567

您所在的位置是：首页 > 尊龙凯时 > 尊龙凯时官网

AG尊龙凯时- 尊龙凯时官方网站- APP下载实时十博BET官网_社会新闻_大众网

2025-06-14 00:57:48

浏览次数：次

返回列表

　　尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载

AG尊龙凯时- 尊龙凯时官方网站- 尊龙凯时APP下载实时十博BET官网_社会新闻_大众网

　　回归到Cursor本身，这两天发布了正式版1.0。显然这是一个重大的里程碑，本次访谈是Cursor官方团队深入探讨了将强化学习（RL）应用于代码生成的复杂性与前沿进展。对话涵盖了编码领域强化学习的独特性、奖励机制设计的挑战、高级工具与长上下文窗口的作用、新型注意力架构与智能体记忆的实现，以及构建高效RL基础设施和未来发展方向等核心议题。团队一致认为，成功的关键在于结合高质量的真实世界反馈信号、高效的工具利用、更长的上下文理解能力以及能够摊销计算成本的智能体设计。（原文未见成员名字，且用ABCD指代）

　　主持人: 最有趣的工具是什么？所以一般来说，你知道，我们已经看到了这种趋势，即不同的实验室选择不同的工具集来评估模型的性能。那么O3，可以说针对终端进行了非常、非常优化的设计。而且，你知道，它倾向于喜欢这种非常奇怪的模型，它只倾向于抓取和设置，不使用，你知道，它不想使用终端之外的任何工具。然后，云模型在那里倾向于可能设计你自己的搜索和编辑方式。是否有一些围绕工具的有趣想法，你知道，人们会使用那些不仅仅是传统工具的东西？

　　成员D: 我的意思是，我认为你可以做得比核心工具集好得多。我认为终端有意义的原因是它非常容易，对吧？就像你不需要构建一些超级花哨的工具。为了运行你的代理，你实际上只是给它一个shell的访问权限。我就可以在那里做所有的事情。简单性可能是最大的原因，对吧？所以一个例子就像是代码检查工具的错误。代码检查工具的错误会给你大量的信号，但很难获得这些信号，因为你需要运行一个语言服务器才能得到它。然后，实际上为任意代码运行一个语言服务器是相当困难的。

　　成员D: 不是在使用每个工具之后。我的意思是，我认为，人们训练这些推理模型的理由是什么，以及他们通常是如何训练的？我觉得，O1的第一个版本可能只是在比赛，比如竞争性编程，以及数学问题上进行训练。而且，那里的想法是，你希望最终能得出一个好的答案。要么你可以向用户展示这个答案，要么你可以把它展示给负责绘制图形和验证答案的东西。在此之前，你想要花费大量的tokens进行思考。我想知道对于智能体轨迹，你实际上最终要向用户展示或验证的是什么？要么是一些文字，可能是用户可以看到的。但很多时候，如果你没有问它一个问题，你只是要求它做出改变。这就像，实际上就是编辑工具，对吧，当它，像，编辑一个文件时。所以我想知道当你只是要求模型，像，编辑代码时，你是否真的需要存在单独推理的这个概念。并且，就像，在训练时，它在那些工具调用中随便做什么。你让它随便做什么，而不是限制，像，某些，像，好的推理部分。

　　成员C: 另一个，像，非常有趣的工具，我们正在考虑的是查看PR（Pull Request）以及代码库中的人们一直在做什么。我的意思是，像，你可以对这些模型抱有的一个，像，心理模型是，它们是有能力的工程师，他们就像，总是处于，像，他们入职的第三天，对吧？并且他们获得，像，两天的，像，背景信息来，像，尝试并且，像，尽快地在代码库中进入状态。然后，你知道，第三天，他们被要求做一些事情。并且，你知道，如果你处于那种情况，我认为，你知道，一个合理的做法将是，你花那两天时间试图理解你的同事一直在做什么，以及，像，为什么他们做出他们正在做出的改变，以及他们在接触什么代码。并且目前，你知道，这些模型并没有真正围绕着查看PR和查看人们一直在做什么而构建。它们更倾向于以大块的方式消费代码并搜索相关的代码，这与这些模型的预训练方式非常匹配。并且很明显，这仍然是解决方案的重要组成部分。但是，能够查看PR（Pull Request，拉取请求）的内容对我们来说也很有意思。

　　主持人: 你认为代码和长上下文之间是如何相互作用的？所以至少在某种奇怪的程度上，你可以说长上下文非常重要，因为如果你只考虑将所有内容限制在8k（8192）个token（令牌）以内，比如SONET和401以及GPT-4，它们最初的东西在某种程度上是等价的。所以你需要比关键上下文长度更大的东西，比如你至少需要5万到6万个token。你认为只要不断增加上下文长度，就可以改善强化学习（RL）的效果吗？你认为这两者之间是如何相互作用的？

　　成员C: 我的意思是，趋势一直是上下文变得越来越长。注意力机制非常擅长利用长上下文，但是，你也知道，代价也越来越高。在技术层面，我认为长上下文一个非常有趣的方向是，如何保持成本的降低？如何在多个提示词中复用缓存的上下文？这与最新的、能力比以往更强的模型尤其相关。但是，如果你没有巧妙地缓存和使用上下文，总成本可能会非常高。而且，当你开始研究专业的代码库时，对于你想要做的事情来说，存在着大量的相关上下文。我认为这在某种程度上对代码来说可能是特殊的，因为，如果你是ChatGPT，或者你是Plot应用，在大多数情况下，用户带来的上下文并不多。他们有一个问题，通常是100个token。因此，你主要关心的是如何将人类知识的总和压缩成权重，然后用它来为问题提供一个好的答案。你不太关心如何获取一百万个token，并从中获得可以有效利用的有用信息。因为这并非你的大多数用户所关心的事情。

　　成员D: 希望他们能在下一个模型中发布它。但这是他们的注意力机制，扩展性非常好。他们发现它的表现优于注意力机制。其核心工作方式是将注意力分解成三个部分。其中一部分执行滑动窗口注意力，因此会关注短期内发生的事情，比如最近的4000个token。另外两个部分有点意思，因为它基本上执行分块注意力，每隔一定数量的token，将其存储为键和值。然后查询将关注这些。然后从那之中，你得到你想完全关注的前K个区块。然后你获取这些区块，然后你实际对它们进行完全注意力计算。我认为这非常酷，因为，是的，它应该能很好地完成跨越这个长上下文窗口的检索。

　　成员C: 我认为它采用了使MOE（混合专家模型）工作的思想，并将其应用于注意力机制，你知道，我们有这个剧本，用于将稀疏性引入通过梯度下降训练的模型中，也就是你得到一些值，对它们进行Top K操作，然后对结果值进行softmax运算。这就是MOE的训练方式。其理念是，即使你没有获得所有事物的梯度，但事实上，它鼓励门控权重对于更相关的部分（在MOE专家模型的情况下）相对于特定示例而言更大，这意味着稀疏机制仍然可以学习将其路由到最合适的专家。就像国家安全局的案例一样，要针对更合适的情境部分。我认为，这实际上就像是开发它并将其应用到不同的领域。

　　成员A: 像是，记忆工具非常有趣，因为实际上有两个工具。像是，第一个工具是我想要存储，像是，这次特定交互的记忆。另一个是检索它。某种程度上，像是，教导模型检索记忆是相当直接的。你可以简单地在检索到那段记忆，并且确实对对话有所帮助时，给予奖励。但是储存这段记忆要复杂得多，因为奖励并不取决于当前的轨迹，而是取决于不同的轨迹。这也会增加训练期间的计算量，因为它意味着，基本上，为了从储存这段记忆中获得好的信号，我必须在一堆完全不相关的随机轨迹中进行多次展开。

　　成员C: 我觉得实际上是卢克的。因为费德里科提到的信用分配问题，实际上很难反向传播到记忆存储机制中。所以，取而代之的是，你得到一个基准，比如说，500个例子，关于智能体应该做的事情，以及一种检查它是否做到的方法。然后，你只需尝试不同的规则、启发式方法和提示，关于何时存储记忆以及何时忘记它。你只需衡量每一种方法的表现。而这不足以反向传播到某个东西中，因为它会很快学会对它们进行奖励破解。但是，如果你有一个启发式系统，它或许可以帮助你找到最佳的那个。

　　成员D: 比如，你从之前的聊天记录中获得的一件事是你在之前的PR中无法获得的，比如，实际操作，以及看到你的环境如何反应，对吧？然后你就可以从中进行更新，而PR则无法做到这一点。PR只是一种演示。是的，我认为它们对不同的事情都有用。就像，我的意思是，你也在使用你在PR中永远不会真正看到的东西。就像，你在看，比如，终端。你在看，比如，代码检查器如何响应，以及，比如，你的自动格式化工具可能如何响应，诸如此类。

　　成员A: 是的，我对整个长上下文的故事非常乐观，因为，我的意思是，我有点不想当计算机专家，但新一代GPU确实让长上下文变得非常容易。比如，GB200和L72架构允许以两种方式非常轻松地进行超长上下文处理。一方面，你知道，因为你有这些通过NVLink网格互连的72个GPU，你可以进行超过8GPU网格的张量并行。这让你能够减少每个设备上存储KV的注意力头数量。除此之外，这种灰色的CPU允许你在统一内存上存储KV，因此允许你每个设备存储更多数量的KV。

　　成员D: 我们喜欢它。是的，我们称之为鱿鱼注意力机制，因为我们把它想象成一只鱿鱼，其中每个文档都像一根不同的触手。是因为这个原因吗？你觉得呢，你为什么这么想？我不知道。我完全不知道。谁想出了“鱿鱼注意力”这个名字？卢卡斯。这不太像卢卡斯会起的名字。“鱿鱼注意力”的想法是，你基本上想要独立地关注每个文档。比如，每个文档都会独立地关注自身。然后在最后，你再关注所有内容。这样做的优点是，你现在可以随意替换文档。如果你关心大约10、20、30个文档，我就可以缓存每个文档的键和值，而无需重新支付预填充的成本。而且我可以仅仅在推理时替换它们。这对于产品中的各种功能来说，都非常有用，对吧？比如，对于标签页，当你检索信息并希望快速完成时，它就非常有用。对于代理，同样，当您使用语义搜索并阅读文件时，这将非常、非常有用。

　　主持人: 我想我们在开始时就提到了这一点，但对某种测试使用进行大量优化是强化学习最初所采用的一种方式。但是，你们是否有更好的想法，关于如何更多地针对真实世界的使用进行优化，在这种情况下，人类正在使用它，而不仅仅是为了优化测试覆盖率？比如，你这话是什么意思？大部分情况下，强化学习都在用来完成大量的测试用例。而且，你知道，大部分情况下，我们关心的不是模型完成测试用例。我们希望它非常擅长，比如，我不知道，在整个文件中添加控制台日志。我们希望它擅长各种更以人为中心的事情，而不是仅仅为了完成一项特定的微小任务并通过一堆测试。这也许是对SweetBench的一种控诉，我知道Federico并不喜欢它。

　　成员D: 是的，我的意思是，我认为有很多事情要做，比如，仅仅是看看用户所做的真实改变是什么。然后由此，很好地了解，比如，当你重新推出智能体时，它是否做了类似的事情。因为，比如，用户会进去，而且，如果它是错误的，他们就会做一些不同的事情。而且还有很多很酷的事情，当你有一个在后台运行的东西时，你可以做，对吧？而且你可以，例如，让它尝试三、四次解决这个问题。尝试一堆不同的模型。尝试一堆不同的方法，比如，把温度调高。然后选择，就像，我会浏览Cursor提供的所有选项。然后我会选择那个有效的，对吧？这对于训练奖励模型来说是一个非常好的信号。

　　成员B: 所以过程-奖励模型的问题在于，就像它们被实践的那样，你只是将轨迹传递给一个模型，然后在每个步骤得到一个分数，问题是，模型在仅仅提供分数方面并不那么准确，尤其是在中间步骤。它必须做出预测，比如，对于某些任务，这是否会导致正确的答案？所以发生的情况是，一旦你对这个奖励模型，这个验证器模型施加优化压力，你只能优化一小部分。这和我们正在讨论的问题类似。但是如果你有这些真实信号，你可以像求解数学题一样，持续不断地进行优化。因此，你可以执行，比如，10...我认为DeepSeek R1执行了10000个强化学习步骤。大多数基于人类反馈的强化学习（RLHF）流程只执行，比如，100个。一旦你能执行10000个强化学习步骤，模型就能开始学习真正有趣的、与起点截然不同的行为。所以，是的，关键真的在于你能对它施加多少优化。而使用PRM，你可以施加一些，但它受到限制。它远不如使用这些真实结果奖励来得多。

　　成员A: 强化学习基础设施有趣的一点是，它自然比训练基础设施更复杂，因为它建立在训练基础设施之上。就像，你用来为 SFT 或预训练执行前向和反向传播的所有工具，你需要它们在强化学习中也能高效运行。另一个有趣的事情是，现在你还需要推理组件。而且，在这个你不像关注用户那样关注延迟的机制中，推理组件也必须进行优化。你关注的是吞吐量。你关注的是尽可能大规模地获得尽可能多的 rollout（轨迹）。对于像 GRPO 这样的算法，情况甚至更有趣，因为你有一个提示，并且你正在为此提示生成许多、许多、许多补全。然后，最终你将针对该提示的所有这些补全进行反向传播。对于数学，开源社区的人们并不真正关心这个事实，因为在数学领域，大多数开源社区的人都在为解决这个数学任务而优化。极其微小的提示。因此，您可以简单地前后浏览所有序列，而无需担心您一直在重新计算提示。但是对于我们的情况，当您拥有代理时，我们有这些巨大的提示。因此，我们不能承受向后遍历所有共享相同提示的这些回滚。因此，您开始进行优化，即与推理服务器更多地重叠，例如，您可能已经从数据加载器中获得了提示，并且在推理服务器已经在处理回滚时，您开始从该提示中获取 KVs。回滚返回后，您已经拥有 KVs，因此您只需转发已返回的回滚即可。然后，当您进行反向传播时，您已经为您的提示准备好了 KVs，因此您可以重用这些 KVs，并且只对这些 KVs 进行一次反向传播。因此，您可以进行许多以前从未真正完成过的有趣的优化。

　　成员A: 这也超级有趣，因为人们会针对不同的情况来生成这些展开序列。很多人采用异步方式，即当你回溯当前展开序列时，模型已经在用旧权重生成下一批次的展开序列。因此，生成展开序列的模型实际上是落后一步的。但这样可以大大加快训练速度，因为在下一次迭代时，你无需等待展开序列完成就可以开始进行前向和反向传播。当你需要同步权重时，你必须停止所有进程并执行同步，这通常通过RDMA实现，或者你可以直接通过InfiniBand或Rocky等方式从内存中读取。

　　成员C: 是的。只要你不需要提示词的多个补全，如果你只关心你实际做了什么，然后你只想加强或不加强你所做的，你实际上不需要一个单独的推理组件用于强化学习训练过程。你只需看看真实用户实际发生了什么。这与重新采样，然后使用奖励模型进行比较的情况相比，是一组不同的权衡，因为它更多地依赖于能够非常快速地推出新的策略。但它可以确保您正在优化的策略与实际生成轨迹的策略之间的高度匹配。我们正在为Tad考虑这一点，因为我们单位时间内可以获得大量数据，因为每当有人使用Cursor展示Tad建议时，我们都会获得反馈。所以这只是一个非常大的反馈量。所以我们有很多数据。因此，我们认为在这种情况下，这可能是有意义的。

　　成员B: 是的，所以我想gRPO和PPO之间的高层次区别在于，PPO有一个价值函数。所以这对于那些没有大量GPU内存的人来说有一些优势，因为现在你不需要存储额外的价值函数权重。但与此同时，你正在进行更多的浮点运算，因为你必须为gRPO进行多次展开。所以存在一种浮点运算和内存之间的权衡。是的，是的。所以就像你可以训练模型，它不会内存溢出（oom），但训练会花费很长时间。而且，是的，最终，我觉得尤其是在这种数学代码的设置中，价值函数无论如何都不是非常准确的。就像你在做的，这又回到了PRM（概率路线图）的事情，你在模型中进行前向传递，它提供了一些价值。它并不是真的那么准确。所以它对你没有太大的帮助。相反，如果你只是进行多次展开，并取平均值并将其用作问题的价值，那么这比你将获得的价值更好。它更稀疏，但它确实有帮助。

　　成员B: 或者他们正在基于真实数据进行强化学习。我认为在那篇论文中，他们也尝试了针对概率路线图（PRM）进行强化学习。是的，有趣的是，为什么这没有产生我们在R1中所看到的相同结果，当他们在DeepSeek数学时代进行这项研究时。你认为是什么原因？所以，有一些关于此的有趣工作，比如尝试理解这一点。看起来似乎与基础模型的能力有关，比如预训练数据中的某些东西，或者模型本身已经足够好，基础模型会进行一定程度的回溯。也许不是很频繁，百分之一的样本或者类似的情况。但这已经足够了，一旦你进行大量的强化学习，它就会捕捉到这些行为并放大它们。所以可能仅仅是因为基础模型已经足够好，以至于它们可以学习这些有趣的行为。

　　今天，我们在这里召开全室大会，对室机关党委进行换届选举，这是我们政治生活中的一件大事，也是我们政研室今年的一项重要工作。刚才，志宏代表室机关党委作了重要，回顾总结了第二届本室机关党委工作，部署了新一届机关党委的工作任务。大会还通过选举产生了新一届的机关党委。在此，我代表室领导班子向大会圆满召开和新当选的机关党委委员表示热烈的祝贺!对上一届机关党委委员所付出的辛勤劳动表示衷心的感谢!借此机会，我想对全室特别是新一届机关党委成员提几点希望和要求，与大家共勉。

　　大家下午好!今天，我们在这里隆重集会，纪念五四运动94周年，表彰20xx年度共青团工作先进集体和个人。借此机会，我谨代表学院党委向在座的青年朋友，并通过你们向全院的广大共青团干部和青年朋友们致以节日的问候和诚挚的祝愿!向将受到表彰的共青团工作先进集体和先进个人表示热烈祝贺! 同学们，青年朋友们!一年来，我院广大团员青年在学院党委及上级团组织的领导下，在院团委的指导下坚持学习实践科学发展观，紧紧围绕党政中心工作，以“育人为本，服务为上”为工作理念，以“素质教育学分化，过程服务个性化”为工作思路，开拓创新、锐意进取，在学生思想政治教育、校园文化建设、科技创新、社会实践活动、校运会服务等方面取得了可喜的成绩。院团委荣获陕西大中专学生志愿者暑期“三下乡”社会实践活动“先进单位”、“20xx年度陕西省高校共青团工作优秀单位”称号、20xx年度咸阳市共青团工作优秀奖，数控工程学院团总支获陕西省五四红旗团总支，材料工程学院团总支获咸阳市五四红旗团总支，“一加”春雨爱心社荣获“咸阳市优秀青年志愿者服务队”称号，侯涛荣获“咸阳市优秀青年志愿者”称号，等等。这些成绩的取得是全院各级团学组织、各级团学干部带领广大团员青年努力奋斗的结果。在此，我谨代表学院党委向战斗在一线的全院各级团学组织、全体团学干部、全体团员青年表示衷心的感谢!大家辛苦了!

上一篇：尊龙国际英超足球竞彩曼城荣登榜首AG尊龙凯时- 凯时官方网站- APP下载

下一篇：AG尊龙凯时- 尊龙凯时官方网站- APP下载权威报道万事博娱乐城_社会新闻_大众网

网站首页

AG游戏

尊龙凯时

产品模型

留言板

AG尊龙

尊龙官网

尊龙凯时 zunlongkaishi 分类>>

AG尊龙凯时- 尊龙凯时官方网站- APP下载实时十博BET官网_社会新闻_大众网

友情链接：