专栏名称: 阿里研究院

阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧，以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。阿里研究，洞察数据，共创新知！官方网站http://www.aliresearch.com/

司南 OpenCompass 9 月榜单揭晓！开源模型首次占据榜首！

阿里研究院 · 公众号 · 电商 · 2024-10-21 11:33

主要观点总结

本文介绍了大语言模型评测榜单的注意事项和规则，包括更新周期、参与方式、评测结果的公开性、支持的模型类型等。同时，提供了关于产业之声板块的介绍和推荐阅读的文章列表。

关键观点总结

关键观点1: 大语言模型评测榜单规则

大语言模型评测榜单每两月更新一次，发布时间为下一个双月月初。新模型厂商可在当月25日前申请加入评测。加入评测的结果默认公开，只支持开源或对外提供API服务的商业化模型参与评测。司南团队通过公开采购的方式获取商业API服务进行评测，确保公平性。

关键观点2: 产业之声板块介绍和推荐阅读

产业之声板块汇集行业领袖与企业的真实声音，提供深度洞察的产业策略建议。推荐阅读的文章涉及AI焦虑、AI在电商场景的应用和挑战、智能背后的电能保障、AI驱动的数据要素价值创造新模式等话题。

正文

请到「今天看啥」查看全文

DeepSeek-V2.5 （236B）、 阶跃星辰 Step-2-16 （万亿参数）等大参数模型占据着榜单的前列位置。

评测题目示例

以下提供部分测试样例的问题和模型回复

代码类

Question

用一行 Python 代码和 lambda 函数以及列表推导式来获取从 1 到 200 的质数列表

QWen2.5-72B-Instruct Response

可以使用一行 Python 代码结合 lambda 函数和列表推导式来生成从 1 到 200 的质数列表，如下所示：

```pythonprimes = [n for n in range(2, 201) if all(map(lambda x: n % x != 0, range(2, int(n**0.5) + 1)))]```

这段代码首先定义了一个范围从 2 到 200 的数字列表，然后使用列表推导式和 `all` 函数结合 `map` 和lambda函数来检查每个数字是否为质数。 `all` 函数确保了如果 `n` 不能被 2 到 `sqrt(n)` 之间的任何数整除，则 `n` 是质数。这里使用 `int(n**0.5) + 1` 来优化性能，因为如果 `n` 不是质数，它必定有一个因子小于或等于其平方根。

GPT-4o-0806 Response

你可以使用以下一行 Python 代码来获取从 1 到 200 的质数列表：

```pythonprimes = list(filter(lambda x: all(x % i != 0 for i in range(2, int(x**0.5) + 1)), range(2, 201)))```

这个代码使用 `filter` 和 `lambda` 函数来筛选出质数，并使用列表推导式来检查每个数字是否为质数。

本题目考察了模型的代码能力，要求模型不仅能够理解 代码需求 ，还能够按照指定 格式输出相关代码 。
示例中提及的模型在这一任务中表现出色，不仅能准确完成代码编写，还能详细解释代码的功能和逻辑。

知识类

Question

以下是一道单项选择题，请你根据你了解的知识给出正确的答案选项。请你一步步推理并在最后用“答案选项为X”来回答，其中 X 是 ABCD 中你认为正确的选项序号

下面是你要回答的题目：

NGC 138首次被发现的时间和发现者是谁？

A. 1881年5月12日，发现者是爱德华·皮克林

B. 1873年3月20日，发现者是约翰·赫歇尔

C. 1864年8月29日，发现者是阿尔伯特·马尔夫