专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
目录
相关文章推荐
电商技术每天分享  ·  淘宝最新举报技术(人工举报) ·  17 小时前  
电商技术每天分享  ·  淘宝最新举报技术(人工举报) ·  17 小时前  
电子商务研究中心  ·  网约车市场饱和困局:多地预警背后的行业阵痛与 ... ·  2 天前  
蛋先生工作室  ·  2025年6月6日:全国生猪、豆粕、玉米价格 ·  3 天前  
51好读  ›  专栏  ›  阿里研究院

司南 OpenCompass 9 月榜单揭晓!开源模型首次占据榜首!

阿里研究院  · 公众号  · 电商  · 2024-10-21 11:33

主要观点总结

本文介绍了大语言模型评测榜单的注意事项和规则,包括更新周期、参与方式、评测结果的公开性、支持的模型类型等。同时,提供了关于产业之声板块的介绍和推荐阅读的文章列表。

关键观点总结

关键观点1: 大语言模型评测榜单规则

大语言模型评测榜单每两月更新一次,发布时间为下一个双月月初。新模型厂商可在当月25日前申请加入评测。加入评测的结果默认公开,只支持开源或对外提供API服务的商业化模型参与评测。司南团队通过公开采购的方式获取商业API服务进行评测,确保公平性。

关键观点2: 产业之声板块介绍和推荐阅读

产业之声板块汇集行业领袖与企业的真实声音,提供深度洞察的产业策略建议。推荐阅读的文章涉及AI焦虑、AI在电商场景的应用和挑战、智能背后的电能保障、AI驱动的数据要素价值创造新模式等话题。


正文

请到「今天看啥」查看全文


  • DeepSeek-V2.5 (236B)、 阶跃星辰 Step-2-16 (万亿参数)等大参数模型占据着榜单的前列位置。


评测题目示例


以下提供部分测试样例的问题和模型回复

代码类

Question

用一行 Python 代码和 lambda 函数以及列表推导式来获取从 1 到 200 的质数列表


QWen2.5-72B-Instruct Response

可以使用一行 Python 代码结合 lambda 函数和列表推导式来生成从 1 到 200 的质数列表,如下所示:

```pythonprimes = [n for n in range(2, 201) if all(map(lambda x: n % x != 0, range(2, int(n**0.5) + 1)))]```

这段代码首先定义了一个范围从 2 到 200 的数字列表,然后使用列表推导式和 `all` 函数结合 `map` 和lambda函数来检查每个数字是否为质数。 `all` 函数确保了如果 `n` 不能被 2 `sqrt(n)` 之间的任何数整除,则 `n` 是质数。这里使用 `int(n**0.5) + 1` 来优化性能, 因为如果 `n` 不是质数,它必定有一个因子小于或等于其平方根。

GPT-4o-0806 Response

你可以使用以下一行 Python 代码来获取从 1 到 200 的质数列表:

```pythonprimes = list(filter(lambda x: all(x % i != 0 for i in range(2, int(x**0.5) + 1)), range(2, 201)))```

这个代码使用 `filter` 和 `lambda` 函数来筛选出质数,并使用列表推导式来检查每个数字是否为质数。

  • 本题目考察了模型的代码能力,要求模型不仅能够理解 代码需求 ,还能够按照指定 格式输出相关代码

  • 示例中提及的模型在这一任务中表现出色,不仅能准确完成代码编写,还能详细解释代码的功能和逻辑。

知识类

Question

以下是一道单项选择题,请你根据你了解的知识给出正确的答案选项。请你一步步推理并在最后用“答案选项为X”来回答,其中 X 是 ABCD 中你认为正确的选项序号

下面是你要回答的题目:

NGC 138首次被发现的时间和发现者是谁?

A. 1881年5月12日,发现者是爱德华·皮克林

B. 1873年3月20日,发现者是约翰·赫歇尔

C. 1864年8月29日,发现者是阿尔伯特·马尔夫







请到「今天看啥」查看全文