专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

目录

相关文章推荐

51CTO技术栈 · 突发！刚被OpenAI收购就惨遭Claude ... · 7 小时前

极客之家 · 一键生成深度公司报告，这款开源神器太实用了！ · 3 天前

极客之家 · 22k star，微软硬核开源，让 ... · 昨天

程序员的那些事 · 余承东暗讽某大厂，雷军疑似回应“诋毁是仰望” ... · 3 天前

码农翻身 · 投诉领导被光速开除，和烂人说再见啦~ · 昨天

51好读 › 专栏 › 老刘说NLP

两个有趣的工作：Huggingface知识图谱及大模型高频用词相似性分析工具

老刘说NLP · 公众号 · 程序员 · 2025-06-02 19:49

正文

请到「今天看啥」查看全文

从数据来源上整合了来自Hugging Face社区的260万节点和620万条边，涵盖了模型、数据集、用户、任务等多种实体类型，以及它们之间的复杂关系，主要手段是 爬虫（使用huggingface_hub，并向相关API发出请求）跟清清洗 ，对所有结点和边进行验证和清洗（扫描所有收集到的边，并检查每条边所涉及的结点是否存在于收集到的结点集合中。）

具体的关系包括模型演化（如adapter、finetune）和用户互动（如like、follow），还包含了丰富的文本属性（如model card、dataset card）。

有趣的，还对这个数据做了一些统计分析，例如，用户共同喜好的条件概率𝑃(𝐴|𝐵)，包括𝑃(𝐴|𝐵)用于同类型结点之间、) 𝑃 (𝐴|𝐵) 用于交叉类型的结点，有趣的是，对 NLP 模型的强烈兴趣来自于喜欢机器人数据集的用户，而非NLP或RL。

又如，Model和Dataset的描述长度，在 HuggingKG 中，Model的描述平均长度为270.2个词，而Dataset的描述平均长度为134.1个词。

相关的项目代码在：https://github.com/nju-websoft/HuggingBench，数据页开源了，放在https://huggingface.co/collections/cqsss/huggingbench-67b2ee02ca45b15e351009a2

请到「今天看啥」查看全文

推荐文章

51CTO技术栈 · 突发！刚被OpenAI收购就惨遭Claude“卡脖子”！Windsurf CEO怒了：想花钱都买不到！网友：直接上GPT-5吧！

7 小时前

极客之家 · 一键生成深度公司报告，这款开源神器太实用了！

3 天前

极客之家 · 22k star，微软硬核开源，让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑！

昨天

程序员的那些事 · 余承东暗讽某大厂，雷军疑似回应“诋毁是仰望”。网友炸锅：格局能不能打开点？

3 天前

码农翻身 · 投诉领导被光速开除，和烂人说再见啦~

昨天

骑行西藏 · 天下无不散宴席，骑行必有始有终

8 年前

书法在线 · 佛说：人是未醒佛，佛是已醒人

8 年前

马桶历史 · 辽宁号航母的百公里油耗是多少？加满油需要1300万元！

8 年前

化工707 · 从事环保产业的上千家企业，这回可都放大招了，你还在等什么？

8 年前

互联网er的早读课 · 我是文科生，为什么还学编程?

8 年前

移动版

51好读 - 微信公众号文章