专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
目录
相关文章推荐
51CTO技术栈  ·  突发!刚被OpenAI收购就惨遭Claude ... ·  7 小时前  
极客之家  ·  22k star,微软硬核开源,让 ... ·  昨天  
程序员的那些事  ·  余承东暗讽某大厂,雷军疑似回应“诋毁是仰望” ... ·  3 天前  
码农翻身  ·  投诉领导被光速开除,和烂人说再见啦~ ·  昨天  
51好读  ›  专栏  ›  老刘说NLP

两个有趣的工作:Huggingface知识图谱及大模型高频用词相似性分析工具

老刘说NLP  · 公众号  · 程序员  · 2025-06-02 19:49

正文

请到「今天看啥」查看全文


从数据来源上整合了来自Hugging Face社区的260万节点和620万条边,涵盖了模型、数据集、用户、任务等多种实体类型,以及它们之间的复杂关系,主要手段是 爬虫(使用huggingface_hub,并向相关API发出请求)跟清清洗 ,对所有结点和边进行验证和清洗(扫描所有收集到的边,并检查每条边所涉及的结点是否存在于收集到的结点集合中。)

具体的关系包括模型演化(如adapter、finetune)和用户互动(如like、follow),还包含了丰富的文本属性(如model card、dataset card)。

有趣的,还对这个数据做了一些统计分析,例如,用户共同喜好的条件概率𝑃(𝐴|𝐵),包括𝑃(𝐴|𝐵)用于同类型结点之间、) 𝑃 (𝐴|𝐵) 用于交叉类型的结点,有趣的是,对 NLP 模型的强烈兴趣来自于喜欢机器人数据集的用户,而非NLP或RL。

又如,Model和Dataset的描述长度,在 HuggingKG 中,Model的描述平均长度为270.2个词,而Dataset的描述平均长度为134.1个词。

相关的项目代码在:https://github.com/nju-websoft/HuggingBench,数据页开源了,放在https://huggingface.co/collections/cqsss/huggingbench-67b2ee02ca45b15e351009a2







请到「今天看啥」查看全文