专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
目录
相关文章推荐
OSC开源社区  ·  苹果开源编程语言Swift官网全新改版 ·  2 天前  
OSC开源社区  ·  苹果用Swift重写每天数十亿次请求的Jav ... ·  昨天  
阿里技术  ·  Cursor入门:MCP开发调用和项目实战 ·  2 天前  
51好读  ›  专栏  ›  老刘说NLP

48个流行开源ML数据集及KG三元组抽取工具AI Knowledge Graph

老刘说NLP  · 公众号  · 程序员  · 2025-06-03 20:55

正文

请到「今天看啥」查看全文


:引发了视觉领域深度学习热潮的数据集。
  • PASCAL VOC :包含检测、分割和分类任务。
  • Open Images :900万张带有边界框和标签的图像。
  • KITTI :包含立体视觉、激光雷达和检测任务的自动驾驶汽车数据集。
  • COCO :丰富的物体分割和描述数据集。
  • Cityscapes :城市场景的像素级分割。
  • MNIST :经典的 handwritten digits 数据集。
  • CIFAR-10和CIFAR-100 :小型图像分类数据集。
  • 3、推荐系统数据集

    • Yambda-5B(Yandex) :包含47.9亿多模态交互,具有音频嵌入和自然与推荐标志。该数据集使用全局时间分割进行评估,与留一法不同,不会破坏时间依赖性。这模拟了现实的模型测试。
    • MovieLens :不同规模(10万至2500万)的评分和标签。
    • Netflix Prize :来自Netflix公开竞赛的标志性1亿评分数据集。
    • Yelp数据集 :包含元数据和社交网络特征的本地企业评论。
    • Last.fm(LFM-1B) :10亿次音乐收听事件,带有时间戳和曲目元数据。
    • Criteo 1TB :用于广告的大量点击数据集。
    • Spotify百万播放列表 :用户生成的音乐播放列表,用于序列化推荐。
    • Amazon Reviews :2亿多条跨多年和多个领域的商品评论。

    4、表格类数据集

    • UCI Adult






    请到「今天看啥」查看全文