正文
如何使用这些数据源是没有限制的。唯一限制你的是创造力和实际应用。
使用它们的最简单方法是进行数据项目并发布到网上。这不仅可以提高数据和可视化技能,还可以改善你的结构化思维。
另一方面,如果你打算或正在处理基于数据的产品,这些数据集可以通过提供新的输入数据来增加产品的活力。
我已经将这些资源分类,从简单,通用和易于处理的数据集,到大型、行业相关的数据集。接着,介绍用于特定目的的数据集:文本挖掘,图像分类,推荐引擎等。
(友情提示:以下网站均需翻墙)
• data.gov
( https://www.data.gov/ )
美国政府公开数据。该网站在发布时包含超过 19 万个数据点。这些数据包括气候,教育,能源,金融等领域的数据。
•
data.gov.in
( https://data.gov.in/ )
印度政府公开数据。可以查找各行业,气候,医疗保健等数据。还可以在这里得到一些可视化的灵感。根据所在国家,你也可以从其他几个网站上查看类似的网站。
•
World Bank
( http://data.worldbank.org/ )
世界银行的开放数据。该平台提供 Open Data Catalog,世界发展指数,教育指数等几个工具。
•
RBI
( https://rbi.org.in/Scripts/Statistics.aspx )
印度储备银行提供的数据。包括国际收支,银行业务和一些产品使用的货币市场运作指标。
•
Five Thirty Eight Datasets
( https://github.com/fivethirtyeight/data )
Five Thirty Eight,亦称作 538,专注与民意调查分析,政治,经济与体育的博客。该数据集为 Five Thirty Eight Datasets 使用的数据集。每个数据集包括数据,解释数据的字典和Five Thirty Eight 文章的链接。如果你想学习如何创建数据故事,不能错过。
•
Amazon Web Services(AWS)datasets
( https://aws.amazon.com/cn/datasets/ )
亚马逊提供了一些大数据集,可以在他们的平台或本地计算机上使用。还可以通过 EMR,使用 EC2 和 Hadoop 在云端分析数据。亚马逊的热门数据集包括完整的 Enron 电子邮件数据集,Google Books n-gram,NASA NEX 数据集,百万歌曲数据集等。