正文
:也称为源代码公开,指的是一种软件发布模式。一般的软件仅可取得已经过编译的二进制可执行档,通常只有软件的作者或著作权所有者等拥有程序的原始码。有些软件的作者会将原始码公开,此称之为“源代码公开”,但这并不一定符合“开放原代码”的定义及条件,因为作者可能会设定公开原始码的条件限制,例如限制可阅读原始码的对象、限制衍生品等。
办公自动化(Office Automation,简称OA)
:是将现代化办公和计算机技术结合起来的一种新型的办公方式。办公自动化没有统一的定义,凡是在传统的办公室中采用各种新技术、新机器、新设备从事办公业务,都属于办公自动化的领域。通过实现办公自动化,或者说实现数字化办公,可以优化现有的管理组织结构,调整管理体制,在提高效率的基础上,增加协同办公能力,强化决策的一致性 。
基于对象图像分析(Object-based Image Analysis)
:数字图像分析方法是对每一个像素的数据进行分析,而基于对象的图像分析方法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。
操作型数据库(Operational Databases)
:这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问 、收集、检索公司内部的具体信息。
优化分析(Optimization analysis)
:在产品设计周期依靠算法来实现的优化过程,在这一过程中,公司可以设计各种各样的产品并测试这些产品是否满足预设值。
本体论(Ontology)
:表示知识本体,用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注: 数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界)
异常值检测(Outlier detection)
:异常值是指严重偏离一个数据集或一个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发生问题,需要对此另加分析。
P
模式识别(Pattern Recognition)
:当算法需要在大规模数据集或者在不同的数据集上确定回归或者规律的时候,就出现了模式识别。它与机器学习和数据挖掘紧密相连,甚至被认为是后两者的代名词。这种可见性可以帮助研究者发现一些深刻的规律或者得到一些可能被认为很荒谬的结论。
规范性分析(Prescriptive Analytics)
:这里我们还是用信用卡转账的例子来理解。假如你想找出自己的哪类消费(如食品、娱乐、衣物等等)可以对整体消费产生巨大影响,那么基于预测性分析(Predictive Analytics)的规范性分析法通过引入「动态指标(action)」(如减少食品或衣物或娱乐)以及对由此产生的结果进行分析来规定一个可以降低你整体开销的最佳消费项。你可以将它延伸到大数据领域,并想象一个负责人是如何通过观察他面前多种动态指标的影响,进而作出所谓由「数据驱动」的决策的。
P字节(PB: Petabytes)
:约等于1000 TB(terabytes), 约等于1百万 GB (gigabytes)。欧洲核子研究中心(CERN)大型强子对撞机每秒产生的粒子个数就约为1 PB
平台即服务(PaaS: Platform-as-a-Service)
:为云计算解决方案提供所有必需的基础平台的一种服务
预测性分析法(Predictive Analytics)
:如果你对过去 5 年信用卡消费的历史进行了分析,发现每年的消费情况基本上呈现一个连续变化的趋势,那么在这种情况下你就可以高概率预测出:来年的消费状态应该和以往是类似的。这不是说我们在预测未来,而是应该理解为,我们在「用概率预测」可能发生什么事情。在大数据的预测分析中,数据科学家可能会使用先进的技术,如机器学习,和先进的统计学处理方法(这部分后面我们会谈到)来预测天气情况、经济变化等等。
隐私(Privacy)
:把具有可识别出个人信息的数据与其他数据分离开,以确保用户隐私。
公共数据(Public data)
:由公共基金创建的公共信息或公共数据集。
Q
数字化自我(Quantified Self)
:使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为
查询(Query)
:查找某个问题答案的相关信息
R
R 语言
:这还有人能给一个编程语言起一个更加糟糕的名字吗?R 语言就是这样的语言。不过,R 语言是一个在统计工作中工作得很好的语言。如果你不知道 R 语言,别说你是数据科学家。因为 R 语言是数据科学中最流行的编程语言之一。
射频识别(Radio Frequency Identification/RFID)
:射频识别是一类使用非接触性无线射频电磁场来传输数据的传感器。随着物联网的发展,RFID 标签能够被嵌入到任何可能的「东西里面」,这能够生成很多需要被分析的数据。欢迎来到数据世界。
再识别(Re-identification)
:将多个数据集合并在一起,从匿名化的数据中识别出个人信息
回归分析(Regression analysis)
:确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)
射频识别(RFID)
:这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据
实时数据(Real-time data)
:指在几毫秒内被创建、处理、存储、分析并显示的数据
推荐引擎(Recommendation engine)
:推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品
路径分析(Routing analysis)
:针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的
S
流处理(Stream processing)
:流处理被设计来用于持续地进行流数据的处理。与流分析技术(指的是能够持续地计算数值和统计分析的能力)结合起来,流处理方法特别能够针对大规模数据的实时处理。
社交分析(Social analytics)
:指基于信息学、数学、社会学、管理学、心理学等多学科的融合理论和方法,为理解人类各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法。
结构化 vs 非结构化数据(Structured v Unstructured Data)
:这是大数据中的对比之一。结构化数据基本上是那些能够被放在关系型数据库中的任何数据,以这种方式组织的数据可以与其他数据通过表格来关联。非结构化数据是指任何不能够被放在关系型数据库中的数据,例如邮件信息、社交媒体上的状态,以及人类语音等等。
软件即服务(SaaS)
:软件即服务让服务提供商把应用托管在互联网上。SaaS 提供商在云端提供服务。
半结构化数据(Semi-structured data)
:半结构化数据指的是那些没有以传统的方法进行格式化的数据,例如那些与传统数据库相关的数据域或者常用的数据模型。半结构化数据也不是完全原始的数据或者完全非结构化的数据,它可能会包含一些数据表、标签或者其他的结构元素。半结构化数据的例子有图、表、XML 文档以及电子邮件。半结构化数据在万维网上十分流行,在面向对象数据库中经常能够被找到。
存储(Storage)
:一方面它是数据临时或长期驻留的物理媒介;另一方面,它是保证数据完整安全存放的方式或行为。存储就是把这两个方面结合起来,向客户提供一套数据存放解决方案。
内存数据流(Streaming/in memory)
:是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的流,源源不断地送出,使用户听到的声音或看到的图象十分平稳,而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。这在目前大多数用户因接入瓶颈而不具备快速下载大型多媒体文件的情况下尤为重要。
情感分析(Sentiment Analysis)
:情感分析涉及到了对消费者在社交媒体、顾客代表电话访谈和调查中存在的多种类型的交互和文档中所表达的情感、情绪和意见的捕捉、追踪和分析。文本分析和自然语言处理是情感分析过程中的典型技术。情感分析的目标就是要辨别或评价针对一个公司、产品、服务、人或者时间所持有的态度或者情感。
网络安全(Security)
:是指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。