正文
0x35 HBase 库,实时业务 / 122
01 理论基础 / 122
02 Shell 操作 / 123
03 关联Hive 表 / 126
04 数据导入 / 128
05 实用经验 / 130
0x36 SQL 与NoSQL,Sqoop 为媒 / 130
01 SQL 与NOSQL / 130
02 从MySQL 导入HDFS / 131
03 增量导入 / 134
04 映射到Hive / 135
05 导入Hive 表 / 136
06 从HDFS 导出到MySQL / 137
07 从Hive 导出到MySQL / 138
0x4 数据分析,见微知著 / 141
0x40 大数据分析,鲁班为祖师 / 141
0x41 SQL 技能,必备MySQL / 143
01 SQL 工具 / 143
02 基础操作 / 144
03 查询套路 / 145
04 join 查询 / 146
05 union 与exists / 149
06 实战经验 / 151
0x42 快刀awk,斩乱数据 / 152
01 快刀 / 152
02 一二三要点 / 152
03 一个示例 / 154
04 应用与统计 / 154
05 斩乱麻 / 156
0x43 Pandas,数据之框 / 157
01 数据为框 / 157
02 加载数据 / 158
03 行列索引 / 159
04 行列操作 / 161
05 合并聚合 / 163
06 迭代数据 / 164
07 结语 / 165
0x44 Zeppelin,一统江湖 / 166
01 心潮澎湃 / 166
02 基本使用 / 168
03 SQL 与可视化 / 169
04 安装Zeppelin / 172
05 配置Zeppelin / 173
06 数据安全 / 174
07 使用心得 / 176
0x45 数据分组,聚合窗口 / 177
01 MySQL 聚合 / 177
02 Spark 聚合 / 178
03 非聚合字段 / 179
04 Hive 实现 / 180
05 group_concat / 181
06 Hive 窗口函数 / 183
07 DataFrame 窗口 / 184
08 结语 / 185
0x46 全栈分析,六层内功 / 186
01 引言 / 186
02 MySQL 版本 / 186
03 awk 版本 / 187
04 Python 版本 / 188
05 Hive 版本 / 189
06 map-reduce 版本 / 190
07 Spark 版本 / 190
08 结语 / 191
0x5 机器学习,人类失控 / 193
0x50 机器学习,琅琊论断 / 193
0x51 酸酸甜甜,Orange / 195
01 可视化学习 / 195
02 数据探索 / 196
03 模型与评估 / 199
04 组件介绍 / 200
05 与Python 进行整合 / 202
06 结语 / 204
0x52 sklearn,机器学习 / 205
01 sklearn 介绍 / 205
02 数据预处理 / 206
03 建模与预测 / 207
04 模型评估 / 209
05 模型持久化 / 210
06 三个层次 / 210
0x53 特征转换,量纲伸缩 / 211
01 特征工程 / 211
02 独热编码 / 212
03 sklearn 示例 / 213
04 标准化与归一化 / 215
05 sklearn 与Spark 实现 / 216
06 结语 / 219
0x54 描述统计,基础指标 / 220
01 描述性统计 / 220
02 Pandas 实现 / 222
03 方差与协方差 / 223
04 Spark-RDD 实现 / 224
05 DataFrame 实现 / 226
06 Spark-SQL 实现 / 227
07 结语 / 227
0x55 模型评估,交叉验证 / 228
01 测试与训练 / 228
02 评价指标 / 229
03 交叉验证 / 231
04 验证数据 / 232
05 OOB 数据 / 233
0x56 文本特征,词袋模型 / 234
01 自然语言 / 234
02 中文分词 / 235
03 词袋模型 / 236
04 词频统计 / 237
05 TF-IDF / 238
06 结语 / 239
0x6 算法预测,占天卜地 / 241
0x60 命由己做,福自己求 / 241
0x61 近朱者赤,相亲kNN / 243
01 朴素的思想 / 243
02 算法介绍 / 243
03 分类与回归 / 244
04 k 与半径 / 245
05 优化计算 / 246
06 实例应用 / 247
0x62 物以类聚,Kmeans / 248
01 算法描述 / 248
02 建立模型 / 249
03 理解模型 / 251
04 距离与相似性 / 252
05 降维与可视化 / 253
06 无监督学习 / 255
0x63 很傻很天真,朴素贝叶斯 / 257
01 朴素思想 / 257
02 概率公式 / 257
03 三种实现 / 258
04 sklearn 示例 / 260
05 朴素却不傻 / 262
0x64 菩提之树,决策姻缘 / 263
01 缘起 / 263
02 Orange 演示 / 264
03 scikit-learn 模拟 / 266
04 熵与基尼指数 / 267
05 决策过程分析 / 268
06 Spark 模拟 / 270
07 结语 / 271
0x65 随机之美,随机森林 / 271
01 树与森林 / 271
02 处处随机 / 273
03 sklearn 示例 / 274
04 MLlib 示例 / 275
05 特点与应用 / 276
0x66 自编码器,深度之门 / 277
01 深度学习 / 277
02 特征学习 / 278
03 自动编码器 / 280
04 Keras 代码 / 282
05 抗噪编码器 / 283
0x7 Spark,唯快不破 / 285
0x70 人生苦短,快用Spark / 285
0x71 PySpark 之门,强者联盟 / 287
01 全栈框架 / 287
02 环境搭建 / 288
03 分布式部署 / 289
04 示例分析 / 290
05 两类算子 / 292
06 map 与reduce / 293
07 AMPLab 的野心 / 294
0x72 RDD 算子,计算之魂 / 295
01 算子之道 / 295
02 获取数据 / 296
03 过滤与排序 / 297
04 聚合数据 / 298
05 join 连接 / 299
06 union 与zip / 300
07 读写文件 / 301
08 结语 / 303
0x73 分布式SQL,蝶恋飞舞 / 304
01 SQL 工具 / 304
02 命令行CLI / 304
03 读Hive 数据 / 305
04 将结果写入Hive / 306
05 读写MySQL 数据 / 307
06 读写三种文件 / 308
0x74 DataFrame,三角之恋 / 310
01 DataFrame / 310
02 生成数据框 / 311
03 合并与join / 313
04 select 操作 / 314
05 SQL 操作 / 315
06 自定义UDF / 316
07 三角之恋 / 318
0x75 神器之父,Scala 入世 / 319
01 Spark 与Scala / 319
02 Scala REPL / 320
03 编译Scala / 321
04 sbt 编译 / 322
05 示例分析 / 323
06 编译提交 / 325
0x76 机器之心,ML 套路 / 326
01 城市套路深 / 326
02 算法与特征工程 / 327
03 管道工作流 / 328
04 OneHotEncoder 示例 / 329
05 ML 回归实战 / 331
06 特征处理与算法 / 332
07 拟合与评估 / 334
0x8 数据科学,全栈智慧 / 337
0x80 才高八斗,共分天下 / 337
0x81 自学数据,神蟒领舞 / 339
01 机器学习 / 339
02 语言领域 / 339
03 Python 数据生态 / 340
04 相关资料 / 341
05 书籍推荐 / 342
06 性感的职业 / 343