专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
51好读  ›  专栏  ›  OSC开源社区

利用一点机器学习来加速你的网站

OSC开源社区  · 公众号  · 程序员  · 2017-04-18 08:29

正文

请到「今天看啥」查看全文


一开始的时候,我对机器学习一点概念都没有。我是在游戏 AI ,以及 Alpha 狗战胜人类顶级围棋棋手之后才有所了解的。


因此我打算开始去了解它,下面的几步一个小时都不需要。


1、Google 搜索 'machine learning'

2、查看大量的关于机器学习的文章

3、发现了亚马逊发布的机器学习相关的服务

4、我开始意识到我不需要知道太多的关于机器学习的东西

5、嗯。好开心


(作者注: 因为没有去系统的学习机器学习,所以文章的一些专业术语可能被乱用。。)


一个简单的实现流程

亚马逊发布了他的机器学习文档。如果你不是对这个文档很感兴趣,打算花5个小时去阅读,那么就来看下我写的一些总结吧。

整理如下:


1、获取一些 CSV 数据文件,每行都是一个商品项(^_^我的皮划艇),列名是标题、描述、价格、所属分类。

2、把数据传送到亚马逊的 AWS S3 bucket 里面

3、用数据去训练机器。这样子,这个小小云机器人就能通过商品的标题,描述和价格去预测他的分类了。

4、在前端页面上,写一些代码,获取用户输入的 标题/描述/价格,发给这个云机器人,经过计算,就能向预测这个商品所属的分类了。


实战模拟

下面是我写的一个表单,模拟了卖家发布信息的几个关键流程。


下面的结果一定会让你对机器学习保持兴趣。你只要相信我,建议类别是由深度学习模拟预测出来的。


让我们去卖一个冰箱



再来试一下卖个水族馆:



这个云机器人居然能识别出水族馆!


当我看到这个结果的时候,手舞足蹈,是不是棒棒哒?


(我偷偷的告诉你我是怎么实现的:React, Redux, JQuery, Mox, RxJs, BlueBird, Bootstrap, Sass, Compass, NodeJs, Express, Loadsh。项目是使用 webpack 打包。最后生成的文件在1M左右)


嗯。不 BB 了。开始讲正经事。


一开始为了拿到机器学习用的数据。我也是想破了头。我大概需要10K条数据。后来是在一个当地的交易网站上面发现有这些数据。看了一下 URL 和 DOM 结构之后,我用 Google Scraper 插件提取了一些数据。


导出成 CSV 文件。在这些数据上我大概花费了四个小时。将近整个项目时间的一半了。


数据整理好之后,上传到了 Amazon S3 上,配置了一下机器学习的参数,设置了数据模型。整个学习的 CPU 耗时才3分钟。


界面上还有一个实时预测功能,所以我打算用一些参数测试一下。







请到「今天看啥」查看全文