专栏名称: 阑夕
阑夕,逐鹿网(zhulu.com)创始人,专注于互联网创业、新媒体及亚文化的深度观察和商业评论。
目录
相关文章推荐
51好读  ›  专栏  ›  阑夕

你对抖音算法的理解,都是错的

阑夕  · 公众号  · 科技自媒体  · 2025-04-17 19:46

正文

请到「今天看啥」查看全文


这意味着,今时今日的算法不需要去懂内容,这听起来有些反直觉,它不懂内容,怎么知道该把什么视频推送给什么人呢?
答案是: 基于特征向量的数学统计。
说人话就是,算法会围绕用户的反馈建模,有没有点赞、看到了第几秒、写了什么评论、是否点开了作者主页……等等,这些互动都会让算法对一个用户的了解逐渐加深,最终越来越准确的「预测」他会感兴趣的下一条视频。
机器学习领域的顶级专家吴恩达教授做过一个系列的「Machine Learning」课程,里面也讲过机器学习对推荐算法的主要贡献在于建立评分系统,在海量算力和海量供给的环境里,可以无限接近给用户推荐以他为标准的高评分内容的目标。
在炙手可热的大模型行业,「预测」也是一个非常熟悉的运行原理,ChatBot对答如流背后,实际上是在不断「预测」下一个Token,AI并不真的懂得它在说什么——所以才经常有分辨不出9.11和9.8哪个数字更大的笑话——所有的输出表达,其实都是以最大的概率把字词组合在一起罢了。
至于为什么算法变成了包括抖音在内的几乎所有平台都必须使用的分发技术,这还是和信息爆炸的环境有关。
根据IDC的报告显示,全球每年产生的网络数据量已经达到了175ZB,如果把它理解为一部4K视频,一个人需要花9亿年的时间才能全部看完……这已完全超出了历史上任何一个时代需要处理的信息体量。
抖音的算法工程师在公开课上也说得很直白,抖音每天新增视频高达亿数量级,而普通用户平均每天能够消费的视频撑死了也就几百条,那么在这有限的几百条视频里,怎么尽可能的确保它们都是用户喜欢的,就是算法需要不断精进的母题。
这里面有个非常生动的概念,叫作 「召回」,目的是把数量级降低,从数以亿计逐渐减少到数以万计、数以千计,直到筛选出几条用户能够刷到的内容,一切都要依靠算法的「召回」能力。
吴军博士在「数学之美」里讲过一个类似的科普:
假如足球世界杯刚刚结束,我却很不凑巧的错过了所有比赛,于是问一个知道结果的球迷「哪支球队是冠军」,但他不愿意直接告诉我,而是让我猜,每猜一次,他就要收一块钱,并告诉我猜得是对还是错,那么我需要掏多少钱才能知道世界杯冠军呢?






请到「今天看啥」查看全文


推荐文章
微信派  ·  进来
7 年前
商业地产观察  ·  开挂了!星纬资本12月连开三大商业项目
7 年前