小红书数据抓取 小红书数据分析在哪里看

网友投稿 702 2023-04-26

编辑导语:小红书的算法可以从产品角度和运营角度两个角度来分析,而本文作者是从技术角度来分析小红书的算法。感兴趣的朋友,我们一起学习吧。

小红书数据抓取 小红书数据分析在哪里看

这是哈佛医学院的一篇学术文章。一个叫Nsoesie的人和他的朋友分析了医院停车场的车辆数量和互联网搜索的趋势,得出结论:疫情最早始于19年8月的武汉。当然,这种说法被哈佛医学院自己以数据不恰当、不充分、滥用和误解统计方法、选择网络搜索词为由否决了。事情并没有随着问题的发现而结束,Nsoesie这样的人的说法被媒体广泛报道。

我们简单总结一下整个时间,大致是——很多数据显示,医院的车比较多;车多了,看病的人肯定多;看病的人多了,肯定有新冠肺炎;类似类比,南京中华门景区在市第一医院旁边,直线距离1.1公里。除了一个小停车场,一条巷子,还有医院的地下停车场,没有停车位。小停车场和巷子里每天都是满满的。国庆假期快到了,医院停车场已经满了。结论是南京爆发了疫情。

如果从现象推断原因,事实会差多少?一个上不了台面的科研骗局,但是用脚投票的人选择相信,不相信的人别有用心的传播。

对应到运营行业,是不是和一些满脑子方法论、刀法、套路、核心、SOP的人很像?把方法从结果中拆解出来,总结再用方法告诉100个人。只要一个人做好了,你就可以说:“你做不好,别人能做好是你的问题。”哲学上有一个朴素的观点“实践是检验真理的唯一标准”,实践之所以是检验真理的标准,是由真理的本质和实践的特点决定的。

我算过一两笔账/甚至没算过账,总结的运营经验报表也不通顺,前后都经不起推敲,而且大家都已经付过车款了。如下图,其实所有需要分发内容的app都是这个逻辑。

所以,我不会写那些在网上一次搜索10篇文章就能找到9篇的小红书算法内容。也没有上一篇那么好理解甚至枯燥,看完也不知道说什么好。但是相信我,你看完会收获很多。也许业务上的一些小问题终于被证实了,也许看小红书运营的角度更多元化了,或者你学到了更具体的思考。

想听刀法,方法论,废话,可以点右上角的x。如果你想从更低的层面了解你在做的平台,如果这个内容对你有帮助就太好了。我拿起很多论文,论坛,找了很多小红书公开演讲的PPT总结,都是结合业务实际的。欢迎关注评论。

01

很多人常说的小红书算法,大多数人从产品角度出发,少数人从运营角度出发,几乎没有人从技术角度出发。

算法是一系列解决问题的明确指令,它代表了一种描述解决问题的策略机制的系统方法。方位A和方位B可能是男人和女人,也可能是国王和王后。我们应该先解释a和b,而不是讨论如何从ab开始。

从产品角度来说没有大问题,但是有两种大点,分别是产品的背景和使用。产品的后台包括解决了什么需求,具体的使用场景是什么,目标用户是什么。产品的使用包括体验、UI、美工、交互。我看过大部分人对小红书算法的分析,都是基于UI,也就是用户界面,但其实是相当不准确或者说肤浅的。

从UI上看,Tik Tok和小红书的相似度非常高。Tik Tok的首页——推荐、关注、城市、小红书的首页——发现、关注、城市基本相同,留言页和我的页面也基本相同,那么算法和逻辑是一样的?

差别太大了。反映在结果上,我们都在Tik Tok和小红书做了200万左右的粉。其中一个基本没啥觉悟,另一个收入很高。后来我们重复报价,平台就像我们那些年追的那个女生。没有人永远年轻,但总有人年轻。即使经营多年,我们也常常对原来的女孩不熟悉。而平台总会诞生新的机会,给后来者以遐想空。

话不多说,简单梳理一下小红书算法。多段摘自ArchSummit深圳演讲——赵(小红书算法架构师,负责机器学习应用)、2019阿里云峰会暨上海开发者开源大数据专场小红书实时推荐团队负责人郭毅的演讲、推荐引擎北京项目负责人秦博(推荐引擎北京项目负责人)和Marco(小红书大数据组工程师)的帖子/PPT。如有侵权,联系修改或删除。

小红书社区是一个分享社区+电商APP。分享社区通常以女性为主,有少量话题引导。如何把平台每天制作的内容转发分发给用户,让用户看到用户想看的内容,是算法需要解决的问题。

对于小红书来说,社区提供用户粘性,引流电商。电商将这部分流量变现,在APP内形成闭环。社区和电商相互促进。对于算法团队来说,电商板块有社群用户数据和用户行为数据。如何连接两边的用户行为,更好的理解用户,是算法的根本出发点。

现在大家普遍认可以下流量分配模型,系统根据用户交互效果打分的系统是CES。其实太笼统了,CES评分不知道是第一步,第二步,第三步还是整个推荐过程中的重复计算。接下来我会通过一些具体的案例,从技术的角度来解释。

如果你看过我上一篇关于搜索流量的文章,你应该有这样的印象,一个笔记的搜索流量是比较稳定的,推荐流量是笔记成为爆款的核心。小红书的线上推荐流程主要分为三步:

从小红书用户每天上传的笔记池中选出候选集,通过各种策略从千万条的笔记中选出几千个候选集进行初排。在模型排序阶段给每个笔记打分,根据小红书用户的点赞和收藏行为给平台带来的价值设计了一套权重的评估体系,通过预估用户的点击率,评估点击之后的点赞、收藏和评论等的概率进行打分。在将笔记展示给用户之前,选择分数高的笔记,通过各种策略进行多样性调整。那么小红书是如何从日常笔记池中挑选候选集进行初步整理的呢?

小红书内容图文并茂,用户生成的内容图片质量较高。CNN(卷积神经网络)用于提取图像特征,Doc2Vec(文本到向量模型)用于提取文本特征。用户可以通过一个简单的分类器划分成话题,话题是几百个人工校准的话题。这是第一排。

03

CNN和Doc2Vec到底是怎么提取笔记并分类的?

关于图片的识别,小红书是一个非常视觉化的社区,有很多图片。小红书从图像中提取特征可以达到很好的效果,在准确率85%左右的情况下覆盖率可以达到73%左右。添加文字后效果更好,准确率达到90%,覆盖率达到84%。

图片这是内容创作首先要注意的地方。你认可形象的夸张到什么程度?

我们曾经发了一个儿童和中小学的教育案例,在角落里翻开的一本书里拍下了两行关于母婴胎教的文字,肉眼看不清楚。我们发出了涉及婴儿遗传学等敏感内容的警告,3天不推荐该账号。后来反复查找原因才发现这个问题。

这里有另一个更常见的例子,它涉及GBTD模型中的机器深度学习。小红书流行分享痘痘治疗,脸上痘痘怎么治有很多注意事项。如何把这些让人不舒服的内容推荐给想看的人,是个问题。

小红书尝试用CNN模型做这个的时候,发现无论照片是全脸、半脸、四分之一脸甚至少量面部器官,都可以很好的识别甚至识别出图片中的文字,有助于反作弊。所以不要对图片进行任何走私物品的操作,图片识别+图片文字识别的准确率基本在90%。

先说文本的向量表示。文本的向量表示有很多种,其中一种叫做Word2Vec,是Google提出来的。它的原理很简单,其实就是一个很浅层的神经网络,根据前后词来预测中间词的概率,模型在优化预测时得到该词的向量表示。

同一个词的向量表示在空中也是有意义的,相似的词也在相似的空中。这个模型更有意思的是,你可以在取出向量的时候随时进行向量运算。

从一个女人指向一个男人的向量和从一个女王指向一个国王的向量是一样的,所以我们知道其中的三个,我们可以算出另一个。如果我们的笔记以“自驾”和“露营”为主,Word2Vec会根据前后词预测中间词的概率,可能是装备、路线、、过夜、海边、周边、攻略,推送到相应的用户页面。

什么是用户画像和笔记画像?在算法中起什么作用?

1.小红书推荐预测模型已经进化到GBDT+稀疏d &;w模型

预测任务有九个,包括点击、隐藏、喜欢、收藏、评论、分享、关注等。点击、保留、喜欢、评论、分享和关注。Click是小红书最大的模型,每天产生约5亿个样本用于模型训练。GBDT模型中的笔记分布有大量的用户行为统计,产生一些静态信息和动态特征来描述用户或笔记。

通过用户画像和人口统计信息来描述用户,比如性别、年龄等静态信息。笔记分为作者和内容两个维度,比如作者评分、笔记质量、标签和主题。虽然动态特征不多,但是很重要。

动态特征包括用户在浏览和搜索中是否点击,是否有深度行为等类似的用户反馈。这些互动数据有一个从线下直接放入线上模型的实时管道,这些数据会被线上用来预测点击率等互动质量的指标,然后根据用户和笔记的隐形分类进行推荐。

2.关于动态特征的提取,小红书用的是Doc2Vec模型,也叫相关笔记。

相关注意事项有什么要求?推荐笔记和用户正在阅读的笔记最好是讲同一个东西。比如同样的口红,同样的酒店,同样的旅游城市,同样的衣服,可能不是一家酒店,但却是类似的酒店。

可能不是同一个旅游城市,但可能是类似的旅游城市。很难理解吗?具体一点吧。如果我看的是亚特兰蒂斯的酒店,那么小红书不会给我推荐格林豪泰,而是同级别的类似酒店。如果我经常搜索雪山/草原/沙漠,那么我不会推荐上海/北京/广州,一个人文和城市景观都很突出的地方。

需要注意的是,虽然TFIDF模型基本要求用词相同,但它可以找出一种笔记,即描述用户心理和心情的笔记。因为用户用来描述心情的词语很接近,所以这种方法也会找出引申的内容。绝句子是一个非常明显的语气词或者形容词,小红书有461万+条注释。

核心的实时归属地场景业务如何做用户行为标签?

用户画像比较简单,没有太多的状态,实时归属是整个实时流处理中最关键的场景。实时归属地在向用户推荐笔记后会产生曝光和点信息,用户的每一次曝光、点击、查看、退单都会被记录。

看看下面这张图。四次曝光的用户行为会产生四次笔记曝光。如果用户点击了第二个笔记,就会生成第二个笔记的点击信息,好评就会生成好评的点信息。如果用户后退,会显示用户在第二个音符停留了20秒。实时归属地会产生两个数据。第一个是点击模型的数据标签。下图,第一个和第三个音符没有点,第二个和第四个音符点了。这些数据对于训练点击模型非常重要。赞的模式几乎和上面一模一样。

05 CES评分在哪个阶段参与算法?

在整个在线推荐过程中,只有在模型排序阶段,才能对每一个笔记进行评分。在笔记展示给用户之前,小红书会选择分数高的笔记,通过各种策略调整多样性。

得分=pCTR*(plike*Like权重+pCmt*Cmt权重…)

如果涉及到CES,也只是很小的一部分。我通过爬虫把爆炸笔记爬下来,做成CES形式的Excel电子表格。无论是散点图还是显示各种数据关系的图形,都没有规律的图表,所以CES在冷启动中用的最多,聊胜于无。

06

综上所述,最后我们还是用比较通俗的话来解释这个内容想要论证或者体现的思想:

小红书算法是一系列解决问题的明确指令,算法代表了描述解决问题的策略机制的系统方法。我们不应该从用户界面或者从成熟的账号中去梳理和总结方法论,因为梳理和总结的只是机制中一系列特别琐碎的点,而不应该形成所谓的普适方法论。

每个人的工作和业务发展也是如此。很多操作文章一下子就把整个操作过程讲出来了。我建议从算法入手,工作也是从你的实际理论和认知出发,而不是从葫芦画瓢。我给你一架飞机画一瓢。好吧,你建吧。

不要做公司想推广的/你喜欢的,而是做算法认为用户想看到的。毕竟算法需要解决的问题是把平台生产的内容转发给用户,让用户看到用户想看的内容。

对于小红书来说,算法的出发点是如何将社群的用户数据与电商板块用户的行为数据联系起来。目前小红书的盈利模式主要集中在人种草上。其实算法团队不够好,没有办法为中间阶段提供足够优秀的支持。不管是电商还是广告,其实大家都有抱怨。

前台主要是为客户和终端卖家实现营销推广和交易转化。中间平台主要是供运营商完成运营支撑。后台主要面向后台管理人员,实现流程审核、内部管理和后勤保障,如采购、人力资源、财务、OA等系统。

算术岗也是各大公司招聘线中报价最高的。目前想做视频内容电商的算法人才,倾向于去Tik Tok和Aauto更快。想做传统电商的,倾向于去阿里或者拼多多。至于电子商务或者图文、纯文字形式的广告,其实很多年都做得不是很好。小红书的图文能做好,得益于70%的用户群体是女性,社区氛围营造的生活氛围非常精致。

选择合适的内容非常重要。如果内容少,又是刚需,那么小红书通过策略选择的候选集相对容易选择我们的笔记。在整个笔记出现在大量用户的过程中,我倾向于认为不涉及CES评分,预测模型其实起了很大的作用。实际操作中反映出来的就是一张图一句话的笔记乱七八糟,什么旧账之火,因为预测模型。

小红书算法对图片的优先级非常高,准确率至少85%。如果加上文字,准确率可以达到90%。所以不管是正常的图文,还是水里没报的笔记,还是非法引流的笔记,算法总能查得一清二楚,只不过和运营中账户处理的松紧有关。比如哪个月封号,哪个月查资质,哪个月抓引流,算法都有数据,人工干预就好。

关于文本的动态特征提取,可以重点关注前面提到的预测词和相关注释。这是一个非常有趣但实用的模型算法。从普通用户的角度来看,我认为Tik Tok和小红书做得很好。

小红书算法对笔记内容的好坏,取决于用户画像和笔记画像。用户画像一般都是静态信息,一半以上都是注册账号时完成的,比如性别、年龄等。笔记画像包括评分、笔记质量、标签和主题(主题是上面提到的人工分类的几百个算法中的主题,不是下面的标签或内容主题)。

我们在浏览推荐页面的时候,可以看一屏(四注)的内容,尤其是用其他账号刷自己账号的时候。如果在一个屏幕上有和你属于同一类别的其他笔记,那么就专注于研究。算法认为你各方面都差不多,展示给用户看。

本文由@发布京京京京京京京京。每个人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:小红书运营主要做什么?企业小红书账号员工如何运营?
下一篇:小红书直播规则
相关文章

 发表评论

暂时没有评论,来抢沙发吧~