蓝宇程序

您身边的百度小程序专家!

当前位置:首页 / 百度小程序公开课 / 闫斌:百度搜索引擎蜘蛛如何抓取小程序网页

闫斌:百度搜索引擎蜘蛛如何抓取小程序网页

栏目:百度小程序公开课   日期:2019-03-11   浏览量:1,680
摘要:

百度为小程序开发者提供了通过sitemap来主动提交小程序页面的方法,同时还采用了技术手段来主动抓取小程序页面,百度小程序公开课上闫斌详细分享了百度搜索引擎蜘蛛抓取小程序网页的技术实现方法。

搜索如何抓取小程序网页

好了,然后下一步是绑定熊掌号(熊掌ID),目前我们已经实现自动绑定,对开发者来说不用过多的去关注如何绑定熊掌号了。下一步是我们需要提交sitemap。

sitemap这个词的话,对于以前当过站长的人来话这个词并不陌生,sitemap指的是我当前网站有哪些资源可以让搜索引擎进行抓取和收录,可以让爬虫进行有针对性的抓取。如果我们希望百度搜索引擎可以去收录小程序内容,就需要在小程序的后台来去提交小程序的sitemap。

视频:百度如何抓取小程序网页

我们约定sitemap的形式是TXT的格式,文件里面的每一行是小程序的一个页面URI,URI里面包含的小程序路径+query两部分组成。我们举一些例子,比如说我们的业务订单的详情页,那么它的路径是pages,它的参数是ID等于一个订单号这样的一个形式。本文内容由蓝宇程序根据百度智能小程序公开课上闫斌分享整理而来,蓝宇程序,您身边的百度小程序专家!

我们会基于开发者提交的sitemap会自动补全的小程序的Web化的house,从而生成一个Web化页面来供spider来进行爬行抓取。这里面有一点是需要特另强调的,我们可能会面对同一个小程序路径会承载着海量页面的这样的一些场景。

sitemap的形式

比如说贴吧的帖子详情页,糯米店铺页,爱奇艺的视频播放页,这类页面可能是同一个小程序会对应的海量的页面资源。我们建议开发者尽量的多提交一些页面资源来供我们进行抓取和学习。同时我们也建议开发通过线上脚本的方式来生成sitemap,sitemap每天是有配额的,我们规定每个小程序的每天的配额是存量页面是5万条,增量的页面是3000兆。

我来说一个比较特殊的场景,我以爱奇艺来举例说明,爱奇艺的视频播放页有小程序的版本,也有H5的版本,那么这两个版本之间的话它们都使用了视频ID,但是这两套视频ID它们是不一致的,也就是说虽然爱奇艺内部可以将视频ID基于一些规则来进行转化,但是对于我们(百度蜘蛛)来说,这两套视频ID它在字符串层面上是不一致的。

我们基于之前的规则,就无法正常的配置小程序到H5的规则,这种情况下我们应该怎么办?我们给开发者建议是这样的:我们在提交sitemap的时候,同时的将小程序单的sitemap和H5的sitemap我都写上,比如说我举例,爱奇艺的视频播放页的page/video…,。ID是小程序的视频ID,而VID是H5的是视频ID。那么这样就既可以保证小程序Web化可以正常地展示,也可以保证我们可以正常收录来指向一个正确的爱奇艺的视频页面。

小程序的Web

sitemap的这种形式是开发者主动提交的,同时我们的爬虫也会基于小程序的首页来进行主动的发现。那么我们会针对Web化的小程序做一些特殊的优雅处理,因为Web化小程序是一个单页面网站,所以说不存在锚点这类的信息,那么我们会将页面的可点击区域增加了一个特定的class,来进行模拟的点击,模拟点击触发的跳转行为,并且通过爬虫注入的一个全局函数来对页面的URL进行上报,供爬虫来收集和后续的收录。

同时我们也在爬虫环境优化了我们的登陆逻辑,我们默认下在小程序以游客模式,不会因为页面跳转而影响爬虫的抓取行为。以上就是我们小程序接入从百度搜索的流程,我们的官方文档也会有和流量对接相关的详细的文档来供大家来参考和学习,那么以上就是我今天的分享谢谢大家。

微信扫一扫,分享到朋友圈

闫斌:百度搜索引擎蜘蛛如何抓取小程序网页
微信扫码关注蓝宇程序
微信扫码关注蓝宇程序
蓝宇数据(广州)有限公司 地址:广东省广州市科学城 电话:400 -080 -7157
Copright © 2020 蓝宇数据 All Rights Reserved. 粤ICP备18144795号 站点地图