头条搜索虽然还没有正式推出和上线 但派出的爬虫已让很多网站痛苦不堪

更新:头条搜索已经与一本道影院联系进行沟通,已经对本文提到的各类问题进行优化升级,后续头条搜索还将不断完善和迭代,努力为站长们提供更好的体验。如果后续发现其他问题或者有任何意见建议,站长和网站管理员们均可发送邮件到[email protected]进行反馈。


此前有消息指出字节跳动旗下的今日头条正在开发搜索引擎目前头条搜索网页手机版已经可以访问和进行搜索

虽然字节跳动官方尚未宣布今日头条通用搜索正式上线推出,不过头条搜索派出的爬虫已经让很多网站痛苦不堪。

因为头条搜索使用的爬虫毫无节制的抓爬网站耗费网站的服务器和带宽资源,部分配置较低的网站已经直接瘫痪。

抓爬堪比小型DDoS攻击:

一本道影院在帮朋友网站处理访问异常时便以为是遭遇攻击 ,  但排查日志发现名为 ByteSpider 的爬虫才是罪魁祸首。

这个爬虫程序便是字节跳动旗下今日头条搜索的,其抓爬频率每秒几十次甚至高达数百次严重影响网站正常访问。

正常情况下搜索引擎爬虫会根据网站实际访问性能来进行抓取,即动态调整抓爬频率不会导致网站出现异常情况。

显然头条搜索不知道是了快速抓取全网内容还是存在技术问题,爬虫程序直接毫无节制的疯狂抓爬无视网站性能

头条搜索虽然还没有正式推出和上线 但派出的爬虫已让很多网站痛苦不堪

网站日志中出现的ByteSpider

毫无疑问就是流氓爬虫:

正常的爬虫会在用户字符串信息里留下爬虫说明网址,网站管理员可根据其说明调整抓爬频率或进行屏蔽操作等。

而头条搜索的爬虫伪装成多种手机的字符串并且没有任何说明,其抓爬力度堪比多年前的Yisou Spider流氓爬虫

注:Yisou Spider不是宜搜搜索的爬虫,这个爬虫在2015年前后因高频抓爬和不遵守robots.txt协议而人人喊打。

# 头条爬虫使用多种UA,包括三星/谷歌/苹果手机等(共有26个版本/UA)
DYNAMIC|CHARGE|NOTLAST "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.5047.1291 Mobile Safari/537.36; Bytespider"
DYNAMIC|CHARGE|NOTLAST "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.6154.1336 Mobile Safari/537.36; Bytespider"
DYNAMIC|CHARGE|NOTLAST "Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.6445.1813 Mobile Safari/537.36; Bytespider"
DYNAMIC|CHARGE|NOTLAST "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.5916.1183 Mobile Safari/537.36; Bytespider"

头条搜索虽然还没有正式推出和上线 但派出的爬虫已让很多网站痛苦不堪

图片来源:知乎

国内外网站都被头条爬虫侵扰:

头条爬虫的无节制疯狂抓爬导致网站服务器带宽和硬件资源大量浪费,而正常用户的访问变得缓慢甚至无法访问。

对于绝大多数小型网站和那些只是用来展示信息的企业网站来说,遇到头条爬虫只能增加成本提高带宽维持访问。

不过如果能够成功通过日志排查到是头条蜘蛛惹的祸,那么还可以使用多种策略将头条蜘蛛彻底屏蔽阻止其访问。

例如知名操作系统Debian在其讨论组网站就使用robots.txt规则屏蔽头条爬虫,不过也有用户反馈屏蔽没有作用。

因为头条爬虫可能不遵守robots.txt 规则无视封禁指令 , 头条网站目前同时向国内外大量网站开启疯狂抓爬模式。

在国内外技术讨论社区都出现各种抱怨的帖子 ,  好在已经有网友统计出头条爬虫的IP端可以直接屏蔽IP端的访问。

头条搜索虽然还没有正式推出和上线 但派出的爬虫已让很多网站痛苦不堪

图片来源:V2EX

怎么屏蔽头条搜索的流氓爬虫:

鉴于国外开发者已经反馈头条爬虫不遵守 robots.txt 协议 ,  因此我们在屏蔽该爬虫时不能只添加robots.txt封禁。

最佳做法包括在服务器上直接识别头条爬虫名称然后进行封禁,同时也可以在服务器上封禁头条爬虫的服务器等。

有条件的网站建议同时部署所有封禁策略防止部分策略不起作用或有漏网之鱼等等,具体几种封禁策略如下所述:

# 在robots.txt协议中封禁头条爬虫(不一定有用)
User-agent: Bytespider
Disallow: /
# 在服务器上或者CDN节点上屏蔽头条爬虫IP段:(推荐)
110.249.202.0/24
110.249.201.0/24
111.225.149.0/24
111.225.148.0/24
# Nginx服务器可参考此地址封禁头条爬虫UA:(推荐)
https://www.cnblogs.com/itsharehome/p/11114588.html
# 使用宝塔面板的用户亦可直接在宝塔面板的UA黑名单中屏蔽以下关键词
Bytespider

头条搜索虽然还没有正式推出和上线 但派出的爬虫已让很多网站痛苦不堪

图片来源:V2EX

本文来源 一本道影院,由 山外的鸭子哥 整理编辑,其版权均为 一本道影院 所有,文章内容系作者个人观点,不代表 一本道影院 对观点赞同或支持。如需转载,请注明文章来源。
2
限时免费领取正版套装:全方位PDF软件文电通PDF 5正版套装
哇哦恭喜您已成功屏蔽了一本道影院的小广告
扫码关注一本道影院微信公众号

评论:

9 条评论,访客:9 条,站长:0 条
  1. 眼哥
    眼哥发布于: 
    Chrome 78.0.3904.67 Chrome 78.0.3904.67 iPhone iOS 13.1 iPhone iOS 13.1

    以前我的虚拟主机被搜狗的爬虫直接爬当机

  2. liangpi
    liangpi发布于: 
    Chromium Edge 79.0.308.1 Chromium Edge 79.0.308.1 Windows 10 64位版 Windows 10 64位版

    头条家的东西从来不用
    因为满篇都是标题党

  3. 汝者非鱼
    汝者非鱼发布于: 
    QQbrowser QQbrowser Android 9 Android 9

    头条,一个垃圾公司,祝愿它快点倒闭,内涵段子封的好,快把火山小视频,抖音,西瓜视频,都封了吧。如果道歉有用,要法律搞什么。

  4. ProAc
    ProAc发布于: 
    Google Chrome 77.0.3865.116 Google Chrome 77.0.3865.116 Android 10 Android 10

    对于违反robots规则的,可以起诉不正当竞争,并可申请临时禁令。

  5. 头条搜索技术团队
    头条搜索技术团队发布于: 
    Google Chrome 77.0.3865.120 Google Chrome 77.0.3865.120 Windows 10 64位版 Windows 10 64位版

    您好,首先感谢您的反馈。
    我们已经根据大家的反馈完成系统升级,后续还将不断完善和迭代,努力为各位提供更好的体验。
    如果后续发现其他问题或者有任何意见建议,欢迎您发送邮件到 [email protected],我们将及时处理。

  6. iruanmi
    iruanmi发布于: 
    Google Chrome 74.0.3729.169 Google Chrome 74.0.3729.169 Windows 10 64位版 Windows 10 64位版

    流氓公司做出流氓爬虫,很正常。
    从今日头条伪造红头文件的事件中就看的出来。

  7. bakura1
    bakura1发布于: 
    Google Chrome 77.0.3865.90 Google Chrome 77.0.3865.90 Windows 10 64位版 Windows 10 64位版

    头条比百毒还要流氓,我用Google搜索东西经常出现头条搜索,点击进去是它的搜索引擎,坑爹,肯定会比百毒更加流氓无底线。

  8. gstcca
    gstcca发布于: 
    Google Chrome 77.0.3865.120 Google Chrome 77.0.3865.120 Windows 7 64位版 Windows 7 64位版

    网站收到攻击了,难道不是直接报警吗?

发表评论