说话。
——
宝剑那边,初十六那天开始出事。
起点日流水的数字,从十万开始往下掉。
头一天掉了两成,宝剑没太当回事,以为是正常波动。
第二天,数字跌了一半。
第三天,跌到原来的两成。
宝剑盯着那个数字,把椅子往后推了推,站起来走到窗边,窗外是那条旧写字楼的走廊,走廊灯还坏着一盏,没人换。
他回来坐下,把笔趣阁打开,起点今天更新的章节,发布时间是下午两点,笔趣阁那边的抓取时间,是两点零零分五十八秒。
正版发布后,两秒钟以内,对方就同步了。
不到一秒钟的差距。
宝剑把那个时间截下来,发给刘浩,附了一行字,“不是人工在盯,是程序,实时爬的。”
刘浩回,“知道了。”
——
刘浩那天下午找了龙芯微借来的那两个工程师,把情况说了一遍。
一个工程师把笔趣阁的爬虫请求日志调出来看,看了一会儿,说了一句。
“高频轮询,间隔是零点三秒,一直在盯着起点的新章节接口,一旦检测到有新内容,立刻抓,一次抓完整章节,推送到自己服务器,整个流程全自动的,比人快。”
刘浩问,“能不能拦?”
“能,加请求频率限制,同一个ip超过阈值就封,或者把接口地址动态混淆,每次地址不一样,程序找不到。”
“上。”
当天晚上,宝剑那边加了防爬措施,ip封禁加接口混淆,两套一起用。
第二天早上,宝剑刷起点新章节,打开后台日志,笔趣阁的抓取请求,换了几十个ip,绕过了封禁,新的接口地址,对方爬虫绕了一圈,半分钟之内重新找到了。
抓取时间,两点零一分。
多了一分钟,仅此而已。
宝剑给刘浩发消息,“拦不住。”
——
宝剑的第二个办法,是加水印。
文字章节里嵌入图片,图片上是文字内容,爬虫抓的是纯文本,图片抓过去是乱码。
工程师花了一天,把图片水印做好,嵌进新发的章节里。
当天下午两点,章节上线。
两点零三分,笔趣阁那边的同步内容,是完整文字,没有一个字缺失。
宝剑把两边的内容对照了一下,一模一样。