如何应对资源倒卖者(倒狗)的举报 ‐ 百度云篇 - cenglin123/SteganographierGUI GitHub Wiki
Author: 层林尽染
Link: https://cangku.moe/archives/212735
Updated: 2024-09-01 17:05:12
在前述 IPFS 文章[1] 中,我们讨论分析了分享炸链的主要原因是资源倒卖者的举报。
本文尝试进一步探讨了资源倒卖者(俗称"倒狗") 在百度云平台上举报的行为逻辑和技术路线,以及其应对方法。通过对倒卖者行为模式的长期观察和一系列对照试验,本文揭示了倒卖者可能采用的技术路线,包括自动化爬虫和人工操作相结合的方法。试验发现,隐写技术结合特定的申诉策略可有效对抗倒卖者的举报。此外,本文提出了基于文字识别和逻辑推理的新型反爬验证码方案,以增加倒卖者的操作成本。研究结果表明,采用隐写文件、实施提取码反爬处理、适时申诉保住分享链接的情况下换源等综合策略,可以在保护资源分享的同时,有效降低被炸链的风险。
本文可以为在线资源分享社区安全分享以及应对恶意举报问题提供一些理论基础和实际建议。
文章目录
首先需要强调,并非所有炸链都是倒卖者引起的,在线解压以及文件名违规也都可能导致炸链,此时草率地归咎于倒卖者无益于问题的解决,并且可能造成资源和精力的浪费。
我们需要通过确定的证据证明倒卖者的存在。
我们在 之前的文章[2] 中讨论过,倒卖者的举报工作流是这样的:先转存欲使之违规的文件进入举报池账号,然后重新分享,再运行举报脚本依次举报触发网盘的违规机制,直至举报池中的文件全体违规。整个过程大致耗时在一个小时以内。
根据对被倒卖者举报的分享链接的长期观察,我们可以发现,被举报的文件通常具有几十个浏览和 1 个保存(这条不绝对,但是可以作为佐证),举例可如下图所示。
如果发现文件以这种方式炸链,就可以怀疑是否是倒卖者所为了。不过仅仅是这样还并不足以证实,我们还需要更具体的判断依据。
那么我们应该如何证明倒卖者的存在呢?
答案是通过 隐写文件[3] ,目前基本可以认为,只有倒卖者才能通过脚本举报触发网盘违规机制的方式让隐写文件炸链。
由于隐写文件可以申诉,我们可以在隐写文件炸链以后尝试进行申诉,如果可以申诉成功,那么说明网盘方并不知情,由此即可断定炸链为倒卖者所为。
因此我们只需要把握 2 个特征:第一,隐写文件炸链;第二,炸链后文件可以申诉成功。
根据以上两点,我们可以总结出倒卖者存在性的判断依据了。
判据如下:
1. 隐写文件炸链
2. 【重点】文件随后可以申诉解封(这说明网盘方并不知情)
不过,仅仅是申诉成功并不能改善这个问题,只要文件还在举报池里,倒卖者下次运行脚本时又会违规。我们需要找到更有效且控制成本的办法。
为此我们需要尝试尽可能更深入地理解倒卖者的行为逻辑和技术路线,我们需要研究倒卖者本身才能找到突破口。
为了考察倒卖者的上述情况,我们收集了仓库中部分已证实存在倒卖者的投稿
[collapse title="已由试验证实存在倒卖者的投稿" show="true"]
1. 官能小说] [合集](2024/06/01 国际儿童日 个人纪念向收集的萝莉+官能小说 P站合集+个人收集长篇小说700本+大量短篇 [11.10GB(https://cangku.moe/archives/212100)
2. # 官能小说] [合集](2024/06/01 国际儿童日 个人纪念向收集的萝莉+官能小说 P站合集+个人收集长篇小说700本+大量短篇 [11.10GB(https://cangku.moe/archives/210844)
3. ## 官能小说] [合集](2024/03/01 国际海豹日(:3っ)∋补档) 个人纪念向收集的萝莉+官能小说 P站合集+个人收集1MB以上小说600本+大量短篇 [10.01GB(https://cangku.moe/archives/207678)
4. 官能小说] [合集] 个人四年收集官能小说 全XP合集6000+本 [3GB(https://cangku.moe/archives/204477)
5. [[官能小说] [合集] 电报群分享两万本小说](https://cangku.moe/archives/209500)
6. [[官能小说] 个人收集大合集 P站超全合集30000+本 加上大量细分tag分类 [2.7GB][补档第三次]](https://cangku.moe/archives/205342)
7. [[本子分享] [のり伍郎] 放課後、憧れの先輩に連れられてー|放學後、被憧憬的學姐帶走ー [中国翻訳] [無修正] [DL版]【自购】](https://cangku.moe/archives/212407)
8. [[本子分享] [のり伍郎] 今泉ん家はどうやらギャルの溜まり場になってるらしい A|今泉家似乎已經被辣妹們當成玩樂窩給徹底霸佔了A [中国翻訳] [DL版]【自购】](https://cangku.moe/archives/212408)
9. [[本子分享] [のり伍郎] 今泉ん家はどうやらギャルの溜まり場になってるらしい 1~5|今泉家似乎變成了辣妹聚會所了1~5 [中国翻訳] [無修正] [DL版]【自购】](https://cangku.moe/archives/212414)
10. 本子分享] [奥森ボウイ] 俺得修学旅行~男は女装した俺だけ!! [1-38完] [沒有漢化汉化组] [无修正(https://cangku.moe/archives/194334)
11. 本子分享] [文雅] 從順少女撫子 特裝版|従順ナデシコ [未來數位中文版] [DL版] [茄哩啡重嵌] [彩页无修正(https://cangku.moe/archives/211625)
12. 本子分享] [单行本] [葵井ちづる] イジワルコネクト(https://cangku.moe/archives/210569)
13. 杂志分享] COMIC BAVEL 2023年10-11月号 [中国翻訳] [無修正] [DL版(https://cangku.moe/archives/210863)
14. 杂志分享] COMIC BAVEL 2024年6-7月号 + COMIC BAVEL 100号記念画集 [官中无修正(https://cangku.moe/archives/212505)
15. 杂志分享] COMIC BAVEL 2024年4-5月号 [无修正] [官方中文(https://cangku.moe/archives/212013)
16. 杂志分享] COMIC BAVEL 2023年12月号-2024年3月号 [无修正] [官方中文(https://cangku.moe/archives/211802)
17. 杂志分享] COMIC BAVEL 2023年10月号 [中国翻訳] [無修正] [DL版(https://cangku.moe/archives/210862)
18. 杂志分享] COMIC BAVEL 2023年9月号 [中国翻訳] [無修正] [DL版(https://cangku.moe/archives/210506)
19. 杂志分享] COMIC BAVEL 2023年8月号 [中国翻訳] [無修正] [DL版(https://cangku.moe/archives/210505)
20. 本子分享] [桃月すず] なめたがり-就愛舔舔你v2 [無修正] [Momoduki Suzu] [净重343MB-毛重365MB(https://cangku.moe/archives/212624)
21. 本子分享] [桃月すず] あまえたがり|就是愛撒嬌 [中国翻訳] [無修正] [DL版] [净重195.41 MB-毛重202.07 MB(https://cangku.moe/archives/212641)
22. [[本子分享] [源] セフレのセンパイ|學姐是我的炮友 [無修正][Gen] [净重336.24 MB-毛重352.18 MB]](https://cangku.moe/archives/212642)
23. 本子分享] [loopsoft (愉月綴)] おいでませ♪サキュバスシェアハウス [無修正] [净重26.90 MB-毛重34.77 MB(https://cangku.moe/archives/212645)
24. 本子分享] [ぽきの家] めぐりめぐる輪廻のナカで 1 [無修正] [净重68.57 MB-毛重75.82 MB(https://cangku.moe/archives/212648)
25. 本子分享] [loopsoft (愉月綴)] おいでませ♪サキュバスシェアハウス [無修正] [净重26.90 MB-毛重34.77 MB(https://cangku.moe/archives/212645)
26. 本子分享] [桃月すず] あまえたがり|就是愛撒嬌 [中国翻訳] [無修正] [DL版] [净重195.41 MB-毛重202.07 MB(https://cangku.moe/archives/212641)
27. [[本子分享] [源] セフレのセンパイ|學姐是我的炮友 [無修正][Gen] [净重336.24 MB-毛重352.18 MB]](https://cangku.moe/archives/212642)
28. 本子分享] [綾枷家の猫 (綾枷ちよこ、綾枷りべり)]夏の神、ひとしずく [無修正] [净重23.26 MB-毛重30.49 MB(https://cangku.moe/archives/212643)
29. [[本子分享] [エアリーソックス] 彼女の犯したアヤマチ|她所犯下的錯誤 [中文] [無修正] [DL版]【自购】](https://cangku.moe/archives/212254)
30. [[本子合集][にぎりうさぎ]58本合集](https://cangku.moe/archives/203050)
31. 本子分享] [暴碧汉化组] [えーすけ] いたずらごころ3のおまけ(https://cangku.moe/archives/211337)
32. 杂志分享] COMIC BAVEL 2024年8月号 [官中无修正(https://cangku.moe/archives/212840)
33. [[本子分享][单行本][40010試作型] プロトタイプティーンズ [中国翻译][無修正]](https://cangku.moe/archives/209806)
34. [[本子分享][单行本][大嘘] JK・REFLE [中国翻訳] [無修正]](https://cangku.moe/archives/209841)
35. [[本子合集]大嘘M系足控本+其他丝袜足控本292本合集[9.43G][磁力&度盘&种子]](https://cangku.moe/archives/36595)
36. 本子分享] [らぼまじ! (武田あらのぶ)] 痴処女風紀委員のみんなに言えない淫靡なお願い 1-7 [無修正] [净重554.78 MB-毛重603.63 MB(https://cangku.moe/archives/213107)
[/collapse]
(下不到资源无法试验)
[collapse title="未证实但是高度疑似的投稿" show="true"]
1. 官能小说] 官能小说作者分类合集(344作者4593部作品)+未整理合集1w+合集 【7.93G】[22.06.22已补档(https://cangku.moe/archives/188146)
2. 书籍分享] [バパス] 究極のガチイキメソッド [メスイキラボ] [机翻] [pdf(https://cangku.moe/archives/210908)
3. [[游戏分享][合集]天堂巴比伦游戏分享(637个文件)[汉化]](https://cangku.moe/archives/197060)
4. [[小说分享][萝莉纯爱日轻合集] 自己整理的萝莉纯爱日轻小说(掺杂了一点后宫)](https://cangku.moe/archives/200251)
5. 纯爱小说] [0320本体已爆] 负防类小说分享 -第八弹(补档+附赠品)[txt(https://cangku.moe/archives/205009)
[/collapse]
完整的百度云链接炸链,但是插字加入干扰后的百度云链接存活,为疑似样本
[collapse title="疑似样本"]
1. 本子分享] [逆又練物] 借金返済バラエティ カラダで払いまShow! 第2回 (コミック Mate legend Vol.53 2023年10月号) [DL版] [个人翻译(https://cangku.moe/archives/212605)
[/collapse]
对上面的样本进行观察,我们可以很明显地观察到几个关键词:小说合集、无修正、自购
这几个关键词有可能就是倒卖者对于资源是否有价值的判断标准了(当然,肯定有例外)。
举例如下图所示,一个时间序列内的投稿,带有无修正资源字样的百度网盘全部炸链。
对于这个问题的深入分析还需要收集更多的样本数据,目前只是初步的结论。大家如果有证实的链接也可以告诉我,我会把它加到样本列表中。
倒卖者的举报能力可初步归纳如下:
1. 可以把隐写文件举报到相当于百度网盘封禁等级第二级(“文件违规根据相关法律法规予以屏蔽”)违规级别的定义见 这篇文章[2]
2. 可以举报所有国内网盘分享链接(包括但不限于百度、阿里云、天翼云、微云、迅雷盘等)、国外网盘(测试时共计被封禁 8 个小号,皆使用隐写文件+正常MP4文件完成,包括但不限于 Mega、Mediafire、Pixeldrain、Pikpak、Gofire、Modsfire 等传统或非传统意义上认为安全的外盘,workupload 暂时没有足够多的测试尚不明确),但是无法处理 IPFS[1] 、磁链[5, 7]、自建网盘[6] 等不会因为举报而封禁的分享方式。
3. 可以举报网盘分享账号本身使之封号,已经证实的有百度、Mega、MediaFire、Gofire、Modsfire、Pikpak等(百度需要违规次数达到一定数量才可以,不能凭空让人封号,其余外网盘则可以凭空让人封号)
那么倒卖者是如何转存文件的呢?倒卖者肯定有手动转存的时候,之前在官能小说合集时的试验可以证明。
但是各大资源站有如此多的投稿,还有众多评论区的传火,不可能每一个都手动查看,这样成本太高。
既然倒卖者能用爬虫进行举报,所以也可以合理怀疑,倒卖者也会使用爬虫监测特定关键词的投稿。
这个爬虫应该可以爬取符合条件的投稿及其下方评论区中的百度云分享链接,然后自动转存入举报池,等存够一定数量或者到计划时间后,运行举报爬虫,让所有当前举报池中的文件违规。
为了研究倒卖者的技术路线,我们需要考察这个爬虫的性能如何。
我们设计了几组对照试验来对此问题进行研究。
时间: 20240712-0030
投稿: [杂志分享] COMIC BAVEL 2024年6-7月号 + COMIC BAVEL 100号記念画集 [官中无修正](https://cangku.moe/archives/212505)
已知正常带提取码的链接会炸链,为了研究提取码对炸链的影响,本组试验分别设置了三种不同形式的链接,分别为插字式干扰、截断式干扰、以及推理式干扰。
然后我们来观察炸链情况:
可以看到,本组试验,第 3 号样本存活(3 号样本的实际提取码为 6667)
时间: 20240712-1730
投稿: # [[本子合集][にぎりうさぎ]58本合集](https://cangku.moe/archives/203050)
由试验 Y8-weigui 可知,人类可以轻松理解的推理式干扰可以防止链接炸链。此种情况下人工的可能性较低,推测为爬虫可能性较高。
基于上述情况,我们可以设计进一步的试验。采用网站常见的验证码来测试该爬虫的性能。
反爬处理分别为:数字截图识别、验证码识别、图片文本理解
小结一下,人类可以轻松理解的逻辑推理内容成功阻止了炸链,证明此投稿下大概率是倒卖者的爬虫。如此可以初步佐证一些疑问了,比如投稿发出后总是莫名其妙自动新增很多浏览量。
不过并不是所有投稿都没有人工,我们来看看下面的试验样本。
时间: 20240714
投稿: [杂志分享] COMIC BAVEL 2023年10月号 [中国翻訳] [無修正] [DL版](https://cangku.moe/archives/210862)
对于爬虫无法访问到的链接(比如上面试验里进行了反爬处理的情况),爬虫程序可能会“卡住”,提示此链接无法爬取,需要人工介入。
在本组试验中,我们可以发现,插字式反爬、截图式反爬、验证码式反爬、逻辑推理式反爬都没能阻止炸链,这证明此投稿大概率是人工操作。
另外一组试验 Y8-W 也证明了此结论:
试验时间:20240714
投稿: [[本子分享] [エアリーソックス] 彼女の犯したアヤマチ|她所犯下的錯誤 [中文] [無修正] [DL版]【自购】](https://cangku.moe/archives/212254)
根据对倒卖者举报行为规律的长期观察,目前我们倾向于认为其技术路线如下:
倒卖者平时会使用爬虫自动监视指定投稿下方的新增评论,然后解析其中含有百度云分享链接的内容并转存文件进入举报池账号,然后大致在每天晚上20点-21点左右运行举报爬虫依次攻击举报池中的文件。对于爬虫获取出现错误的情况,则会转由人工进行处理。
放入举报池的文件,失效大致超过 3 天,就会被移出举报池给其他文件腾地方(这个结论并没有大量试验数据的支撑,是我在进行申诉时发现的经验数值)。由于倒卖者是人类不是自然现象,所以这个值也不是一个确定的常数,而是一个分布函数,需要有一定量样本数据才能进行定式化。但是就目前而言,我个人倾向于这个时间大致在 3 天左右。
确定这个时间对于我们是很有用的,这意味着我们可以找到最合适的申诉时间——即在倒卖者把文件移出举报池以后,就是我们可以申诉的时候了。
如上图所示,我之前发出的 4 个投稿发生了炸链。此处我有意留了一个没有申诉,以此证明截图的时间顺序,现在这个链接应该也已经恢复了。
这里我们再提一下倒卖者存在性判据:
1-隐写文件炸链
2-炸链后可成功申诉
隐写文件炸链说明存在大量举报,文件可成功申诉说明网盘不知情。
只要满足上述 2 个条件,不需要等待申诉成功的文件二次炸链,也不必观察评论区其他评论是否炸链,只要文件申诉成功,即可判定必然是倒卖者所为。
申诉流程如下:
看到反馈成功这四个字,就说明申诉成功了
因此,假如要使用百度云进行分享,面对倒卖者我们可以采取如下应对手段:
1. 首先通过判据证实倒卖者的存在:隐写文件炸链后申诉成功。
2. 确定是倒卖者所为以后,分享使用文件夹进行,如有需要便于进行换源操作。
3. 文件炸链后等待 3 天左右,然后采用尝试分享的方式申诉文件,申诉成功后不急着分享,先观察文件一天,一天后再次检查是否违规,如果没有违规则说明已经被移出了举报池,否则需要继续等待。
4. 确认文件已被移出举报池后即可申诉分享链接,恢复链接可用性。申诉时不能改动链接里面的内容,比如改名或者移走文件夹中的违规文件,由于前后内容不一致,审核无法确认内容,会导致一直卡在审核的阶段,这样等同于申诉失败。
这样可以在不重新分享的情况下保住原本的链接,让倒卖者注意不到(也可以在申诉成功后悄悄换源,这样即使文件没有被倒卖者移出举报池也不会影响分享链接的二次存活,换源可以使用隐写者的哈希修改器工具修改文件的哈希值后再上传,不必重新隐写)。
需要说明的是,分享文件本身可以多次通过尝试分享的方式进行申诉,但是分享链接只有一次申诉机会,如果二次炸链,就需要重新分享了,示例如下:
但是上述情况仍有可能被倒卖者的爬虫扫描到,所以链接的提取码必须要有反爬措施,传统的插字反爬法对于大语言模型等 AI 工具加持的爬虫已经无效(关于此问题详见附录),但是基于文字识别+逻辑推理的验证码仍然有效。
我在 1.1.8 版的 隐写者软件 中提供了快速创建并复制验证码的扩展工具,可以使用这个工具创建具有反爬效果的验证码图片作为提取码,详情见图。
我们可以直接把百度云的提取码转换为验证码图片,或者让程序随机生成一个验证码来作为百度云的提取码。
点击复制文本可以复制验证码内容,点击复制图片则会把图片复制到剪贴版,方便 ctrl+v 进行粘贴。
我们除了可以直接使用这个验证码作为提取码,也可以如下生成 2 组验证码,然后进行逻辑推理式的反爬:
然后说:
【提取码为下列图片中第一个验证码的后半部分与第二个验证码的前半部分的组合,请倒着输入】
上图的答案是 PJ1B
也可以生成一排验证码然后选择其中的一个或一部分:
如上图,此时可以说:【请输入红色验证码的中间四位】(答案为【EIGS】),或者【请输入每个验证码的第一位字符组成 4 位提取码】(答案为【TCPL】)
以上只是示例,更多的逻辑反爬方式大家感兴趣可以自己探索,只需要思考人类容易完成,机器难以完成的方式即可。
像这样对于人类容易理解的问题,对于目前即使是多模态的模型都是很困难的。
对于纯视觉模型来说,最多可以识别出验证码的内容,但是无法进行逻辑推理,自然无法找到正确的答案;
而对于多模态大语言模型来说,可以进行逻辑推理,但目前大多数拼接多模态模型是很难识别正确的。
目前的原生多模态模型(自称)不多,GPT-4o 和 Claude 各算一个,但目前实际测试下来不管是 GPT-4o 还是 Claude-3.5 ,都无法准确得到答案,这两个不行,其他的模型也就不用看了,退一步说,即使今后有些 SOTA 模型能够实现这样的功能,由于任务包含了多模态图片文本识别理解 ,其成本也会变得不可控,这种反爬方法在今后可以预见的一段时间内应该都是有效的。
因此,这种链接必须由人工才能完成举报,在尽量不增加下载者获取资源的难度,以及分享传火者操作成本的情况下,增加倒卖者的举报成本,就是对抗倒卖者最直接有效的手段。
总结一下:
1. 必须用隐写文件,这意味着可以申诉,拥有可操作的空间;
2. 提取码应进行反爬处理,逼迫倒卖者必须人工处理链接,增加其成本;
3. 通过申诉保住链接然后悄悄换源,或者采用 二维码活码[4] 的方式分享,避免在评论区重新评论引起倒卖者的注意
本文通过分析和实验验证,尝试探讨了百度云平台上资源倒卖者的举报行为及其应对策略。研究结果表明,倒卖者采用的技术手段主要包括自动化爬虫和人工操作的结合,其举报能力涵盖了国内外多种网盘平台。
针对这一问题,本文提出了一套综合应对策略:
1. 隐写技术[3] 的应用已证明是对抗倒卖者举报的有效手段,能够为文件申诉提供可能性。
2. 基于文字识别和逻辑推理的提取码反爬方案能够显著提高倒卖者的操作成本,减少自动化举报的可能性。
3. 适时的申诉策略,结合隐写文件申诉换源、二维码活码分享[4] 的方法,可以在不引起倒卖者注意的情况下维持资源的可用性。
总的来说,本文为安全分享提供了一套可行的策略,为应对倒卖者恶意举报的问题提供了新的方法和策略。这些策略的组合应用不仅能有效降低资源炸链的风险,还能在一定程度上保护分享者的账号安全。不过,随着技术的不断发展,倒卖者的手段可能也会随之升级。因此,我们也需要持续关注,不断更新和改进防护策略,长驱鬼魅不休战。
为什么不建议使用传统的插字法反爬呢,因为插字法对于如今的大语言模型来说不起作用,比如以下是Claude的效果:
接下来我们使用大模型的API来简单尝试一下,比如最近比较火可以免费白嫖一个月的 DeepSeek:
可以看到,插字这种级别的干扰对于大模型来说没有用的。倒卖者由传统爬虫先获取评论,再用大语言模型就可以得到分享链接,然后就可以自动化地进行转存、分享、举报一条龙操作。并且一个包含百度云链接的评论,其 Token 数也不多,成本上是可以控制的。
我们可以注意到,实际上倒卖者的举报功率并没有达到其可以达到的上限,因为倒卖者其实可以设定举报仓库的每一个分享下面的分享链接,然后无差别地举报所有投稿,进行饱和式的类 ddos 攻击。
由于仓库的分享和网站本身无关,都是借助第三方平台,并没有办法进行针对性防御。爬虫获取分享链接以后,也不必立刻就举报,可以分批次等一段随机时间,这样就没有办法通过收集访问者信息的方式来定位到倒卖者的账号,并且倒卖者也很可能会使用多个账号分批轮流爬取。如此一来,最多几天时间,就可以让整个仓库投稿下方的百度云链接全部违规。
综上,这使得对于倒卖者的防御变得极其困难且隐患重重,假如仍要使用百度云,那么链接反爬势在必行。
[1] [技巧分享] IPFS分享资源快速上手及其适用场景浅议 [资源防炸链解决方案]
[2] [技巧分享] 网盘资源分享的几种安全级别、审核与举报,分享建议 [资源防炸链解决方案倡议]
[3] [工具分享] 隐写者:把资源嵌入MP4文件的隐写工具 [资源防炸链解决方案倡议&规避网盘审查技巧探讨]
[4] [技巧分享] 隐写文件误区及申诉补档建议、百度云批量申诉工具 [资源防炸链解决方案倡议]