实用过滤规则 - xfgryujk/TiebaManager GitHub Wiki

过滤广告规则实例(201703310934更新)(弃坑)


积累的新版规则实在太多了,加交流群243559340
去群文件里直接下载导出的xml文件。。
实在无力更新这个列表了。


广告们也是在进化的,所以同一种广告的规则也是在变化的,发现过滤不了,过来看看是不是规则更新了。

  • 标签含义

  • 【自动】实际测试误伤很少,可以不用手动确认直接挂机删帖,规则可以不勾选“强制确认”

  • 【手动】实际测试会有一定误伤,最好删帖前进行手动确认,规则推荐勾选“强制确认”以免误伤

  • 【正则】 这是一条正则规则,需要勾选“正则表达式”

  • 【普通】这是一条普通规则

  • 【违规内容】【屏蔽用户】【信任内容】规则使用位置

警告:即使有【自动】标签,首次在某贴吧使用该规则时也要先勾选“强制确认”确认不会有误删再使用!

17.【违规内容】【自动】【正则】假名+汉字的回复

 17

^[\u3040-\u30FF][\u4e00-\u9fa5]

16.【违规内容】【自动】【正则】过滤试图通过html注入绕过检测的内容

 16

&<.*?>#x?[A-Za-z0-9]+;

15.【违规内容】【自动】【正则】过滤试图通过转义绕过检测的内容

 15

(&#x?[A-Za-z0-9]+;){5,}

14.【违规内容】【自动】【正则】过滤用换行和---间隔数字的广告

 14

(<br>-{5,20}[0-9\u2460-\u2468]){8,11}

13.【违规内容】【自动】【正则】使用t.cn或百度网盘链接的广告

 13

(看|合|女|福|日).*?(本|片|集|优|忧|利).*?(http:\/\/(t\.cn)|(pan\.baidu\.com))
男(.*?)人\1.*?http:\/\/t\.cn
日.*?本*?http:\/\/t\.cn

12.【违规内容】【自动】【正则】过滤用符号间隔汉字的广告

 买盘广告

检测单个汉字后加2~3个符号并且这样连续出现4次以上。

([\u4e00-\u9fa5][,。、;|?!]{2,3}){4,}
可能有误删风险,请先勾选强制确认,检测无问题后再取消强制确认。

11.【违规内容】【自动】【正则】过滤使用Emoji表情写微信号QQ号等的广告

 Emoji表情广告0  Emoji表情广告1

图一是手机端等支持Emoji表情的显示效果,图二是电脑等不支持Emoji表情的显示效果

过滤的是给文字加边框的字符\u20e3,

第一个规则是只过滤数字,第二个是过滤字母+数字,请根据自己吧内情况选用

[0-9]\u20e3
[A-Za-z0-9]\u20e3

10.【违规内容】【自动】【正则】过滤最近的表情间隔广告

 表情间隔广告1  表情间隔广告2

用了下回溯引用,目前有这种回复有四个版本,所以规则是四条

(进|近|点)(.*?)(姐|我)\2看\2(B|b|片|逼|屄)\2?
(进|近|点)(.*?)姐\2头\2(降|像|象)\2看\2(B|b|片|逼|屄|币|比|毕|必|碧|吡|簧)\2?
看(.*?)(B|b|片|逼|屄|币|簧|穴|币|比|毕|必|碧|吡)\1(进|近|点)\1(姐|我)\1?
看(.*?)片\1→

下边这条有勿删可能,但更加通杀,可以在加了前三条后,将下边一条设置为强制确认防止广告更改格式。 (看|点|进|近|dian|kan|jin)(<img .*?emoticon\d{2}.png" > )[A-Za-z\u4e00-\u9fa5]\2[A-Za-z\u4e00-\u9fa5]\2[A-Za-z\u4e00-\u9fa5]\2?

9.【违规内容】【自动】【正则】过滤最近的诱导点击广告

诱导点击广告

[\u4e00-\u9fa5][;、?,。!|][A-Za-z0-9]\r?$
[\u4e00-\u9fa5][A-Z0-9]{0,2}[;、|][A-Za-z0-9]?\r?$
[\u4e00-\u9fa5] ?[[A-Za-z0-9]]\r?$

注意:这个规则里第三个会有轻微的误删问题,比如“是这样的Y”“一会儿上Q”“网卡 1”也会被删,

实测半个月里有千分之二的误删率,请结合你所在吧情况使用(比如游戏和硬件吧,例子中的回复并不是很少)

如果确实误删较多可将最后那条规则勾选强制确认使用。

8.【违规内容】【自动】【正则】过滤恶心的霸屏泰文字符

霸屏特符

只过滤六种常见特符

(\u0e47|\u0e49|\u0310|\u05a5|\u031D|\u0598){4,}

过滤全部泰文

[\u0E00–\u0E7F]{4,}

过滤某开源鬼畜字符生成器使用的符号范围

[\u0300-\u0308]{4,}
[\u0344-\u0362]{4,}
[\u1AB0-\u1ABD]{4,}
[\u1DC2-\u1DFF]{4,}
[\u20D0-\u20EF]{4,}
[\u101FD-\u1D1AD]{4,}
[\uE0100-\uE01EF]{4,}
[\uFE00-\uFE2D]{4,}

7.【违规内容】【自动】【正则】过滤所谓激情视频QQ群广告

利用他们图片虽然内容一直在变,但是永远都是一样的两张266X233或者360X240图片过滤

激情视频QQ群广告

width="266" height="233".*?width="266" height="233"

width="360" height="240".*?width="360" height="240"

width="235" height="234".*?width="235" height="234"

width="533" height="800".*?width="533" height="800"

6.【屏蔽用户】【自动】【正则】过滤安迪注册机默认格式注册的马甲

利用某款安迪注册机默认马甲都是这格式

(.*?)(安廸|安迪|AIA)(.*?)

5. 【违规内容】【手动】【普通】过滤带签名档回复

利用签名档图片尺寸过滤

width="500" height="200"

4. 【违规内容】【自动】【正则】过滤语音回复广告

本来一般发语音的就少,发了语音还写字的更少,写字还写超过6个字的更少。
目前使用一个月未见误伤
PS:懒得把html代码里全部字符转义,用了个.{5}匹配,轻拍。

下载贴吧客户端发语音.{5}<br\/>.{6,}
.{6,8}"<div class="voice_player voice_player_mini voice_player_lzl">

3. 【违规内容】【自动】【正则】过滤一系列在签名档上宣传某色情站的广告(图片种类挺多,不一一举例)

签名档广告1

利用百度对新签名档图片需要审核,但对于已审核通过的图片不再审核会直接通过的机制,
发广告的只能长时间用同一个网址链接的图片做签名档广告。
PS:为了省地方这里只过滤了图片地址的最后10~12位

ebf81b4ca36b\.jpg|8a136227cc03\.jpg|9e510eb30910\.jpg|b9389a506bf9\.jpg

33b5ab5b9be\.jpg|d100bba12b4c\.jpg|4fc2d4626912\.jpg|a46f01fabd7\.jpg

510eb3090f\.jpg|02087af4f4b5\.jpg|950342ab050\.jpg|a0ec0afac7c0\.jpg

d224d4ade99\.jpg|5bb5c9eab82d\.jpg|9c82d0584f7e\.jpg|c315d607cbf\.jpg

918fa1ecc0ce\.jpg|3fbf2b2118b39\.jpg|4aed2f73e714\.jpg|319ebc413fa\.jpg

794a4c22673\.jpg|0923dd54752e\.jpg|81cb38db3dd6\.jpg|3cc7cd99ecc\.jpg

0cf3d7cad61c\.jpg|1bd5ad6e399b\.jpg|d539b600bc3b.jpg|cec3fdfc03231f\.jpg

d345982811d\.jpg|162d9f2d3c937\.jpg

2. 【违规内容】【自动】【正则】借贷广告2

借贷广告2

利用连续发送2~3张同样尺寸图片过滤 代码过滤的是重复2次及以上(≥2次)

(<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/[^\s]*.jpg" width="\d{3}" height="\d{3}" size="\d{6}">)\1{1,}

1. 【违规内容】【自动】【正则】借贷广告1

借贷广告

利用回复内容有发帖时间过滤

\d{4}年\d{1,2}月\d{1,2}日\d{1,2}时\d{1,2}分\d{1,2}秒

⚠️ **GitHub.com Fallback** ⚠️