织梦DedeCMS的过滤规则写起来不是很难,规则如下:
代码示例:
{dede:trim}要过滤的内容{/dede:trim}
如果要过滤的内容很简单,完全可以把过滤规则直接写在”{dede:trim}”和”{/dede:trim}”之间。
对于比较复杂的情况,请考虑使用正则,你懂的,正则表达式,那是相当强劲的。
以下是一些过滤规则的例子,供大伙参考。
1 | 采集中去除内容里的超链接:
代码示例:
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
假如要将所有超链接内容都去除,规则是:
代码示例:
{dede:trim}]*)>([^<]*){/dede:trim}
这两个规则的不同通过下面代码来解释
例如文章代码中包含着如下内容:
通过第一个规则,采集结果是:超链接
2 | 过滤广告
对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如
代码示例:
这样的规则只需
代码示例:
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
如果某些广告的内容是JS代码写在区间里的,例如GG的广告,那么过滤规则应该是:
代码示例:
{dede:trim}(.*){/dede:trim}
3 | 一些测试过的过滤规则
代码示例:
{dede:trim}{/dede:trim}{dede:trim}]*)>([^>]*){/dede:trim}{dede:trim}]*)>([^>]*){/dede:trim}{dede:trim}]*)>{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}]*)>{/dede:trim}{dede:trim}]*)>([^>]*){/dede:trim}{dede:trim}]*)>{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}]*)>([^>]*){/dede:trim}{dede:trim}]*)>{/dede:trim}//by www.liuzhongwei.com//{dede:trim}{/dede:trim}{dede:trim}]*)>([^>]*){/dede:trim}{dede:trim}]*)>{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}]*)>([^{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}]*)>([^<]*){/dede:trim}{dede:trim}]*)>{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}]*)>([^>]*) {/dede:trim}{dede:trim}]*)>{/dede:trim}{dede:trim} {/dede:trim}{dede:trim}]*)>([^>]*) {/dede:trim}{dede:trim}]*)>{/dede:trim}{dede:trim} {/dede:trim}{dede:trim}]*)>([^>]*){/dede:trim}{dede:trim}{/dede:trim}{dede:trim}{/dede:trim} // 内容来自www.liuzhongwei.com//{dede:trim}]*)>([^>]*)
{/dede:trim}{dede:trim}]*)>{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}]*)>{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}{/dede:trim}{dede:trim}(.*){/dede:trim}{dede:trim}{/dede:trim}{dede:trim}{/dede:trim}