因工作需要,需要采集html,并把html内容保存到数据库中。为了避免影响使用,宽高样式需要删除。例如图片和div中的width, height等。
不过采集到的html中,样式的写法各有不同,例如大小写,中间有空格等。
因此使用php正则编写了下面这个方法,对这些奇葩的样式进行过滤。
/**
* 清除宽高样式
* @param String $content 内容
* @return String
*/
function clear_wh($content){
$config = array("width", "height");
foreach($config as $v){
$content = preg_replace("/".$v."\s*=\s*\d+\s*/i", "", $content);
$content = preg_replace("/".$v."\s*=\s*.+?["\"]/i", "", $content);
$content = preg_replace("/".$v."\s*:\s*\d+\s*px\s*;?/i", "", $content);
}
return $content;
}
演示
输出结果: