Последние твиты...

  •  

Очистка класов и ид в Html средствами Php

Автор: Ilekor | Категория: Программинг | Опубликовано: 14-04-2010

3

Писал на днях парсер сайтов, в программинге я не спец но кое что умею, также я упертый и если чего не получается. Бьюсь до конца пока не получу желаемого. Так вот, писал писал и вот дошел до момента когда я получаю тело HTML-документа, указываю необходимые параметры для обработки исходного кода функцией

$content = strip_tags($content,"<h1>,<h2>,<h3>,<h4>,<h5>,<h6>,<p>,<b>,<strong>,<br>,<hr>,<ul>,<li>");

Вот надо было найти решение для очистки всего лишнего, дабы получился чистый HTML

Вот решение которое мне подсказали на всем известном форуме Серч

<?
$content = "<a href=''>324124</a><br><div class='dsfa'>asdfasdf</div><input type='submit'><form action='x.php'><table id='ddd'></table></form>";
 
$content = preg_replace('/(<(?!(a|form|input))[^\s>]+)(\s[^>]*)?/ism','$1', $content);
 
print $content;
?>

Пользуйтесь…

Комментарии: (3)

Мне знать все не обязательно, если чего не знаю, знаю где спросить или кому заплатить. Для себя базово знаю, скрипты пишу исключительно для развлечения и то для себя. Как сказал Ендрю Карнеги “Если я чего не знаю, знают другие.”

Учи регулярки, без них парсингом заниматься едва стоит :)
С помощью них не только классы и идентификаторы убирать можно….

Оооо, спасибо, очень нужный код.

Оставить комментарий

Перед отправкой формы: