Очистка класов и ид в Html средствами Php
Автор: Ilekor | Категория: Программинг | Опубликовано: 14-04-2010
3
Писал на днях парсер сайтов, в программинге я не спец но кое что умею, также я упертый и если чего не получается. Бьюсь до конца пока не получу желаемого. Так вот, писал писал и вот дошел до момента когда я получаю тело HTML-документа, указываю необходимые параметры для обработки исходного кода функцией
$content = strip_tags($content,"<h1>,<h2>,<h3>,<h4>,<h5>,<h6>,<p>,<b>,<strong>,<br>,<hr>,<ul>,<li>");
Вот надо было найти решение для очистки всего лишнего, дабы получился чистый HTML
Вот решение которое мне подсказали на всем известном форуме Серч
<? $content = "<a href=''>324124</a><br><div class='dsfa'>asdfasdf</div><input type='submit'><form action='x.php'><table id='ddd'></table></form>"; $content = preg_replace('/(<(?!(a|form|input))[^\s>]+)(\s[^>]*)?/ism','$1', $content); print $content; ?>
Пользуйтесь…


Мне знать все не обязательно, если чего не знаю, знаю где спросить или кому заплатить. Для себя базово знаю, скрипты пишу исключительно для развлечения и то для себя. Как сказал Ендрю Карнеги “Если я чего не знаю, знают другие.”
Учи регулярки, без них парсингом заниматься едва стоит
С помощью них не только классы и идентификаторы убирать можно….
Оооо, спасибо, очень нужный код.