Недавно встала необходимость спарсить из HTML документа все ссылки, не содержащие в себе атрибут rel=nofollow и не закрытые в noindex. Обычно, эти ссылки выглядят как то так: <noindex><a href=»http://wwwexample.com» rel=»nofollow»>текст ссылки</a></noindex> Задача, как может показаться тривиальная. И правда, отсечь можно простейшей регуляркой типа: <noindex.*?/noindex> Но вот nofollow заставил меня поломать голову. Для начала я решил что простой регулярки типа <a.*?nofollow.*?>.*?</a> Но на практике оказалось, что такой вариант, жадно съедает все между <a и /а> (пока не доберется до nofollow), если встречает ссылку не содержащую nofollow. Поискав на просторах интернета решение своей задачи, ни чего путного так и не нашел, пришлось немножко напрячь голову, чтобы придумать как сделать так, чтобы получить все ссылки, не содержащие этого атрибута. И вот что получилось в итоге: <[^nofollow]*href=\»([^\»]*)\»[^nofollow]*>.*?</a> Такая регулярка собирает все ссылки, не содержащие упоминания nofollow. Вот и все. Надеюсь это поможет сэкономить кому нибудь лишние час-полчаса личного времени, вместо того, чтобы гуглить и/или сидеть в раздумьях 🙂
Продолжить чтение