RE 匹配pdf URL地址

import re
str = """
    <script language='javascript' type="f9d183f87da800c789dfdf6d-text/javascript">location.href='https://www.agialpress.com/articles/cellular-mechanisms
-of-oestrogen-in-breast-cancer-development.pdf';</script><script src="https://ajax.cloudflare.com/cdn-cgi/scripts/7089c43e/cloudflare-static/rocket-loader.min.js" 
data-cf-settings="f9d183f87da800c789dfdf6d-|49" defer=""></script>

"""

regular = re.findall('(http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+pdf)|([a-zA-Z]+.w+.+[a-zA-Z0-9/_]+pdf)',str)

如果是匹配url地址则用

regular = re.findall(r"(http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+)|([a-zA-Z]+.w+.+[a-zA-Z0-9/_]+$)",str)

我唯一的害怕,是你们已经不相信了——不相信规则能战胜潜规则,不相信学场有别于官场,不相信学术不等于权术,不相信风骨远胜于媚骨,在这个怀疑的时代,我们仍然要有信仰,信仰努力而不是运气,这个世界虽然不够纯洁,但我仍然相信它还不能埋没真正有才华的人
原文地址:https://www.cnblogs.com/wyh0923/p/13953856.html