- 主题:如何写这个正则表达式
很可能只是因为他们手里只有这一把锤子,所以看谁都像钉子。
【 在 appleII (vv) 的大作中提到: 】
:
: 复杂不复杂因人因问题而异,但总想着所有问题都靠正则表达式解决的人,我同意你的结论
:
: 【 在 Madlee (无竹居士) 的大作中提到: 】
--
FROM 222.64.17.*
找个html解析器,正则不适合干这种事
【 在 mbdbk 的大作中提到: 】
: 请问如何从一堆<td></td> 标签中提取出自己想要的信息。比如 PREV_CLOSE-value=127.85 多谢!
:
: <td class="C($primaryColor) W(51%)" data-reactid="95"><span data-reactid="96">Previous Close</span></td>
: ...................
--
FROM 106.120.201.*
把span标签全部用程序删掉,然后再正则就简单多了
【 在 mbdbk 的大作中提到: 】
: 请问如何从一堆<td></td> 标签中提取出自己想要的信息。比如 PREV_CLOSE-value=127.85 多谢!
:
: <td class="C($primaryColor) W(51%)" data-reactid="95"><span data-reactid="96">Previous Close</span></td>
: ...................
--
FROM 124.17.27.*
各有利弊,re在这个应用里确实有点难受,不过实用性会更普遍些。、
【 在 Madlee 的大作中提到: 】
: 一直觉得喜欢复杂正则的人有受虐倾向。
: 那么多好用的工具,为啥非要用正则。
--
FROM 222.65.163.*
正则表达式的代码好写啊,就那么几个字母
至于用什么匹配,上论坛问,上网搜就可以了,降大部分劳动转移出去
【 在 appleII (vv) 的大作中提到: 】
: 复杂不复杂因人因问题而异,但总想着所有问题都靠正则表达式解决的人,我同意你的结论
--
FROM 119.131.204.*
就你这个例子的话,伪代码
prev_close-value"><span[^<>]*>([^.*])<
有空格自行处理
【 在 mbdbk 的大作中提到: 】
: 请问如何从一堆<td></td> 标签中提取出自己想要的信息。比如 PREV_CLOSE-value=127.85 多谢!
:
:
: ...................
--
FROM 223.104.42.*
“那么多好用的工具”无非就是xml,jq那一套。。。。
遇到垃圾标签不配对的网站没一个靠谱的
我正则半分钟写出来了。。。用那些破玩意非得吭哧吭哧foreach,也不知道哪个受虐了
【 在 Madlee (无竹居士) 的大作中提到: 】
: 一直觉得喜欢复杂正则的人有受虐倾向。
: 那么多好用的工具,为啥非要用正则。
--
FROM 114.242.94.*
是啥啊。。。。你回的那个人八成要用更复杂的方案。。。。
查找替换也是用re更容易啊
我一般直接 re.sub(r'<[^>]+>', '', html) 就完事了
【 在 callmebbser (BBSer) 的大作中提到: 】
是啊,这么有规律的字符串,一通查找替换,把不要的替换成空,剩下的就是所要的,
多简单啊。
【 在 Madlee (无竹居士) 的大作中提到: 】
: 一直觉得喜欢复杂正则的人有受虐倾向。
: 那么多好用的工具,为啥非要用正则。
--
FROM 114.242.94.*
re,xml解析了半天发现网页超级不规范,一群class啥的一样的标签,还套了不知道多少层.....
【 在 wincss (wincss) 的大作中提到: 】
: “那么多好用的工具”无非就是xml,jq那一套。。。。
: 遇到垃圾标签不配对的网站没一个靠谱的
: 我正则半分钟写出来了。。。用那些破玩意非得吭哧吭哧foreach,也不知道哪个受虐了
: ...................
--
FROM 111.202.234.*
直接用浏览器抓啊,playwright、puppeteer 都有 py 的版本,不规范也不至于 chrome 都打不开吧?
【 在 fhd (疯了!) 的大作中提到: 】
: 标 题: Re: 如何写这个正则表达式
: 发信站: 水木社区 (Thu May 13 15:10:45 2021), 站内
:
: re,xml解析了半天发现网页超级不规范,一群class啥的一样的标签,还套了不知道多少层.....
:
: 【 在 wincss (wincss) 的大作中提到: 】
: : “那么多好用的工具”无非就是xml,jq那一套。。。。
: : 遇到垃圾标签不配对的网站没一个靠谱的
: : 我正则半分钟写出来了。。。用那些破玩意非得吭哧吭哧foreach,也不知道哪个受虐了
: : ...................
:
: --
:
: ※ 来源:·水木社区 newsmth.net·[FROM: 111.202.234.*]
--
FROM 122.59.183.*