看你陆陆续续问的这些内容,你目前的需求就是网络爬虫嘛。
与其这么一点点的问问题,不如自己先大概了解一下网络爬虫的概念,以及开发常用的语言和库,这些早都是10多年前就很成熟的技术了,没必要走弯路。
echo '<!DOCTYPE html>
<html> <head> <meta charset="utf-8"> </head><body>
<div class="sp">[ti:让你感觉我的心再说爱你]<br/>[ar:彭家丽]<br/>[al:新曲+精选]<br/>[offset:0]<br/>[00:01.51]让你感觉我的心再说爱你 - 彭家丽<br/>[00:23.90]不愿说别离 我紧紧拥着你<br/>[00:28.57]<br/>[00:29.57]让你听见我的心 在偷偷的叹息<br/>[00:35.50]<br/>[00:36.19]过去所有的回忆 我会放在我心里<br/>[00:41.80]<br/>[00:42.68]我会永远为你而美丽<br/>[00:48.35]<br/>[00:49.23]不愿道别离 我紧紧吻着你<br/>[00:54.59]<br/>[00:55.47]吻干你的忧郁 你的泪滴<br/>[01:01.52]在每个深沉夜里 每一个梦里<br/>[01:07.95]我会用我的真心好好爱你<br/>
</div></body> </html>' | xmllint --html --xpath "//div[@class='sp']/text()" - | sed '/[0-9]\{2,\}\]$/{N;s#\([0-9]\+\]\)\n\(\[\)#\1\2#;}'
[ti:让你感觉我的心再说爱你]
[ar:彭家丽]
[al:新曲+精选]
[offset:0]
[00:01.51]让你感觉我的心再说爱你 - 彭家丽
[00:23.90]不愿说别离 我紧紧拥着你
[00:28.57][00:29.57]让你听见我的心 在偷偷的叹息
[00:35.50][00:36.19]过去所有的回忆 我会放在我心里
[00:41.80][00:42.68]我会永远为你而美丽
[00:48.35][00:49.23]不愿道别离 我紧紧吻着你
[00:54.59][00:55.47]吻干你的忧郁 你的泪滴
[01:01.52]在每个深沉夜里 每一个梦里
[01:07.95]我会用我的真心好好爱你
【 在 javame 的大作中提到: 】
: 就是<br/>换行的地方有点麻烦,bs4搞的话,会有点问题。我现在用正则绕开了,先把重要数据抓下来再说。
: 现在版权抓的厉害,没准以后下lrc歌词也要付费了。
: 反复搜了一下,原来这首歌曲的版权是索尼音乐的。
※ 修改:·poocp 于 Mar 29 00:41:11 2021 修改本文·[FROM: 222.212.168.*]
※ 来源:·水木社区
http://www.newsmth.net·[FROM: 222.212.168.*]
修改:poocp FROM 222.212.168.*
FROM 222.212.168.*