Re: 如何抓出网页的歌词

水木社区手机版

展开|楼主|同主题展开|溯源|返回

主题:Re: 如何抓出网页的歌词
javame|2021-03-29 12:56:17|
bs4我只会一些基本的用法，我的代码是这样写的。

# -*- coding: UTF-8 -*-

html = '''<div class="sp">[ti:让你感觉我的心再说爱你] [ar:彭家丽] [al:新曲＋精选]
 [offset:0] [00:01.51]让你感觉我的心再说爱你 - 彭家丽 [00:23.90]不愿
说别离我紧紧拥着你 [00:28.57] [00:29.57]让你听见我的心在偷偷的叹息
 [00:35.50] [00:36.19]过去所有的回忆我会放在我心里 [00:41.80] 
[00:42.68]我会永远为你而美丽 [00:48.35] [00:49.23]不愿道别离我紧紧吻着
你 [00:54.59] [00:55.47]吻干你的忧郁你的泪滴 [01:01.52]在每个深沉夜
里每一个梦里 [01:07.95]我会用我的真心好好爱你 '''

from bs4 import BeautifulSoup as bs
soup = bs(html,'html.parser')
lrc = soup.find('div',attrs={'class':'sp'})
print(lrc.text)

然后输出的数据是一行的中间没有换行，因为歌词文本还是有点长度的，能否利用迭代的方法，或者用生成器yield来整理出歌词？

[ti:让你感觉我的心再说爱你][ar:彭家丽][al:新曲＋精选][offset:0][00:01.51]让你感觉我的心再说爱你 - 彭家丽[00:23.90]不愿说别离我紧紧拥着你[00:28.57][00:29.57]让你听见我的心在偷偷的叹息[00:35.50][00:36.19]过去所有的回忆我会放在我心里[00:41.80][00:42.68]我会永远为你而美丽[00:48.35][00:49.23]不愿道别离我紧紧吻着你[00:54.59][00:55.47]吻干你的忧郁你的泪滴[01:01.52]在每个深沉夜里每一个梦里[01:07.95]我会用我的真心好好爱你

------------------

正常的歌词应该是这样的，还应该如何处理啊？

[ti:让你感觉我的心再说爱你]
[ar:彭家丽]
[al:新曲＋精选]
[offset:0]
[00:01.51]让你感觉我的心再说爱你 - 彭家丽
[00:23.90]不愿说别离我紧紧拥着你
[00:28.57][00:29.57]让你听见我的心在偷偷的叹息
[00:35.50][00:36.19]过去所有的回忆我会放在我心里
[00:41.80][00:42.68]我会永远为你而美丽
[00:48.35][00:49.23]不愿道别离我紧紧吻着
你[00:54.59][00:55.47]吻干你的忧郁你的泪滴
[01:01.52]在每个深沉夜里每一个梦里
[01:07.95]我会用我的真心好好爱你

【在 poocp (慢速随机指标) 的大作中提到: 】
: 看你陆陆续续问的这些内容，你目前的需求就是网络爬虫嘛。
: 与其这么一点点的问问题，不如自己先大概了解一下网络爬虫的概念，以及开发常用的语言和库，这些早都是10多年前就很成熟的技术了，没必要走弯路。
: [code=bash]
: ...................
--
修改:javame FROM 116.231.61.*
FROM 116.231.61.*