bs4我只会一些基本的用法,我的代码是这样写的。
# -*- coding: UTF-8 -*-
html = '''<div class="sp">[ti:让你感觉我的心再说爱你]<br/>[ar:彭家丽]<br/>[al:新曲+精选]
<br/>[offset:0]<br/>[00:01.51]让你感觉我的心再说爱你 - 彭家丽<br/>[00:23.90]不愿
说别离 我紧紧拥着你<br/>[00:28.57]<br/>[00:29.57]让你听见我的心 在偷偷的叹息
<br/>[00:35.50]<br/>[00:36.19]过去所有的回忆 我会放在我心里<br/>[00:41.80]<br/>
[00:42.68]我会永远为你而美丽<br/>[00:48.35]<br/>[00:49.23]不愿道别离 我紧紧吻着
你<br/>[00:54.59]<br/>[00:55.47]吻干你的忧郁 你的泪滴<br/>[01:01.52]在每个深沉夜
里 每一个梦里<br/>[01:07.95]我会用我的真心好好爱你<br/>'''
from bs4 import BeautifulSoup as bs
soup = bs(html,'html.parser')
lrc = soup.find('div',attrs={'class':'sp'})
print(lrc.text)
然后输出的数据是一行的中间没有换行,因为歌词文本还是有点长度的,能否利用迭代的方法,或者用生成器yield来整理出歌词?
[ti:让你感觉我的心再说爱你][ar:彭家丽][al:新曲+精选][offset:0][00:01.51]让你感觉我的心再说爱你 - 彭家丽[00:23.90]不愿说别离 我紧紧拥着你[00:28.57][00:29.57]让你听见我的心 在偷偷的叹息[00:35.50][00:36.19]过去所有的回忆 我会放在我心里[00:41.80][00:42.68]我会永远为你而美丽[00:48.35][00:49.23]不愿道别离 我紧紧吻着你[00:54.59][00:55.47]吻干你的忧郁 你的泪滴[01:01.52]在每个深沉夜里 每一个梦里[01:07.95]我会用我的真心好好爱你
------------------
正常的歌词应该是这样的,还应该如何处理啊?
[ti:让你感觉我的心再说爱你]
[ar:彭家丽]
[al:新曲+精选]
[offset:0]
[00:01.51]让你感觉我的心再说爱你 - 彭家丽
[00:23.90]不愿说别离 我紧紧拥着你
[00:28.57][00:29.57]让你听见我的心 在偷偷的叹息
[00:35.50][00:36.19]过去所有的回忆 我会放在我心里
[00:41.80][00:42.68]我会永远为你而美丽
[00:48.35][00:49.23]不愿道别离 我紧紧吻着
你[00:54.59][00:55.47]吻干你的忧郁 你的泪滴
[01:01.52]在每个深沉夜里 每一个梦里
[01:07.95]我会用我的真心好好爱你
【 在 poocp (慢速随机指标) 的大作中提到: 】
: 看你陆陆续续问的这些内容,你目前的需求就是网络爬虫嘛。
: 与其这么一点点的问问题,不如自己先大概了解一下网络爬虫的概念,以及开发常用的语言和库,这些早都是10多年前就很成熟的技术了,没必要走弯路。
: [code=bash]
: ...................
--
修改:javame FROM 116.231.61.*
FROM 116.231.61.*