Skip to content

Latest commit

 

History

History

luoo.net

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 

时间:20170319 20:35-23:35

内容:从落网爬取某个专辑的歌曲内容,并下载到本地

笔记:

  1. json.dump如果有中文,默认是转义成ascii码表示的\uXXXX的,显式指定ensure_ascii=False才能把中文编码为utf8写入文件
  2. BeautifulSoup.find返回的字符串是unicode的str
  3. BeautifulSoup(html, 'html.parser')如果html已经是unicode了(例如把BeautifulSoup.find的返回值作为html参数),那么后续find就会失败,需要html.encode('utf8')
  4. BeautifulSoup.find(tag, attrs={'class': 'classname'})比正则表达式提取html中的标签,特别是通过属性过滤标签很方便