时间:20170319 20:35-23:35
内容:从落网爬取某个专辑的歌曲内容,并下载到本地
笔记:
json.dump
如果有中文,默认是转义成ascii码表示的\uXXXX
的,显式指定ensure_ascii=False
才能把中文编码为utf8写入文件BeautifulSoup.find
返回的字符串是unicode的strBeautifulSoup(html, 'html.parser')
如果html已经是unicode了(例如把BeautifulSoup.find
的返回值作为html参数),那么后续find就会失败,需要html.encode('utf8')
BeautifulSoup.find(tag, attrs={'class': 'classname'})
比正则表达式提取html中的标签,特别是通过属性过滤标签很方便