怎样提取百度网盘某一个网页的文件列表

背景:

自己有一个文件列表放在百度网盘,想要提取这个文件列表贴到word文档里。

方法:

直接打开对应页面,右键保存成Html网页

然后用beautifulsoup解析即可

步骤:

1、打开百度网盘的某一页

2、右键保存成文件

3、用beautifulsoup解析

4、解析,并输出文件列表

所有代码

from bs4 import BeautifulSoup

with open("百度网盘-全部文件-tensorflow.html", 
          "r", encoding='utf8') as fin:
    html_doc = fin.read()

soup = BeautifulSoup(html_doc, 'html.parser')

soup.title

titles = []
for node in soup.find_all("div", class_="file-name"):
    link = node.find("a")
    if link and link.text and link.text.endswith(".mp4"):
        titles.append(link.text)
print("\n".join(
    [x.replace(".mp4", "").replace(" ", "") 
     for x in sorted(titles)])
)