比如a目录下有100个html。提取这100个html文件名和对应的title标签里的文字,然后保存到txt里。类似这样 1.html 全球主机论坛 2.html 百度 3.html 网易复制代码
自己写了个小爬虫,通过浏览器抓取,奈何文件太多。效率太低。在ssh里能实现吗?
江苏省网友说:ls grep awk应该可以搞定
台湾省网友说:可以使用grep和sed命令来提取文件名和对应的title标签里的文字,并使用循环来遍历所有的html文件。 以下是一个可能的Shell脚本示例: #!/bin/bash # 定义保存结果的文件名 result_file=”titles.txt” # 清空文件内容 > $result_file # 遍历a目录下的所有html文件 for file in a/*.html do # 提取文件名 filename=$(basename “$file”) # 提取title标签里的文字 title=$(grep -oP ‘(?<=
湖南省网友说:我的chatgpt网页这会打不开。。