打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
零代码编程:用ChatGPT提取新闻网站上的文本
userphoto

2023.06.09 广东

关注

在国内的新闻网站上,乱七八糟的广告和其他不相干内容太多。

         

怎么能批量提取出新闻标题和正文呢?

GeneralNewsExtractor(GNE)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。借助GEN这个Python库,就可以很轻松的实现提取新闻内容的任务。

在ChatGPT中输入如下提示词:

写一段Python代码,实现提取新闻网站上文本的任务。具体步骤如下:

用户输入一个新闻页面的URL,获取URL;

用gne库(GeneralNewsExtractor)来提取标题和主体内容;

提取内容保存到d盘的excel文件中,excel文件标题为News,新闻标题标题放在第1列,新闻内容放在第2列;

程序运行后,显示错误信息:

403 Forbidden

You don't have permission to access the URL on this server.

denied by UA ACL = blacklist

Powered by Tengine CDN Request Id: a3b5179f16863107904525739e

求助于ChatGPT,回复如下:

看起来你遇到了403禁止访问的错误。这可能是因为目标网站的服务器拒绝了你的请求。这通常是因为服务器检测到了Python请求的User-Agent,认为这是一个爬虫或自动化工具。

你可以尝试在请求中伪装成一个常见的浏览器User-Agent,这样服务器可能就不会阻止你的请求了。以下是修改后的代码:

输入一篇网易新闻: https://www.163.com/news/article/I6QD90N400019K82.html

程序运行后,结果如下:

文本提取的准确度比较高,可以满足要求。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
chatGPT如何批量回答
一日一技:Prompt逆向工程,破解小红书文案生成器
揭秘MiniGPT
GPT4简直离谱,我一个连代码都不懂的人,用它做出了这些!
微博正文
关键词营销与搜索引擎优化、搜索引擎营销
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服