零代码编程：用ChatGPT提取新闻网站上的文本

现在国内的新闻网站上，乱七八糟的广告和其他不相干内容太多。

怎么能批量提取出新闻标题和正文呢？

GeneralNewsExtractor（GNE）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。借助GEN这个Python库，就可以很轻松的实现提取新闻内容的任务。

在ChatGPT中输入如下提示词：

写一段Python代码，实现提取新闻网站上文本的任务。具体步骤如下：

用户输入一个新闻页面的URL，获取URL；

用gne库（GeneralNewsExtractor）来提取标题和主体内容；

提取内容保存到d盘的excel文件中，excel文件标题为News，新闻标题标题放在第1列，新闻内容放在第2列；

程序运行后，显示错误信息：

403 Forbidden

You don't have permission to access the URL on this server.

denied by UA ACL = blacklist

求助于ChatGPT，回复如下：

看起来你遇到了403禁止访问的错误。这可能是因为目标网站的服务器拒绝了你的请求。这通常是因为服务器检测到了Python请求的User-Agent，认为这是一个爬虫或自动化工具。

你可以尝试在请求中伪装成一个常见的浏览器User-Agent，这样服务器可能就不会阻止你的请求了。以下是修改后的代码：

输入一篇网易新闻： https://www.163.com/news/article/I6QD90N400019K82.html

程序运行后，结果如下：

文本提取的准确度比较高，可以满足要求。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。