木舟| 信息采集与安全（第三单元） | 2022年暑期“二次学习微视频”06

（建议在WIFI环境下观看）

PPT及讲稿

今天这个视频我们主要学习《信息技术》教材第三单元“数据处理与应用”的相关内容，具体是数据的采集与安全。

当今社会，信息技术开始渗透至人类生活的方方面面，随之而产生的数据量也是呈指数级增长的态势。在第一章“数据与大数据”中，我们曾经提到过大数据处理需要经过四个步骤：1.数据采集；2.数据预处理；3.数据分析；4.数据挖掘应用。

也就是说，数据采集是数据处理的第一步。其实，在当今社会，数据采集的方法很多，比如我们可以通过“问卷调查”，可以通过对需要了解的问题设计问卷，以书面或者电子版本的形式，向相关人群发放。在目前的很多小课题研究中，这还是一种常用的方式；当然也可以根据问题解决的需要，向相关企业寻求支持，让他们提供相关的数据；当然，目前传感数据采集也是一种很常见的方式，传感数据是由传感器设备收集和测量的数据，传感设备可穿戴在用户身上，也可设置在现实环境中。比如有些同学佩戴有电子手环，它就可以适时采集个人的心率、运动步数等相关数据。通过设置，这些适时数据可以发送到相应的数据接收端，如您的手机等。其实，我们在本章重点强调的是另外一种数据采集方式，即互联网数据采集。互联网采集数据是指利用互联网搜索引擎技术实现有针对性、行业性的数据抓取，并按照一定规则和筛选标准进行数据归类，并最终形成数据库文件的一个过程。

我们也可以这样理解，比如这是一个我们找到的关于天气的网页，我们想让这些天气信息形成右边这样的数据库格式的表格文件。要实现这一过程，方法也有很多。

比如最原始的，人工获取，我们需要1.打开网页；2.选中并复制、黏贴数据；3.保存文件。当时这种方式存在“效率低、容易出错”的弊端。

所以，我们这里所指互联网数据采集一般是指“数据抓取”，采用这样的方式有三个步骤：获取网页、解析网页和保存数据。

获取网页的工作主要是获取网页的源代码，我们要了解，我们日常所看到的网页文件本质上都是用HTML语言编辑的，这种语言称为“超文本标记语言”，从右边这个图中大家可以看到，源代码中包含有这种<html></html>,标识着网页文件的开始和结束，<title>和</title>中间的部分是指网页的标题，这些就称为“标记”，当我们对这些内容了解之后，就可以清楚网页文件中相关内容的位置。当然，获取源代码的关键是构造一个请求并发送给服务器，然后在接收到服务器的响应后将它解析出来。

Python语言提供了许多库可以帮助我们实现这个操作。比如Requests库能够让我们很方便地发送HTTP请求。得到响应后只需要解析数据结构中的相关内容，就可以根据我们的需要获得网页的源代码。这样我们就可以用程序来实现获取网页的过程。

Requests库是Python语言的一个第三方库，在使用前需要使用PIP命令进行安装，在具体程序中使用时还需要用“import requests”这样的代码进行导入，并且我们一般使用Requests库的GET方式获取网页数据。接下来我们用一个例子简单介绍一下。

在这个样例中共有6行语句。第1行就是“导入requests库”；第2行是“将要获取的网址作为字符串赋值给url变量”，同时这里的变量URL作为第4行GET方式的一个参数；第3行是“构造请求头”，也就是从哪里开始获取数据，同时这里的变量PRE也作为第4行GET方式的一个参数；第4行就是用requests库的GET方式获取网页数据；第5行指明了编码的方式；第6行表示“输出所获取的网页源代码内容”。

通过Requests库抓取到网页源代码后，我们需要从源代码中找到并提取数据。而这时我们需要用到Python另外一个功能很强大的库，就是Beautiful Soup库，其主要功能是从网页中抓取数据。使用之前也是要先安装，并导入程序。目前因为Beautiful Soup库已经被移植到了bs4这个库中，所以导入的语法是：From bs4 import BeautifulSoup，具体的使用样例我们不再介绍，大家可以参考教材第85页的相关内容。

当我们已经获取了网页，并且对网页进行了解析，需要将抓取的数据存储到本地文件中，可以用这样的几行语句。其中这里的“tianqi.txt”是我们取得保存到本地的“文件名（或保存内容的地址）”，这样通过程序，我们就可以在自己的计算机中产生这样一个获取到的网页数据文件。

我们刚才主要介绍了互联网数据采集的相关方法和知识，现在我们简单总结一下。无论采用哪种方式开展数据采集，我们其实都需要遵循这样的过程，也就是：在数据采集之前，要明确我们采集数据的要求。第二是确定数据采集的来源，然后是选择采集数据的方法，最后是实施数据采集。这个过程我们称为数据采集的一般流程。

无论是采集到的数据还是其它的数据，在信息时代，我们要有数据安全和保护的意识。我们接下来简单探讨一下数据保护与安全的相关内容。

首先我们来看一下哪些重要数据需要安全防护？在当今社会，我们经常听到关于个人信息外泄的事件，那么就个人而言，个人敏感信息（如基因、耳廓、指纹等）和个人隐私信息（如身份证号、手机号、家庭地址等）这些对于每个人来说都是很重要的，需要保护好尽量不外泄。

其实，不仅仅是个人隐私数据，在复杂的信息应用环境之下，企业机密数据、保障国家重要数据等的不发生外泄，是当前数据安全和首要任务。

那么如何保护数据安全呢？

为了保护数据安全，我们还需要在提高数据安全意识的同时，在技术层面上提升数据安全的防护水平。方式有很多，第一种方式就是“数据加密”。

数据加密是计算机系统对数据进行保护的一种较为可靠的办法。对需要保护的数据（也称为明文），利用加密算法和加密秘钥转化成为另外一种数据（也称为密文）。我们接下来介绍一种古老的加密方法，帮助大家理解这些概念。

这个加密方法称为“凯撒加密法”，我们将26个英文字母首尾相连形成一个圆，然后大圆套小圆，随机转动其中的一个圆，当稳定后可以发现，26个英文字母的对应位置错位了。

比如这里W->A,E->I等。如果我们有一个引文单词“HELLO”，在外围的字母圆盘上找到这个单词，而将其每一个字母在里面的圆盘上找到对应的字母。经过这样的一一对应查找，我们就可以得到一个新的字母组合，即这里的“LIPPS”。

我们再来观察这两个字母圆盘，由“HELLO”到“LIPPS”，单词中的每一个字母相对于原来的位置向后移动了4位。

以此为例，我们就可以解释前面的概念，在这里“HELLO”就是明文，“LIPPS”就是密文，而这里的“每一个字母向后移动4位”就可以称作加密方法。这里的关键字母“4”就可以称为秘钥。由此大家就可以试着理解数据加密的过程。

在当今时代，我们所处理的都是一些作为信息载体的数字，加密的方法一直在改进，越来越复杂。但数据加密的基本思想并没有太大的改变。

第二种数据安全防护的方法是“数据备份”，顾名思义，这种方式是要求人们对系统的数据或一部分关键数据通过一定的方法从主计算机的存储设备中复制到其他存储设备中。一旦数据丢失，可以从备份数据处进行恢复。当然，数据备份往往需要定期定时进行，以保证数据保持相对新的状态。

还有一种数据保护方式是“数据脱敏”，即在不影响数据分析结果准确性的前提下，对需要保护的数据进行一定的操作，如替换、过滤和删除等。如此处显示的图中，我们将电话号码的中间4位、姓等关键信息用“*”号进行了替换，以保护用户的隐私不被泄露。

还有一种数据安全保护的方式是“异地容灾”。对于一些非常重要的数据，人们在相隔较远的地方，可能是不同的城市、地区等，建立两套或多套功能相同的计算机系统，相互进行数据备份或应急时提供备用。当某处的系统因不可抗力因素（如火灾、地震、战争等）的原因导致无法提供服务时，就可以用另外一套不同地区的系统快速替换上。

还有一种常用的数据保护的方式是“访问控制”。在一些计算机系统中，涉及各类服务的使用、文件的访问、数据的存取时，需要按照规定对部分数据获得管理权限，从而做到被授权人允许使用特定的信息。

如我们进入特定的学习网站，需要按照规定输入用户名、密码等信息，获得授权后才可以访问相应的数据文件等。

总之，这些数据安全防护其实包含两类，一类是数据本身的安全。如前面所讲的数据加密、数据脱敏和访问控制；另一类是采用现代信息存储手段对数据进行主动保护，也就是数据防护的安全，如数据备份、异地容灾等。

同学们，数据处理与应用已经贯穿我们生活与学习的方方面面，我们在学习和应用中，既要掌握相应的数据采集技术，也要有相应的数据安全意识。在遵守相关法律法规、尊重知识产权的前提下，有效地采集和保护数据是进行数据处理和应用的基础。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。