一、基础知识
(一)什么是蜘蛛
搜搜引擎蜘蛛是一个自动抓取互联网上网页内容的程序,每个搜索引擎都有自己的蜘蛛。也叫搜索引擎爬虫
1. 百度蜘蛛:baiduspider
2. 谷歌蜘蛛:Googlebot
3. 搜狗蜘蛛:sogou spider
4. 360搜索:360Spider
5. 必应:msnbot
6. 搜搜:sosospider
一般日志工具会帮我们自动识别
(二)http状态码
1. 超文本传输协议(HTTP-Hypertext transfer protocol)
是一种详细规定了浏览器和万维网服务器之间互相通信的规则,通过因特网传送万维网文档的数据传送协议。
2. HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码
3. “2”形状
(三)主要的网站开发技术
1. 主题:PHP,标准模式lamp
常用的cms系统:织梦dedecms、phpcms、帝国cms
网店系统:ecshop
2. Asp
多见于一些简单的模板式企业站,也有少数功能比较齐全的
3. 其他:例如Jsp、asp.net等。
(四)静态、伪静态、动态
1. 动态页:
A. 动态页面实际上并不是独立存在于服务器上网页文件,只有
2. 静态页:静态网页是实际存在的,无需经过服务器的编译,直接加载到客户浏览器上显示出来——多数网站都实现了静态化
A. 静态页一般以html.htm结尾,一般不包含?= 等特殊数
补充知识:URL优化
URL也就是网址,url应该是网站和栏目创建之初就设置好的,当大量收录产生之后,URL优化就失去价值了。
URL优化的基本要求
1. URL尽可能短
2. 有一定的可读性(对中文没有多大用处,因为无法添加声调,会产生很大的分歧)
3. 静态化
目前百度百科、知道、文库等大量产品使用动态url,这就说明是否静态化在优化上已经设有什么实质性的区别,但是静态url不是有着诸多好处,例如易识好记、页面易操作性等。
1. title中的最后的网站名使用简称
2. 在其他地方使用过的关键词,就不要在其他栏目中使用相同的关键词,节省资源。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。