打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
(转载)博客园 - elqy - 知识管理系统分析之一:网络蜘蛛的分析

作为知识管理中最核心的部分,知识采集器无疑具有着非常重要的作用,是我们所有工作和服务的基础,在这一部分我们就我们的系统根据我们的需求进行分析。
   先来看一下我们的采集器都作了哪些工作?

和普通的爬虫一样,需要实现给一个入口的网页地址,那么它能够自动的进行地址的分析和解析,并逐一的对地址进行请求并获取内容。获取后可以保存起来。

首先,就拿获取来说,我们的爬虫是针对特定站点服务的,所以我们在这里第一步实现页面的抓取,这是核心类。在此基础上我们需要对该类进行进一步的包装。包装之后­就可以根据我们提供的站点列表中进行抓取,并且抓取的时候按照我们定义的规则进行抓取。举个例子,我们定义只一些正则表达式,根据匹配的进行进行获取。并且这种­匹配我们期望是可以进行嵌套的。

其次,是我们的存储工作,抓取为我们的提供了内容,那么如何进行这些内容的存储呢?因为在我们的存储直接关系到我们未来的检索。在这里需要考虑到系统的运行会导­致知识库内容的大量增加,如果仅使用单一的数据库肯定无法满足需要,所以,在存储的时候,我们需要考虑到采用分区表,甚至是分布式数据库的应用,只有这样才能够­缓解我们的数据存储和查询的压力。因为我们的产品毕竟不像是BI那样需要对数据进行分析,对我们来说前期的数据组织是非常重要的。在这里我们有Oracle和S­QL
SERVER 2005两种选择,这里我们选择SQL SERVER 2005。
   好了,采集器做了三种工作。

第一,获取网页,第二,分析网页,第三,存储网页。

我们在获取的时候需要编写核心类或者组件,便于我们以后应用在其他的方面,所以我们把获取的规则这部分扩展出来,可以外部的进行规则定义。

在分析网页这部分,可以进行分析的定义,这样我们可以保证在抓取的时候去掉我们不需要的部分。而且我们必须保证我们的分析可以进行多次的调用分析。

在存储页面时需要考虑的是进行分布式的存储,这就要求我们存储时进行自动化的存储,根据一定的规则逻辑存储到不同的服务器上面。

上面就是我们对网络蜘蛛的分析,基于上面这些分析,我们就对系统中的知识采集器有了明确的认识。更为具体的设计我将会在以后的过程中陆续跟进。

posted on 2006-01-03 10:59 像猪一样生活 阅读(732) 评论(7)  编辑 收藏 收藏至365Key 所属分类: 知识管理

评论

# re: 知识管理系统分析之一:网络蜘蛛的分析 2006-01-03 12:47 蜡人张
关注,一直想做一个spider,可是没时间。
  

# re: 知识管理系统分析之一:网络蜘蛛的分析 2006-01-04 09:08 知识管理
继续关注
  

# re: 知识管理系统分析之一:网络蜘蛛的分析 2006-01-04 12:20 蜘蛛侠
一直就对搜索引擎很兴趣,最好能有一些搜索算法和搜索程序架构的介绍就好了,关注中……
  

# re: 知识管理系统分析之一:网络蜘蛛的分析 2006-01-05 11:54 marrabech
类似的产品,两年前我做过,系统的架构和你这个差不多。lan内部使用的还是自己写的web server,在权限和数据加密上面作了很多工作。投入市场的时候却失败了。不知道你这个产品是个人玩玩还是公司项目。
  

# re: 知识管理系统分析之一:网络蜘蛛的分析 2006-01-05 13:02 像猪一样生活
谢谢大家的关注,这些东西早就有了构思了,现在只是我已经有了demo之后才写出来的,大家注意到了,我这里是知识管理系统,整个的架构参见我的另外一篇文章。
另外,权限和数据加密的确是知识系统中的一个关键环节。
最初的初衷是想方便自己。但现在所有的demo都已经有了,剩下的只是重构了。
这个项目我是以一个项目或者产品的性质开发的。因为打算以后自己或者和朋友开个公司。
  

# re: 知识管理系统分析之一:网络蜘蛛的分析 2006-01-06 14:32 leves
rss 变相或者部分地实现了这些功能.并且是一个大家都遵守的标准,它具有将信息推出来的能力,并且有简单的信息分类.接下来就是对rss 信息的分析和保存
http://leves.cnblogs.com/archive/2005/12/13/296107.html
  

# re: 知识管理系统分析之一:网络蜘蛛的分析 2006-01-06 15:49 陈叙远
搞个google或者baidu的桌面搜索算了,顶多在上面二次开发一下。知识管理的核心在实施上。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
一项知识管理产品设计
经常说的数据仓库,是如何存储数据的
IBM发布面向大数据的软件定义存储技术
数据仓库系统
知识图谱构建
写给不了解网络工程师的和想学习网络工程师的人
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服