廿-爬URL以及分词情绪分析初步设想

1.爬网络页面链接

其实是想捉取大量 网络内容 以对以后建立 情绪 爬虫作为 样本 ,设想就是不断把所有网络 可读取页面 都抓下来。

以一个 数据库 下设两个 保存

dbPage
  |
  |-- tbReusablePage
  └-- tbCrawledPage

其中表格 字段 设置如下:

tbCrawledPage:
{
  'url': {string} with index //页面URL
  'd':{integer} d for depth //页面深度,即是有多少个 '/'
  'ced':{boolean} for crawled //是否已经抓取
  'jed':{boolean} for judged //是否已经判断
  't':{date} for time //何时存入
}

tbReusablePage:
{
  'url': {string} with index //页面URL
}

每隔一段时间从 重用页面库 (tbReusablePage) 爬一次,把捉取结果分析出对象页面所有的 <a>指向页面,并保存到 已捉取页面库 (tbCrawledPage)

爬取重用页面()

爬已爬取页面()

定期清除过期的已爬页面()

对 重用页面库 所有页面进行捉取

设定时任务 ( 爬取重用页面() )

从 已捉取页面库 中随机找出数十个未爬的页面

更新这些页面在 已捉取页面库 的状态

捉着这些页面所有 <a> 的链接

放入数据库()

设定时任务 (爬已爬取页面() )

清除超过一定深度以及放入时间距今超过数个月的页面

设定时任务 (定期清除过期的已爬页面() )

此程序仅为不断 自我调用 的捉取网站的页面链接并 保存,仅供以后判断时做 样本 用。

2.情绪分析助手

暂时还没决定如何写,先看看通过哪些来实现,然后看看这些 能做什么和怎么做,输出结果如何再想下一步。

比较简单的 样本存储 数据库设定如下:

dbSample
  |
  └-- tbSample

其中 tbSample 字段设置如下:

tbSample:
{
  'ct': {text} ct for content //样本内容
  'e':{integer} e for emotion //情绪是什么,从-1、0、1,理论上0为不作处理,即无价值
  'cf':{boolean} for confirm //是否经人工确认
}