数据价值-DataValues

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 557|回复: 0

【内容采集】-SEM插件使用说明

[复制链接]

1万

主题

1万

帖子

3万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
39797
发表于 2016-8-10 13:46:03 | 显示全部楼层 |阅读模式
一、数据采集整合模块(任务面板)





新建采集




选择采集点击右键



填写对应内容



各项填写规则

任务名:新建采集任务的名称,保存后可以日后调用。

搜索引擎/网站:需要采集的搜索引擎或者网站的名称
URL:需要采集的搜索引擎或者网站地址栏中的URL(如果搜索引擎包含搜索识别参数例如:www.baidu.com/s 中的 s)
关键词参数:需要采集的搜索引擎关键词参数标记 例如:http://www.baidu.com/baidu?wd=%CB%D1%CB%F7&tn=monline_4_dg中的wd
采集位名称:为采集内容取一个名称
采集位配置:填写XPAHT路径 具体内容可以参考http://www.w3school.com.cn/xpath/ 或在群内,论坛中寻求帮助
采集位类型:
完整的字段
包含
1、GatherType:
search-采集搜索结果内容,site-采集特定网站内容,file-采集本地HTML文件内容,relative-采集搜索,推荐搜索内容

2、Accept:一般为 */*



3、Referer:一般和搜索引起同名
4、UserAgent:根据浏览器
5、Domain:一般和搜索引起同名
6、Cookies:从浏览器工具中获得。

一般只需要 填写GatherType内容
如无法采集到结果再考虑填写完整的




采集设备:desktop或mobile 桌面或者移动设备
采集位内容:InnerText,或者属性名称,Suggest(暂不可用)
采集深度:0,1,2
关键词:搜索的关键词
关键词备注:一般不填写

搜索引擎中各参数可能变化请根据实际情况填写

填写完成后一定记住保存以便下次使用





选择对应任务 点击运行
因为需要访问网络EXCEL可能会有卡顿或失去相应请等待任务完成。











本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|手机版|DataValues ( 赣ICP备16006919号-3 点击这里给我发消息 DataValues

GMT+8, 2019-2-19 21:43 , Processed in 0.110640 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表