一、项目概述
通过设置关键词,网络爬虫采集来自各门户网站、博客、微博、论坛、贴吧、评论
等新闻载体的新闻标题、内容、时间、作者、网址、以及回复率、点击率、转帖率
等;用户点击后跳回目标网站相关页面。可按照网站、博客、微博、论坛、贴吧等
某类信息源进行对某个关键词或某几个关键词进行检索。检索后的结果按照要求插
入数据库。
二、性能指标
千万级搜索结果在4小时内完成检索及信息处理。并发的任务数量在10个以上。
保证搜索数据的全面性、准确性、时效性。
1. 全面性:指对网络信息的获取要尽量做到全面,不漏掉有价值的信息。需要监
控的站点主要分布于主流媒体、门户网站、资讯平台、知名论坛、微博、博客、贴
吧等网络载体中。
2. 准确性:指已经获取到的网络信息形形色色、要对信息做进一步筛选,将最焦
点的、最常用的、最需要的、最关注的舆情信息做相应的分类展示,方便下一步工
作。
时效性:指舆情信息的第一时间获取、第一时间分析、第一时间展示。
三、接包方必备的条件
1. 有相关项目经验(重要),熟悉常见网络爬虫及搜索,页面信息抽取等技术。
对产品设计有很深的理解。
2. 开发及测试周期:15天。周期结束后需要提交测试后的软件。要求接包方时间
相对灵活,沟通方便。
3. 最好有成功案例,可以试用。
4. 所使用的编程语言应是当前成熟高效常用语言,软件代码应简洁、高效且注释
详细准确,在windows xp以上系统平台上能够稳定运行,兼容性好。
5. 交付的软件,不能有致命Bug、后门、恶意代码等。
6. 提供全套完整的源代码。
如果您有意向合作,可加QQ:304023963(请注明网络爬虫+外包网的名称),或留下您的联系方式。详细功能和所需插
入的数据库我方可另提供。非诚勿扰!谢谢!
接包方 | 国家/地区 | |
---|---|---|
![]() ![]() |
3
Andylaufzf
|