搜狗问答内容来源
作者:shenmeng 发布时间:December 18, 2009 分类:默认分类
有时候搜索某个问题的时候,在Google的结果页面同时会有百度知道和搜狗问答的页面,打开两个页面会发现两个问题是一模一样的,这还好理解,可能是同一个人在两个地方同时问,但是通常是答案也是一模一样的,这个就让人感觉有些巧合了。前几次遇到,我还没怎么注意这回事,但是最近又遇到几次,我就决定看看这些到底是怎么回事。
我先从第一个相同问题下手,在搜狗中先进入提问者用户的个人中心,就能看到该用户所有的提问和回答,然后在百度知道中搜索同样的问题,基本都能搜到(因为太多了,我没有逐个尝试,其中有一个没找到的在搜搜问问中找到了),而且搜狗问答中的提问时间和解决时间都略晚于百度知道。然后看该用户的其他问题,很快就发现很多矛盾之处,地名矛盾的就不说了(说不定别人搬家了),单是性别、年龄、学历方面就多处矛盾,比如一个ID为“焦守银”的问题中有两个是:“我该怎样去告白 我喜欢上了一个女孩子,她是我和朋友聚会认识的 ……”(该问题在百度知道中没有找到,但在 搜搜问问中找到了,看来搜狗问答中问题来源不止百度知道一处);“我有乳房肿块已经有3 个月了 ……”。另外一个ID为“ufoorange”的有三个个问题是:“怎么对女朋友才好? 我原来经常摸我的女朋友……”;“该来月经了,为什么只有黄褐色的液体?上个月吃了紧急避孕药……”;“宝宝是个女孩,2008年8月6日上午9点38分出生,妈妈姓刘,爸爸姓徐,哪位高人帮忙下!谢谢”;第三个问题也太谱了吧,现在都2009年了,难道哪里流行出生一年后再取名?我觉得搜狗的采集机应该增加一条规则:不采集包含时间的条目。另外,“崔慧VS毛毛雨” 的ID 在一个月时间内回答总数将近1000条,专业答题人士啊。
这种ID应该不是实际的用户ID,而是采集器ID,暂时称为“机器人ID”。
找到一个“机器人ID”,还不足以说明问题,但基于以下几点就能搜出很多“机器人ID”:
- 同一个问题的提问者和回答者应该不同
- 为了保险起见,“机器人ID”提问的最佳回答应该是“机器人ID”的答案
- 为了保险起见,“机器人ID”回答的问题应该是“机器人ID”提出的
这样只需搜索第一个“机器人”的问题就能找到一连串的“机器人ID”。
以前还只知道小网站搞采集,搜狐也还算个大站吧,怎么也做这种事。
下面是一些截图:








已有 5 条评论 »
你有点猛,做市场调查吗,哈哈。。。。。。。。。。。。
总搜出一样的东西不爽,所以找了些,呵呵
早就曝光了,大家互相抄来抄去,所以百度也不提这壶,今天你抄我的,明天指不定我得抄你的。经常摸女朋友那个比较搞人……
这个我倒不知道,不过搜狗采集的也太多了点吧
换了一域名,麻烦更新下链接,呵呵
http://zpmaomao.com