搜狗问答内容来源

作者:shenmeng 发布时间:December 18, 2009 分类:默认分类

有时候搜索某个问题的时候,在Google的结果页面同时会有百度知道和搜狗问答的页面,打开两个页面会发现两个问题是一模一样的,这还好理解,可能是同一个人在两个地方同时问,但是通常是答案也是一模一样的,这个就让人感觉有些巧合了。前几次遇到,我还没怎么注意这回事,但是最近又遇到几次,我就决定看看这些到底是怎么回事。

我先从第一个相同问题下手,在搜狗中先进入提问者用户的个人中心,就能看到该用户所有的提问和回答,然后在百度知道中搜索同样的问题,基本都能搜到(因为太多了,我没有逐个尝试,其中有一个没找到的在搜搜问问中找到了),而且搜狗问答中的提问时间和解决时间都略晚于百度知道。然后看该用户的其他问题,很快就发现很多矛盾之处,地名矛盾的就不说了(说不定别人搬家了),单是性别、年龄、学历方面就多处矛盾,比如一个ID为“焦守银”的问题中有两个是:“我该怎样去告白 我喜欢上了一个女孩子,她是我和朋友聚会认识的 ……”(该问题在百度知道中没有找到,但在 搜搜问问中找到了,看来搜狗问答中问题来源不止百度知道一处);“我有乳房肿块已经有3 个月了 ……”。另外一个ID为“ufoorange”的有三个个问题是:“怎么对女朋友才好? 我原来经常摸我的女朋友……”;“该来月经了,为什么只有黄褐色的液体?上个月吃了紧急避孕药……”;“宝宝是个女孩,2008年8月6日上午9点38分出生,妈妈姓刘,爸爸姓徐,哪位高人帮忙下!谢谢”;第三个问题也太谱了吧,现在都2009年了,难道哪里流行出生一年后再取名?我觉得搜狗的采集机应该增加一条规则:不采集包含时间的条目。另外,“崔慧VS毛毛雨” 的ID 在一个月时间内回答总数将近1000条,专业答题人士啊。

这种ID应该不是实际的用户ID,而是采集器ID,暂时称为“机器人ID”。

找到一个“机器人ID”,还不足以说明问题,但基于以下几点就能搜出很多“机器人ID”:

  1. 同一个问题的提问者和回答者应该不同
  2. 为了保险起见,“机器人ID”提问的最佳回答应该是“机器人ID”的答案
  3. 为了保险起见,“机器人ID”回答的问题应该是“机器人ID”提出的

这样只需搜索第一个“机器人”的问题就能找到一连串的“机器人ID”。

以前还只知道小网站搞采集,搜狐也还算个大站吧,怎么也做这种事。
下面是一些截图:








标签: none

已有 5 条评论 »

  1. 诗意小毛 诗意小毛 December 18th, 2009 at 10:18 pm

    你有点猛,做市场调查吗,哈哈。。。。。。。。。。。。

    1. admin admin December 18th, 2009 at 10:23 pm

      总搜出一样的东西不爽,所以找了些,呵呵

  2. Martin Martin December 18th, 2009 at 10:20 pm

    早就曝光了,大家互相抄来抄去,所以百度也不提这壶,今天你抄我的,明天指不定我得抄你的。经常摸女朋友那个比较搞人……

    1. admin admin December 18th, 2009 at 10:24 pm

      这个我倒不知道,不过搜狗采集的也太多了点吧

  3. 诗意小毛 诗意小毛 December 21st, 2009 at 09:37 am

    换了一域名,麻烦更新下链接,呵呵
    http://zpmaomao.com

添加新评论 »

captcha
请输入验证码