搜狗问答内容来源

作者:shenmeng 发布时间:December 18, 2009 分类:默认分类

有时候搜索某个问题的时候,在Google的结果页面同时会有百度知道和搜狗问答的页面,打开两个页面会发现两个问题是一模一样的,这还好理解,可能是同一个人在两个地方同时问,但是通常是答案也是一模一样的,这个就让人感觉有些巧合了。前几次遇到,我还没怎么注意这回事,但是最近又遇到几次,我就决定看看这些到底是怎么回事。

我先从第一个相同问题下手,在搜狗中先进入提问者用户的个人中心,就能看到该用户所有的提问和回答,然后在百度知道中搜索同样的问题,基本都能搜到(因为太多了,我没有逐个尝试,其中有一个没找到的在搜搜问问中找到了),而且搜狗问答中的提问时间和解决时间都略晚于百度知道。然后看该用户的其他问题,很快就发现很多矛盾之处,地名矛盾的就不说了(说不定别人搬家了),单是性别、年龄、学历方面就多处矛盾,比如一个ID为“焦守银”的问题中有两个是:“我该怎样去告白 我喜欢上了一个女孩子,她是我和朋友聚会认识的 ……”(该问题在百度知道中没有找到,但在 搜搜问问中找到了,看来搜狗问答中问题来源不止百度知道一处);“我有乳房肿块已经有3 个月了 ……”。另外一个ID为“ufoorange”的有三个个问题是:“怎么对女朋友才好? 我原来经常摸我的女朋友……”;“该来月经了,为什么只有黄褐色的液体?上个月吃了紧急避孕药……”;“宝宝是个女孩,2008年8月6日上午9点38分出生,妈妈姓刘,爸爸姓徐,哪位高人帮忙下!谢谢”;第三个问题也太谱了吧,现在都2009年了,难道哪里流行出生一年后再取名?我觉得搜狗的采集机应该增加一条规则:不采集包含时间的条目。另外,“崔慧VS毛毛雨” 的ID 在一个月时间内回答总数将近1000条,专业答题人士啊。

这种ID应该不是实际的用户ID,而是采集器ID,暂时称为“机器人ID”。

找到一个“机器人ID”,还不足以说明问题,但基于以下几点就能搜出很多“机器人ID”:

  1. 同一个问题的提问者和回答者应该不同
  2. 为了保险起见,“机器人ID”提问的最佳回答应该是“机器人ID”的答案
  3. 为了保险起见,“机器人ID”回答的问题应该是“机器人ID”提出的

这样只需搜索第一个“机器人”的问题就能找到一连串的“机器人ID”。

阅读剩余部分...

php 备份mysql (2)

作者:shenmeng 发布时间:December 13, 2009 分类:默认分类

用php备份的数据库文件,可以打包然后发送到邮箱保存。
这里压缩用了一个创建zip文件的类,CreateZipFile (你可以直接复制该文件,保存为CreateZipFile.inc.php)

//压缩备份文件,使用CreateZipFile类压缩成zip文件
include_once("CreateZipFile.inc.php");
$createZipFile=new CreateZipFile;
$fileContents=file_get_contents($backup_file . ".sql");
$createZipFile->addFile($fileContents, $backup_file . ".sql");

//如果压缩文件失败,直接发送未压缩文件
$this_mail_file = $backup_file . ".sql";
if(!($fd=fopen($backup_file . ".zip", "wb"))){
    echo "打开压缩文件失败,将直接发送未压缩文件<br />";
}else{
    if($out=fwrite($fd,$createZipFile->getZippedfile())){
        fclose($fd);
        echo "压缩文件成功<br />";
        $this_mail_file = $backup_file . ".zip";
    }
}

阅读剩余部分...

php 备份mysql (1)

作者:shenmeng 发布时间:December 13, 2009 分类:默认分类

用php备份数据库成 *.sql ,输出成和mysqldump一样的文件,原理就是逐条取出数据,然后按照mysqldump文件格式写入文本。定义一个将单独数据表导出成字符串的函数,传入表名称,返回字符串:

阅读剩余部分...

网站自动备份

作者:shenmeng 发布时间:December 10, 2009 分类:默认分类

网站备份还是挺重要的,有的控制面板提供自动备份功能,若没有就只好自己写了。备份主要是文件和数据库,将他们打包。如果存到别的主机,就还要用ftp传输。下面是我的备份脚本:
1、备份数据库和文件并打包
数据库备份:

db_user='user'
db_pass='pass'
db_name='--all-databases'
mysqldump -u $db_user -p$db_pass $db_name >backup.sql

$db_user , $db_pass ,$db_name 分别是数据库用户名、密码和数据库名称。
备份整个数据库时db_name为--all-databases
打包数据库和文件:

file_dir='/home/www'
backup_date=`date +%Y%m%d`
tar -zcf sql$backup_date.tgz backup.sql
tar -zcf file$backup_date.tgz $file_dir
tar -cf all$backup_date.tar sql$backup_date.tgz file$backup_date.tgz

$file_dir为要打包的目录
$backup_date取得当前日期(放入文件名中以区别不同时间的备份文件)
后三步分别为打包数据库、打包文件、将二者一起打包。

阅读剩余部分...

换了burstnet vps

作者:shenmeng 发布时间:December 2, 2009 分类:默认分类

teamvps一个月就要到期了,不准备再用了,其实用起来还可以,价钱也不算太贵,但是由于是个新公司,感觉有些不可靠。换成现在的burstnet的vps ,比teamvps便宜,配置稍差点,不过有两个IP,速度稍慢些,ping速在200多ms,比teamvps多大概30ms ,之前在网上听人说burstnet在美国东海岸,速度会很慢,我觉得还不错,之前犹豫了很久才决定买这款,ixwebhosting价钱便宜,支持支付宝,但是速度很慢,在我这里ping他们的demo,速度在400ms以上,我怀疑买这么便宜,肯定超卖。在几个比较出名的主机上中,就觉得lunarpages较快,但价钱也不便宜,比我这vps还贵。

我是昨天下午付的款,今天系统就好了,进默认的vePortal面板一看,vePortal面板基本什么功能都没有,而且系统也是没装什么软件,只装了个apache。看见网上有人说用nginx很省资源,看了看centos的源里没有nginx ,要自己编译(也可以从fedora的源里下载),感觉太麻烦了。还是用apache吧,等哪天感觉系统资源紧张再换吧。安装php和mysql都很简单。直接三个命令就行了:

yum -y install php
yum -y install mysql
yum -y install php-mysql

然后开启mysql服务,重启apache

/etc/init.d/mysqld start
/etc/init.d/httpd restart

安装时系统自动配置好了,不需要修改配置文件就可以使用。
另外将apache , mysql加入自启动,可以修改/etc/rc.d/rc.local文件,加入以下几行:

/etc/init.d/mysqld start
/etc/init.d/httpd start

如果有多个域名,就需要设置apache的virtualhost ,我还特意去图书馆借了本apache的书,其实这个也简单。
假设有四个域名,两个ip(10.0.0.1和10.0.0.2),每个ip分配两个域名,则可以这样设置(将代码添加到/etc/httpd/conf/httpd.conf 文件末尾)。
DocumentRoot是网站主目录。最后几行是开启各目录中.htaccess文件的override功能。

ServerName 127.0.0.1
NameVirtualHost 10.0.0.1
NameVirtualHost 10.0.0.2
<VirtualHost 127.0.0.1>
        ServerName site1.com
        DocumentRoot "/home/www/site1"
</VirtualHost>
<VirtualHost 127.0.0.1>
        ServerName site2.com
        DocumentRoot "/home/www/site2"
</VirtualHost>
<VirtualHost 127.0.0.2>
        ServerName site3.com
        DocumentRoot "/home/www/site3"
</VirtualHost>
<virtualHost 127.0.0.2>
        ServerName site4.com
        DocumentRoot "/home/www/site4"
</VirtualHost>
<Directory "/home/www/">
        AllowOverride All
</Directory>
  1. 1
  2. 2
  3. 3
  4. 4