灌溉梦想,记录脚步

常用开源Jabber(XMPP) 服务器(即时通讯)介绍

1. Openfire (Wildfire) 3.x
授权: GPL or 商用
操作系统平台:所有(使用Java开发)
XMPP Jabber 协议实现情况:98%
Tim 评价:
安装和使用非常简单,安装后进入Web界面进行2~3分钟的配置所有的东西都设好了。使用Java语言开发,在目前Java开发人员到处普及的情况
下进行维护和扩展的成本非常低。在我的测试中加上 Connection Manager 的情况下单台服务器可支持 30 万并发用户。缺点是目前还不支持
cluster。如果企业内部部署IM使用 Wildfire + Spark 是最佳的组合。
安装方法见:http://www.blog-dragon.com/2007/10/jabber-xmpp-openfire-spark.html
2. ejabberd
授权: GPL
操作系统平台:Linux, Windows, MacOS X 等
XMPP Jabber 协议实现情况:91%
Tim 评价:
Ejabberd目前是可扩展性最好的一种Jabber/XMPP服务器,支持分布多个服务器,并且具有容错处理,单台服务器失效不影响整个cluster运作。
顾虑就是它采用一种大家都没听过的语言Erlang开发,所以很多人可能会象我一样因为这个原因放弃了它。
官方地址:http://www.process-one.net/en/ejabberd/
3. Jabberd 2.x
授权: GPL
操作系统平台:主要是 Linux, (Windows 也支持,但不知道性能怎样)
XMPP Jabber 协议实现情况:76%
Tim 评价:
自从jabber.org改用ejabberd之后,Jabberd一直都在走下坡路。扩展性比不上ejabberd, 易用性比不上 Wildfire,唯一的优势是使用C开发,
如果你坚持要用C开发,那么还是选择jabberd吧。
官网地址:http://jabberd.jabberstudio.org/2/
4. Jabberd 1.x
授权: GPL
操作系统平台:主要是 Linux, (Windows 也支持,但不知道性能怎样)
XMPP Jabber 协议实现情况:45%
Tim 评价:
在几年前 jabberd 就是 Jabber 的代名词,至今很多 Jabber 文档仍然介绍的是 Jabber 1.4,
在我以前写的《Jabber 服务器占有率比较》中仍然排名第一。但是它很多新的规范都不支持,相信大部分用户都将转向新的服务器。
官网地址:http://jabberd.jabberstudio.org/1.4/
5. 后起之秀 DJabberd
授权: open source
操作系统平台:主要是 Linux, (Perl写的,其他平台应该也支持)
XMPP Jabber 协议实现情况:N/A
Tim 评价:
djabberd 使用 epoll 技术,理论上单台服务器可以支持更多用户。Djabberd目前主要应用在LiveJournal上,大部分XMPP协议都支持,稳定性
也不用置疑。但是因为推出时间尚短,很多细节功能可能需要时间慢慢完善

Perlbal简介

Perlbal 是一个用 Perl 编写的单线程的事件驱动服务器,可充当 Web 服务器 和 HTTP 负载均衡。

Perlbal被使用在 http://www.livejournal.com/

 

特点

  • 快,小,可管理的http web 服务器/代理
  • 可以在内部进行转发
  • 使用Perl开发
  • 单线程,异步,基于事件,使用epoll , kqueue
  • 支持Console管理与http远程管理,支持动态配置加载
  • 多种模式:web服务器,反向代理,插件
  • 支持插件:GIF/PNG互换?

http://www.danga.com/perlbal/

mogileFS简介

mogileFS是一个分布式文件存储的解决方案,他由Six Apart开发下面列出了他的一些特性(由mogileFS页面http://www.danga.com/mogilefs/ 介绍翻译而来)

* 应用层——不需要特殊的核心组件
* 无单点失败——MogileFS安装的三个组件(存储节点、跟踪器、跟踪用的数据库),均可运行在多个 机器上,因此没有单点失败。(你也可以将跟踪器和存储节点运行在同一台机器上,这样你就没有必要用4台机器)推荐至少两台机器。
* 自动的文件复制——基于不同的文件“分类”,文件可以被自动的复制到多个有足够存储空间的存储节点上,这样可以满足这个“类别”的最少复制要求。比如你有一个图片网站,你可以设置原始的JPEG图片需要复制至少三份,但实际只有1or2份拷贝,如果丢失了数据,那么Mogile可以重新建立遗失的拷贝数。用这种办法,MogileFS(不做RAID)可以节约 磁盘,否则你将存储同样的拷贝多份,完全没有必要。
* “比RAID好多了”——在一个非存储区域网络的RAID(non-SAN RAID)的建立中,磁盘是冗余的,但主机不是,如果你整个机器坏了,那么文件也将不能访问。 MogileFS在不同的机器之间进行文件复制,因此文件始终是可用的。
* 传输中立,无特殊协议——MogileFS客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信,但首先需要告知跟踪器一下。
* 简单的命名空间——文件通过一个给定的key来确定,是一个全局的命名空间。你可以自己生成多个命名空间,只要你愿意,不过这样可能在同一MogileFS中会造成key冲突。
* 不用共享任何东西——MogileFS不需要依靠昂贵的SAN来共享磁盘,每个机器只用维护好自己的磁盘。
* 不需要RAID——在MogileFS中的磁盘可以是做了RAID的也可以是没有,如果是为了安全性着想的话RAID没有必要买了,因为MogileFS已经提供了。
* 不会碰到文件系统本身的不可知情况——在MogileFS中的存储节点的磁盘可以被格式化成多种格式(ext3,reiserFS等等)。MogilesFS会做自己内部目录的哈希,所以它不会碰到文件系统本身的一些限制,比如一个目录中的最大文件数。你可以放心的使用。

Mogilefs 的网站地址(http:// www.danga.com /mogilefs )

php 扩展 的地址(http://www.capoune.net/mogilefs/ )提供了一个php扩展用来在php中使用mogileFS。
这儿也有一个地址,svn的源码库 http://svn.usrportage.de/php-mogilefs/trunk/

mogileFS 安装步骤( http://durrett.net/mogilefs_setup.html
mogileFS 使用perl 编写的,在安装前你应该先安装好perl。同时mogileFS也需要一个数据库用来保存文件数据的跟踪信息(目前好像可以使用MySQL推荐 , SQLite,Oracle,Postsql)。

这儿有一个兄弟的中文安装学习笔记 mogileFS学习

mogileFS 适合于静态存储,就是那种一次保存,多次读取型的资源,比如以html方式静态化处理的动态文件,图片文件,其他只提供下载的文件等。

编程能力的四种境界

  利用心理学解释程序员的专业程度,视角新颖,翻译首发。
  人类心理学研究中的一个基础支撑课题就是分析人的思维意识和潜意识。 Sigmund Freud是最早的一位能够清楚的认定和描述我们的心理活动"领域"的人。 在他著名的一生中的早期,他就指出我们的意识里分"潜意识","前意识","意识"。
  如果想弄清楚理解它们跟我们的思想、感觉、认知、判断和动机(这些在我们每日生活、职场中里的关键因素)有什么关联,我们可以把自己想象成一个冰山。 冰山的尖端,唯一能从水面看到的一部分,可以当作是我们的的意识。 它是有逻辑、有组织的,可控的,但这部分很小。而庞大的水下部分则是我们的潜意识。 它们是无组织、无逻辑、无关联的,但它们取能决定我们的各自行为特征。
  现代心理学上一直试图通过观察人们在这个"思维冰山"上能打多深的孔来评价他们掌握某一个专业技能的程度,并描述成四个阶段。
 

  阶段一:无意识,无能力
  小陈是一个年轻的网站开发者。 他是一个法律专业的学生,可他认为他的钱途不在律师行业,所以他灵光闪现,做了转行的决定。 他曾经帮他的朋友修过计算机,而且很成功,自认为这方面应该都很容易。 小陈很快找到了一些能够让他学习、工作的地方(当然,都是靠近他家的)。 六个月后,他向朋友说自己是个网站专家了,简历上也列举了不少汇编语言、应用程序,以及开发平台。
  但实际上,小陈是一个冷酷的"拷贝/粘贴"者。 他以为能够成功地显示一个windows提示框,就表示对Javascript已经掌握了。 PHP? 也很简单:他成功的安装了Wordpress、Linux,他从LiveCD上启动了Ubuntu系统,能够搭建一个Apache负载均衡集群服务器。 他的意识告诉他,他已经无所不知了。
  可是问题就在于,小陈没有意识到他可以学到更多的东西,所以他就简单地停止了学习的步伐。 他经常访问的在线论坛和邮件列表里有很多人都非常客气地告诉他,他的问题在于他肤浅的知识,但没有人捅破这层窗户纸。 而更悲哀的是,他在论坛里的能力值比你我加起来都高。呵呵,这很搞笑。
  小陈是无意识的无能力。
 

  阶段二:有意识的无能力
  赵明是个数学老师。 他在一个大学里工作,他希望他的大学里能够拥至少是五倍于现有数量的图书馆藏书。 他知道在科技领域方面,他的大学相对于其他研究机构落后很多,所以他决定自己动手去做这个工作。 他想建立一个在线平台,能在社团里共享他们的课程。
  赵明是天生的逻辑型的思维, 他知道为了实现这个目标,他需要去做研究,搜集信息。 他的搜索从维基百科开始,但最终在大量的浏览阅读后他明白其实世界上已经有不少团队对他的这种问题提供了开源方案。
  他 从那些工程中选择了一个最能满足他的需求的一个。 他开始着手阅读在它的网站上找到的文档和手册,最后他把源程序下载下来。 但他的兴奋状态推着时间推移逐步退去,因为他看到了很多’数据库连接错误’。 他试了又试,不少于三次地检查他的每一步骤,还是不成功。 赵明并不恼怒,因为他知道自己在这个领域并不是专家。
  他开始转向它邮件列表平台,在里面,他用他所知道的(其实很少)最精确的语言描述了他的问题。 他提醒每个人,他并不清楚他所做的这个东西,所以,他希望能得到更多的文档去阅读,或人们给他提供这方面的提示。 他不需要等待很久就能得到解决方案,因为他采取了正确的方法。
  赵明是有意识的无能力

  阶段三:有意识的有能力
  自从锋仔拿起他的第一本HTML书至今已经有两年了。 很显然这是一条不归路,对于锋仔来说,每天思考的问题都是如何去提高自己喜爱的这个专业。 从他拿起第一本书几个月后,他得到了第一个作为自由工作者开发一个网站的机会,他投入了极大的热情,不管这个工作的薪酬有多低,这个工作有多简单 (甚至是对于他的水平)。他深信一点:最好的学习的方式就是坚持不懈,屡战屡败,屡败屡战。
  他经常去研究如何以最好的方式执行一个功能,因为他知道最好的代码不是第一次就能获得的。 他必须去优化代码,他一遍又一遍地审查。 他一次又一次地修正。
  之 后,他又给他自己写了一个大概有30到40行的程序。 几天之后,他忍不住感到失望,因为他在上网时发现了一段更省事的、而且更简洁的程序,代码行只有他的一半。 他渴望知道何时才能轻松的写出如此高质量的代码。 然而,经过一段思考之后,他开始分析自己的代码。 他知道必须去重写这些代码,否则睡觉都不会安稳。 他不愿意去拷贝粘贴它们。
  锋仔正走在成为一个优秀的专家的路上,但他不会给自己加上这个称号,他愿意去等,他是有意识的有能力。
 

 

  阶段四:无意识的有能力
  这是汇编水平的终极阶段。 它不仅仅是知识积累的结果,更是一系列的逻辑规则在数年里慢慢的刻印到脑海中的结果。
  我们面对这样的一个人时,不得不由衷的佩服他对如此复杂的问题,竞能如此轻松地应对。 这种汇编者看起来就像是能够嗅出问题的解决方案,而不是思考出的。
  优化的编写,可维护的、安全性的程序,应用各种设计模式,使用正确的开发工具组合,这些会自动的在他的工作中体现出来。 这种人能够轻松的使用多种语言在多种操作系统平台上工作。
  最后值得一提的是,一些学者提出第五种阶段:成熟的有能力,定义为有能力去教育和传承他所学的、甚至是还未意识到的知识。 我们可以从一些才智超凡的人哪里看到这些特征,他们可以教学和讲解,这些很显然是多年实践经验积累出的技能。

Robots.txt 文件示例

  robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt 是一个简单有效的工具。这里简单介绍一下怎么使用它。
  如何放置 Robots.txt 文件
  robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为”robots.txt”。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。
  这里举一个robots.txt的例子:
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /~name/

  使用 robots.txt 文件拦截或删除整个网站
  要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:
  User-agent: *
  Disallow: /
  要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:
  User-agent: Googlebot
  Disallow: /

  每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。
  对于 http 协议 (http://yourserver.com/robots.txt):
  User-agent: *
  Allow: /

  对于 https 协议 (https://yourserver.com/robots.txt):
  User-agent: *
  Disallow: /

  允许所有的漫游器访问您的网页
  User-agent: *
  Disallow:

  (另一种方法: 建立一个空的 “/robots.txt” 文件, 或者不使用robot.txt。)
  使用 robots.txt 文件拦截或删除网页
  您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:
  User-agent: Googlebot
  Disallow: /private

  要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:
  User-agent: Googlebot
  Disallow: /*.gif$

  要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:
  User-agent: Googlebot
  Disallow: /*?

  尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。
  作为网站管理员工具的一部分,Google提供了robots.txt分析工具 。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件,并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。 在创建一个 robots.txt 文件之前,有必要考虑一下哪些内容可以被用户搜得到,而哪些则不应该被搜得到。 这样的话,通过合理地使用 robots.txt , 搜索引擎在把用户带到您网站的同时,又能保证隐私信息不被收录。

各大网站使用的操作系统

Google
操作系统:有两个节点使用Linux 其他未知,Gmai还使用了 Solaris 8
WEB服务器: GWS/2.1
Yahoo
操作系统:FreeBSD
WEB服务器:未知
MSN/Microsoft/Live
操作系统:Windows Server 2003
WEB服务器: Microsoft-IIS/6.0
flickr
操作系统:Linux
WEB服务器:Apache/2.0.52
WIKI
操作系统:Linux
WEB服务器:Apache
百度
操作系统:Linux
WEB服务器:Apache/1.3.27
网易
操作系统:Linux
WEB服务器:Apache/2.0.55
TOM
操作系统:NetApp NetCache
WEB服务器:Apache/1.3.34 PHP/5.1.2-1
淘宝
操作系统:Linux
WEB服务器:Apache
搜狐
操作系统:SCO UNIX
WEB服务器:Apache/1.3.33
新浪
操作系统:FreeBSD
WEB服务器:Apache/2.0.54
腾讯
操作系统:Linux
WEB服务器:Apache
****网站
操作系统:Linux
WEB服务器:Apache
天涯论坛
操作系统:FreeBSD
WEB服务器: Apache/1.3.34
新华网
操作系统:Linux WEB服务器:Apache
CCTV
Linux Netscape-Enterprise/4.1
51JOB
Linux Apache/1.3.29
猫扑
操作系统:Linux
WEB服务器:Apache/2.0.55
中国银行
NetApp NetCache IBM_HTTP_SERVER/1.3.26 Apache/1.3.26 (Unix) 和
Windows 2000 Microsoft-IIS/5.0 两种
建设银行
Linux Apache/2.0.54 (Unix)
农业银行
AIX IBM_HTTP_Server/2.0.47.1 Apache/2.0.47 (Unix)
交通银行
AIX WebSphere Application Server/5.0

计算机专业失业多 入错行还是考错学?

男怕入错行,女怕嫁错郎。一场金融危机让所有与金融贸易相关专业的学生一夜之间变成了拔毛的凤凰。不过学习金融专业的学生大可不必担心,根据中国社会科学文献出版社最新出版的《中国大学毕业生就业报告(2009)》就业蓝皮书显示,八个失业率最高的专业中,与IT相关的就占到了两个,分别是计算机科学与技术和电子信息工程专业。

但是值得玩味的是,我们纵观各个招聘网站与招聘会议,几乎每个职业如今都要求掌握计算机技能,可为什么最符合掌握计算机技能的计算机科学与电子信息专业的毕业生却成为了失业大军中人数最多的两支呢?

就在2006年微软和IBM还在为了争夺IT人才,提前进驻学校为抢人打破头,当初因为看了这条新闻转而报考计算机专业的学生究竟是要感叹入错行还是考错学呢?上大学如同押宝,这也难怪今年高考考生人数呈下降趋势了。

有人说学生学艺不精,有人说学校授业不精,不过计算机专业毕业证不如MCSE等商业教学证书好用的情况的确值得大学反思,大学生不懂计算机如今已经可以形同文盲,可计算机科学教育专业在课程设置上却像一个扫盲班,如果仍然无法改变Windows操作基础学习半年这种上世纪的教学模式,恐怕计算机科学专业学生继续成为失业大军后备力的情况仍不会改观。