前一段时间写了一段抓取网页的程序,感到这个很简单,最近要搜寻网上信息,于是也打算写一个程序来做这件事,不过这次涉及到多个网站,格式很不规则,写来写去,貌似变成一个垂直爬虫了,略有心得,凑一篇博客吧。
作为一个java程序员,我选择最简单的方式──用ruby来做,使用的技术储备包括:
1. 任务编写工具,用rake就足够了,很方便
2. html解析器:用Hpricot,它支持各种定位方式,据说底层用C,因此性能不错
3. 另外还要一些支持库:例如地址处理使用uri、网页抓取使用net/http,编码转换使用iconv等等。
既然是爬虫,那么通过网页上的链接进行网页抓取是基本功能,显然,这是 ...
CCTV 4刚刚播出了《2007世界》和《2007中国》两个节目,算是对过去一年的回顾,这是年末的必备功课,那么我自己呢?我这一年里又做了些什么呢?
略有茫然,似乎做了一些事情,又似乎什么都没做。
就说工作吧,上半年忙忙乱乱却又懒懒散散,没做出什么拿的出手的东西,下半年就做这个网站,略有小成,可是问题还不少,套用一句老的不能再老的老话──“前途是光明的,道路是曲折的”。明年既有开发,更重要的是推广,我是既不懂营销,又不懂股票,还不懂投资,估计且有的忙乎了。
其实前途永远是光明的,就看你心态如何了,貌似我还是能够给别人带来一些积极向上的东西,算是一点可取 ...
父母和朋友都问最近怎么没写博客,我知道是怕我有什么不开心的事,其实真的没什么事,因为时间可以解决一切问题,就像写程序补漏洞,就算水平再差,不断的补阿补阿的,最后总能糊弄好。
不写博客其实是对自己水平的无奈──看看别人写的文章,要技术有技术,要思想有思想,实在都没有,还有文笔在那里摆着,我看着就一个感觉──羞愧阿!整天这样当然没有心情写东西了。
比方说我很烦那种怎么也死不了的电影,可还是人家王小峰说的更生动:
来自wangxiaofeng的博客
去电影院里看电影还是《十面埋伏》首映,本来准备好睡一觉,结果我一直乐,困意全无,后来迷迷瞪瞪昏睡过去,同去的妹妹赶紧捅我 ...
表现为能够mount,但是不能umount
bash 代码
$ umount /media/other
umount: /media/other mount disagrees with the fstab
检查fstab文件:
文件内容
# /dev/sda7
UUID=c2181b73-0e36-4fba-8f53-9538ab09703 ...
一则新闻:北京对车祸死亡民工做出"同命同价"判决
实事求是的说,这是一件理所应当的事情,但是考虑到我们一直以来的做法,从纵向的角度看,这也的确是一件非常值得赞扬的进步,这让我感到“和谐”越来越变得不是一句空话了。
另外还有一件事是“嫦娥”的发射,本来也是一件值得祝贺的事情,不过与上面的事情相比,还是要逊色一些。
社会的发展常常是各方面同时前进的,不管遇到什么事情,对于未来,我总是忍不住怀有希望。
没啥东西写,就记一些流水帐吧。
最近在开大会,碰巧我也买了电视,作为一个党员,应该认真学习领会,于是有空就看新闻。
看了几天,实在无聊,我们自己的新闻全是唱赞歌,而且在我看来,这赞歌唱的也不认真,每次都差不多──“历史性的突破”云云,并没有什么有价值的分析,说实话,我宁愿看海外的评论,夸也能夸到点子上,所以有时候挺为温家宝等人悲哀的,知道是废话,还得忍耐着听。
要我说,这次十七大延续了过去的一个重要的做法──继续释放权力,把一些原来需要审批的权力交回私人,这值得表扬,我们应该逐步演化,把精力集中在研究如何制定规则而不是处处进行约束的行政方式,最近的诺贝 ...
昨晚通宵去唱歌,算是送行吧。
我唱歌的时候很容易投入或者带入角色,所以唱《保卫黄河》和《团结就是力量》的时候感情最简单,可惜这样的歌不多。
不过熬夜以后好像还不太累,白天只是断断续续睡了几次,对自己的精神头有些惊讶。
早上还没进家门,就接到小区做二手货的大嫂一个电话,于是去买了二手的沙发和电视柜,下午她老公来帮我解决了一下热水器水流太小的问题,同时又补充了一个电脑桌和一个29吋的二手彩电,房东也把马桶的盖子换成木头的,并确定后面需要处理的几件事情(有线电视、电话开通,还有纱窗和墙壁处理)。
费用:
沙发+电视柜:250元
电脑桌+电视+维修热水器:290元
到 ...
今天解决一个bug时花了很长时间分析定位。
起因是我们自己写了一个tab函数,用来支持网页上分tab显示内容,可以局部更新,支持缓存和刷新。
但是后来发现,refresh content的时候采用AJAX方式取数据,而数据中的js脚本并不会执行。一开始不知道为什么会这样,我一直以为只要设置innerHTML就会执行包含的js,单独写了两个页面用prototype的Ajax.updater试验,也是可以执行的,真是搞不懂。
前辈教导我们,搞不定的时候读源码永远是一个好主意。于是看prototype──哦,原来如此:
javascript 代码
upd ...
今天办理离职手续,顺手买了一个无线路由器,打算设置好无线网络以后尽快把那些svn之类的服务迁移回来。
第一次用,感觉很新奇。实际上我也不是完全无线,这个网络算是一个混合方式,大致是这样:
电信入口--无线的54兆路由器--(无线接入)笔记本-----|
&nbs ...
和讯上的一篇文章:中国企业的盲目膨胀—评民生银行的两大投资,里面有一句话:”“不投资是等死,投资不好是找死”,我并不想也没有能力置疑作者对民生银行的批评,但是看到这句话不由得想到几年前,那时联想要上ERP,当时柳传志也有类似的话──”不上ERP是等死,上ERP是找死“。
其实很多事是类似的,我们都是有缺点的人,而且永远也不可能掌握所有的信息,做任何事都会存在风险,所以只要做事,必然有找死的可能。已经不记得是在哪里看到的了,据说有科学家做过一项人类心理对比调查,一组是因为没有作为而带来遗憾,另外一组则是因为做错了而懊悔 ...
- 浏览: 19876 次
- 性别:

- 来自: 上海

- 详细资料
搜索本博客
最新评论
-
prototype确实实用
其实感觉还是有问题的,极端点,这个Ajax.Updater是同步的,并且希望up ...
-- by afcn0 -
prototype确实实用
也许是为了解决浏览器的某些bug吧,要不然他大可不必延迟执行。或许,是为了起一个 ...
-- by 笨笨狗 -
prototype确实实用
不过其setTimeout(function() {html.evalScrip ...
-- by afcn0 -
prototype确实实用
Prototype是我的js学习榜样,嘿嘿这个自动执行js是可以通过evalSc ...
-- by 笨笨狗 -
prototype确实实用
fsword 写道今天解决一个bug时花了很长时间分析定位。<br /> ...
-- by ddh9504






评论排行榜