R语言读书笔记<1>

最近项目需要,所以要学习下R语言,对于数学基础不好的我,着实有点痛苦,现在再次看到线性代数和概率统计的东西着实让我难受,天下无难事,努力做好最重要。
下面是我自己学习R语言的一些笔记,不是很完善,如果想系统学习R语言,建议先在网上找一本完整的学习手册进行学习。这是我个人的一些理解,不正确的地方,还望大家共同讨论。
1 索引向量:在R语言中,向量vector是个很常见的数据结构,回忆下线代这门课,就应该知道向量代表什么了。而索引向量,所起的作用就是当你需要获取一个向量的子集的时候,可以通过在向量名后面的方括号中加入索引向量而得到。简单的讲,就像是我们编程中用得数组,比如向量A,要获取向量A的第1,2,3个元素,那么写成Asubset<- A[1:3]即可。1:3就是代表1到3的索引向量。
索引向量可以是下面的四种形式。
1 逻辑向量 。当索引向量是逻辑向量时,索引向量必须同被挑选元素的向量长度一致,向量中对应索引向量为true的元素被选中。

2 正整数向量。索引向量必须是[1,2,...,length(x)]的子向量,注意从1开始

3负整数向量。指定被排除的元素而不是包括进来的元素。

4 字符串向量,当一个向量中的元素可以用names属性来识别的时候,字符串向量很有用。

2 R语言对象及它的模式和属性。

在R中,任何被操作的实体都被称之为对象。

实数,向量(字符型,逻辑型)都被称为“原子型”对象。这是因为它们的元素都是同样的类型。

向量:必须保证所有的元素都是一样的模式

列表:可以为任何模式的对象的有序序列

函数、表达式:具有递归结构的对象。

在对象中,有两个内在的属性,是任何对象都有的。他们就是对象的模式(mode)和对象的长度(length)。

对象的属性,可以通过attributes(object)获取。

对象模式(mode)可以通过下面的方式转换:

as.character(obj) 将obj对象模式转换成字符型

as.integer(obj) 将obj对象模式转换成整型。

对象长度的转换。

增加长度:对象长度可以通过给定一个不在先前索引范围内的索引值而得到改变。例如:

e<-character()  给e赋一个空的字符型对象,显然这个时候length(e)是等于1的。

e[3]<-’a’ ; length(e)=3 .当给e一个不再先前索引范围内的索引值(先前索引范围为1,现在索引反胃为1,2,3)这时候,对象e的长度就为3了。

删减长度:对象长度的减少,只需要做相应的赋值操作即可。例如:

a<-a[2*1:5],由于“:”的优先级高,所以此时的索引向量为[2,4,6,8,10].此操作相当于只保留a对象中偶数索引位[2,4,6,8,10]的值。所以此时length(a)=5.

我们继续操作a这个对象,length(a)<-3 .这样就把a的长度删减到3了。这个操作同样也适用于扩充对象.

设置或读取对象属性

attributes(object) 读取对象非内在属性。

attr(object,name) 读取或设置属性名为name的属性值

attr(Z,’dim’)<-c(10,10).对象Z有一个dim的属性,dim属性被赋值为10*10.它表示的意思是Z对象可以被当做一个10*10的矩阵,(dim属性表示一个对象为一个矩阵)

搜索引擎读书笔记<2>-nutch 和heritrix的区别和联系

Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。
Heritrix 是个 “archival crawler” — 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。
二者的差异:
Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
Nutch 可以修剪内容,或者对内容格式进行转换。
Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。

搜索引擎lucene + heritrix读书笔记<1>

索引文件格式:

.fnm格式:包含Document中的所有field名称

.fdt格式: 用于存储具有Store.YES属性的field的数据

.fdx格式:是一个索引,用于存储Document在.fdt的位置

.tis格式:用于存储分词后的词条

.tii格式:是.tis对应的索引文件,标明每个.tis文件中的词条的位置

.cfs 复合索引格式. 当IndexWriter的属性useCompoundFile为true时,就是使用复合索引格式来保存索引。

索引建立过程中的关键组件:IndexWriter, IndexReader,IndexModifer

HTML协议系统学习详解

1. 基础概念篇

1.1 介绍

HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)合作的结果,(他们)最终发布了一系 列的RFC,RFC 1945定义了HTTP/1.0版本。其中最著名的就是RFC 2616。RFC 2616定义了今天普遍使用的一个版本——HTTP 1.1。

HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算 机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。

HTTP是一个应用层协议,由请求和响应构成,是一个标准的客户端服 务器模型。HTTP是一个无状态的协议。

Continue reading

人在不知不觉中,走向伪善

昨天晚上晚饭后,看了黑泽明的《罗生门》。起初看完这部电影后,好困好困 。
感觉剧情在重复,好无聊啊。
然而今天一天,剧情中的场景,却一遍一遍的在这 个世界发生着。
方舟子打假,讲李开复造假。李开复说自己没造假。新闻后面的评论足以让人无语,各种说辞都有。有说李开复在google时,如何挤压同事的。说李开复是CIA在中国的间谍,说wikipeak上有爆料李开复的。有骂方舟子是个疯狗的,有讲方舟子应该去打官员造假去。总是七七八八,魑魅魍魉。
方宏进和老婆的离婚案在网上闹得沸沸扬扬,把方宏进的女儿也拉出来当主角了。双方讲的话,可谓是完全相反的。
人心最深的地方,埋藏了多少阴暗而不可告人的秘密。幽暗破旧的罗生门下,是个鬼魂都觉得害怕的地方
人在不知不觉中,走向伪善,企图以此来掩盖自我的罪恶。魑魅魍魉,每个字都有个鬼字,确是人丑恶的最好体现。
今天还有个新闻足以让人内心感到慰藉,
美国宇航局证实发现首颗适合居住类地行星—-开普勒-22b。