[R].Basic01¶

許sir¶

在本小節, 我們要了解

基本的資料屬性與變數
資料的輸入與輸出
合併與分割資料

[第一部份].R 的基本資料屬性包含以下五種¶

character：文字字串，用 "" 包起來，ex："test"
numeric：實數
integer：整數
complex：複數
logical：True 或 False

class("test")
class(10.10)
class(10)
class(as.integer(3)) # 因為 R 計算上是都是以雙倍精確度來計算，所以必須指定為 integer，不然都會被當成 numeric
class(as.integer(3.1)) # as.integer 可以將不是整數的數值變成整數
class(2+2i)
 class(TRUE) # 注意都要大寫，不可寫 True，但可以簡化成 T

[第二部份].R的基本變數與資料¶

2-1.一般變數¶

x = 12.5        # 一般數值
A1= "John"        #文字字串
z = FALSE           # 邏輯值 TRUE/FALSE 或 T/F
y = 2.4e3       # 2.4 x 10三次方 = 2400

A2 = paste(A1,"Dow",sep="")     # A2="JohnDow"

x^2             # 平方, 也可寫成 x**2

x + 3  ; x - 3 ; x * 3 ; x / 3  # 加減乘除

x %/% 3                     # 整除
x %% 3                     # 餘數

2-2.向量 (Vector)¶

x = c(1, 15.2, 33)                # c是combine的意思
y = c("男","女","女")             # 文字向量
z = c(TRUE,FALSE, FALSE, TRUE)    # 或 c(T,F,F,T)
x2 = x + 1                        #  x2 = c(2, 16.2, 14)
x[2]                                  #  15.2

x[c(1,3)]                           # 第一和第三個元素，就是(1, 33)         
x[-2]                               # "負號" 表示去除去掉第二個元素，也就是(1, 33)
y[3]                                  # "女"
y[1:2]                             # c("男","女")

#vector 中所有元素都必須是同一種資料屬性
#c() 也可以被用來結合兩個向量
x <- c(1:5)  # 1:5 表示從1到5 . 就是(1,2,3,4,5) 
y <- c(2, 4, 8) 
z <- c(x, y) 
z

2-3.Factor 變數¶

#其實就是”分類”的意思
#可以把”文字向量”分類，也可以把”數值向量”分類
gender = c("Boy","Girl","Girl","Boy","Girl")    # 文字向量
gender = as.factor(gender)  ;   gender       # Factor 變數 # 用分號區隔指令

parttime = c(1,0,0,0,1)         # 有無打工(數值向量)
parttime = as.factor(parttime)  ;  parttime # Factor 變數
parttime[2]          # 顯示出第二筆資料(Factor 變數的指標使用跟向量變數一樣)

2-4.串列 (List)¶

#是向量的的擴充，可包含不同屬性的元素
#list 是非常方便好用的資料形態。尤其是需儲存不同類型資料的時候，特別好用。
friend1 = list(fname="John",age=32,child.ages=c(2,5))
friend1

friend1$fname               # 等於 friend1[[1]]  # $是指定變項 
friend1$age     # 等於 friend1[[2]]
friend1$child.ages  # 等於 friend1[[3]]
friend1$child.ages[2]   # 等於 friend1[[3]][2]

2-5.矩陣 (Matrix)¶

M1 <- matrix(c(1:144), 12, 12) #請幫我作一個 12*12 的矩陣 並從1到144
M1

M1[6, ]

M1[, 6]

x1 = c(11,12,13)
x2 = c(21,22,23)
M1 = rbind(x1,x2)     #row bind; 視為橫列連起來
M2 = cbind(x1,x2)   #column bind; 視為直行連起來
M1; M2

2-6.資料框架 (Data Frame)¶

data(iris)
names(iris) # 查看變數名

head(iris, 12)  # 只看前12筆資料
tail(iris, 12) # 只看尾巴12筆資料

dim(iris) # 查看列數與欄數
summary(iris)#基本敘述性統計量

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50

iris1 <- iris[1:12, ]   # 把iris前12筆資料存成iris1

iris1[6, ]      # iris1第6筆是多少(row)
iris1[c(4, 10) , ] #取得第4 及第10 列資料

以下三種寫法都代表同一件事(Column)¶

iris1[, 2]    # iris1第2筆是多少(Column)
iris1[, "Sepal.Width"] #和 iris1[, 2] 相同
iris1$Sepal.Width

subset(iris1, Sepal.Width >= 3.5) #取得Sepal.Width 大於等於3.5 的資料

[第三部份].R的資料匯入與輸出¶

請特別注意你的作業系統
windows / Mac / Linux 的路徑表示方法都不同
同時若你採用 Anaconda , 請注意你啟動的位置
若你採用R 或 R-Studio, 請採用下列 setwd()

#getwd()  #顯示目前的工作資料夾 
#setwd()  #設定工作資料夾

#set working directory的簡寫。要指定工作資料夾，必須要告訴R路徑。本例是將R的工作資料夾指定為c磁碟機中的downloads。要注意路經前後要加上" "。現在可以再用getwd()來看看工作資料夾是否已設定完成。

3-1.如果我的檔案是.csv檔¶

匯入 CSV 檔的時候會碰到一種比較特別的問題，就是作業系統編碼不同的問題，Windows 的中文編碼是 big5，而 Linux / Mac 都是 UTF-8，所以在 Linux / Mac 匯入來自於 Windows CSV 檔常常會發生亂碼，那該如何解決此問題，本人的做法是將資料讀進來轉成 UTF-8，在輸出一份 CSV 檔，以下先以一個 CSV 檔為主，加以調整修改就可以改成一次跑一個資料夾下的所有 CSV 檔。

babies <- read.csv("babies.csv", header = TRUE, sep = ",")   #把babies.csv 叫進來
str(babies)                 #把babies資料的屬性show出來

'data.frame':	1236 obs. of  7 variables:
 $ bwt      : int  120 113 128 123 108 136 138 132 120 143 ...
 $ gestation: int  284 282 279 NA 282 286 244 245 289 299 ...
 $ parity   : int  0 0 0 0 0 0 0 0 0 0 ...
 $ age      : int  27 33 28 36 23 25 33 23 25 30 ...
 $ height   : int  62 64 64 69 67 62 62 65 62 66 ...
 $ weight   : int  100 135 115 190 125 93 178 140 125 136 ...
 $ smoke    : int  0 0 1 0 1 0 0 0 0 1 ...

#我們重覆一下前面學到的指令

head(babies , 15)               # 只看前15筆資料
tail(babies , 15) # 只看尾巴15筆資料

3-2.如果我的檔案是.txt檔¶

xdata = read.table("babies.txt",header=TRUE)   # header: 表頭
head(xdata)             # 只看前6筆資料

3-3.另存新檔(輸出資料)¶

data <- iris # iris 是 R 內建的資料。
write.table(data, file = "test.CSV", sep = ",") #請特別注意路徑

[第四部份].合併與分割資料¶

4-1.資料合併¶

x <- c(1, 2, 3)
y <- c(10, 20, 30)
union(x ,y) # union 如英文名稱就是取聯集

rbind(x, y) # 透過 row 合併
cbind(x, y) # 透過 column 合併

x <- cbind(c("Tom", "Joe", "Vicky"), c(27, 29, 28))
y <- cbind(c("Tom", "Joe", "Vicky"), c(178, 186, 168))
colnames(x) <- c("name", "age")
colnames(y) <- c("name", "tall")
merge(x, y, by = "name") # 將 data.frame 透過一個欄位進行合併

4-2.資料分割¶

data <- iris
split(data, sample(rep(1:2, 75))) # rep(1:2, 75) 產生 1,2 交錯的向量，但加了前面的 sample 則是隨機抽取

subset(data, Sepal.Length > 5) # 只會出現 Sepal.Length > 5 的資料

subset(data, Sepal.Length > 5,select = Sepal.Length) # 只會出現 Sepal.Length > 5 的資料且欄位只有 Sepal

subset(data, Sepal.Length > 5,select = -Sepal.Length) # selct = 負的代表不要出現的欄位。

[補充範圍]4-3.資料比例 (本例將在資料工程章節再敘）¶

#install.packages('dplyr');

[以下為本週回家作業(加分用)]¶

請以內建的iris資料集¶

查看變數名
查看資料結構(型態)
取得第50 及第100 列資料
iris第100筆的資料是多少(Column)
切割一個新的集合(data set)，此集合中只要Sepal.Length > 4 的資料，同時共有多少筆?

1	13	25	37	49	61	73	85	97	109	121	133
2	14	26	38	50	62	74	86	98	110	122	134
3	15	27	39	51	63	75	87	99	111	123	135
4	16	28	40	52	64	76	88	100	112	124	136
5	17	29	41	53	65	77	89	101	113	125	137
6	18	30	42	54	66	78	90	102	114	126	138
7	19	31	43	55	67	79	91	103	115	127	139
8	20	32	44	56	68	80	92	104	116	128	140
9	21	33	45	57	69	81	93	105	117	129	141
10	22	34	46	58	70	82	94	106	118	130	142
11	23	35	47	59	71	83	95	107	119	131	143
12	24	36	48	60	72	84	96	108	120	132	144

Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	Species
5.1	3.5	1.4	0.2	setosa
4.9	3.0	1.4	0.2	setosa
4.7	3.2	1.3	0.2	setosa
4.6	3.1	1.5	0.2	setosa
5.0	3.6	1.4	0.2	setosa
5.4	3.9	1.7	0.4	setosa
4.6	3.4	1.4	0.3	setosa
5.0	3.4	1.5	0.2	setosa
4.4	2.9	1.4	0.2	setosa
4.9	3.1	1.5	0.1	setosa
5.4	3.7	1.5	0.2	setosa
4.8	3.4	1.6	0.2	setosa

	bwt	gestation	parity	age	height	weight	smoke
1222	114	290	1	21	65	120	1
1223	124	288	1	21	64	116	1
1224	115	262	1	23	64	136	1
1225	143	281	0	28	65	135	1
1226	113	287	1	29	70	145	1
1227	109	244	1	21	63	102	1
1228	103	278	0	30	60	87	1
1229	118	276	0	34	64	116	0
1230	127	290	0	27	65	121	0
1231	132	270	0	27	65	126	0
1232	113	275	1	27	60	100	0
1233	128	265	0	24	67	120	0
1234	130	291	0	30	65	150	1
1235	125	281	1	21	65	110	0
1236	117	297	0	38	65	129	0

	Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	Species
1	5.1	3.5	1.4	0.2	setosa
4	4.6	3.1	1.5	0.2	setosa
8	5.0	3.4	1.5	0.2	setosa
10	4.9	3.1	1.5	0.1	setosa
12	4.8	3.4	1.6	0.2	setosa
13	4.8	3.0	1.4	0.1	setosa
14	4.3	3.0	1.1	0.1	setosa
17	5.4	3.9	1.3	0.4	setosa
18	5.1	3.5	1.4	0.3	setosa
19	5.7	3.8	1.7	0.3	setosa
27	5.0	3.4	1.6	0.4	setosa
28	5.2	3.5	1.5	0.2	setosa
29	5.2	3.4	1.4	0.2	setosa
31	4.8	3.1	1.6	0.2	setosa
34	5.5	4.2	1.4	0.2	setosa
36	5.0	3.2	1.2	0.2	setosa
37	5.5	3.5	1.3	0.2	setosa
38	4.9	3.6	1.4	0.1	setosa
39	4.4	3.0	1.3	0.2	setosa
44	5.0	3.5	1.6	0.6	setosa
45	5.1	3.8	1.9	0.4	setosa
48	4.6	3.2	1.4	0.2	setosa
49	5.3	3.7	1.5	0.2	setosa
50	5.0	3.3	1.4	0.2	setosa
52	6.4	3.2	4.5	1.5	versicolor
55	6.5	2.8	4.6	1.5	versicolor
56	5.7	2.8	4.5	1.3	versicolor
58	4.9	2.4	3.3	1.0	versicolor
61	5.0	2.0	3.5	1.0	versicolor
63	6.0	2.2	4.0	1.0	versicolor
⋮	⋮	⋮	⋮	⋮	⋮
100	5.7	2.8	4.1	1.3	versicolor
102	5.8	2.7	5.1	1.9	virginica
103	7.1	3.0	5.9	2.1	virginica
107	4.9	2.5	4.5	1.7	virginica
108	7.3	2.9	6.3	1.8	virginica
109	6.7	2.5	5.8	1.8	virginica
110	7.2	3.6	6.1	2.5	virginica
111	6.5	3.2	5.1	2.0	virginica
112	6.4	2.7	5.3	1.9	virginica
113	6.8	3.0	5.5	2.1	virginica
116	6.4	3.2	5.3	2.3	virginica
117	6.5	3.0	5.5	1.8	virginica
118	7.7	3.8	6.7	2.2	virginica
119	7.7	2.6	6.9	2.3	virginica
120	6.0	2.2	5.0	1.5	virginica
122	5.6	2.8	4.9	2.0	virginica
123	7.7	2.8	6.7	2.0	virginica
124	6.3	2.7	4.9	1.8	virginica
125	6.7	3.3	5.7	2.1	virginica
127	6.2	2.8	4.8	1.8	virginica
129	6.4	2.8	5.6	2.1	virginica
130	7.2	3.0	5.8	1.6	virginica
131	7.4	2.8	6.1	1.9	virginica
133	6.4	2.8	5.6	2.2	virginica
134	6.3	2.8	5.1	1.5	virginica
135	6.1	2.6	5.6	1.4	virginica
142	6.9	3.1	5.1	2.3	virginica
147	6.3	2.5	5.0	1.9	virginica
148	6.5	3.0	5.2	2.0	virginica
149	6.2	3.4	5.4	2.3	virginica

	Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	Species
1	5.1	3.5	1.4	0.2	setosa
6	5.4	3.9	1.7	0.4	setosa
11	5.4	3.7	1.5	0.2	setosa
15	5.8	4.0	1.2	0.2	setosa
16	5.7	4.4	1.5	0.4	setosa
17	5.4	3.9	1.3	0.4	setosa
18	5.1	3.5	1.4	0.3	setosa
19	5.7	3.8	1.7	0.3	setosa
20	5.1	3.8	1.5	0.3	setosa
21	5.4	3.4	1.7	0.2	setosa
22	5.1	3.7	1.5	0.4	setosa
24	5.1	3.3	1.7	0.5	setosa
28	5.2	3.5	1.5	0.2	setosa
29	5.2	3.4	1.4	0.2	setosa
32	5.4	3.4	1.5	0.4	setosa
33	5.2	4.1	1.5	0.1	setosa
34	5.5	4.2	1.4	0.2	setosa
37	5.5	3.5	1.3	0.2	setosa
40	5.1	3.4	1.5	0.2	setosa
45	5.1	3.8	1.9	0.4	setosa
47	5.1	3.8	1.6	0.2	setosa
49	5.3	3.7	1.5	0.2	setosa
51	7.0	3.2	4.7	1.4	versicolor
52	6.4	3.2	4.5	1.5	versicolor
53	6.9	3.1	4.9	1.5	versicolor
54	5.5	2.3	4.0	1.3	versicolor
55	6.5	2.8	4.6	1.5	versicolor
56	5.7	2.8	4.5	1.3	versicolor
57	6.3	3.3	4.7	1.6	versicolor
59	6.6	2.9	4.6	1.3	versicolor
⋮	⋮	⋮	⋮	⋮	⋮
121	6.9	3.2	5.7	2.3	virginica
122	5.6	2.8	4.9	2.0	virginica
123	7.7	2.8	6.7	2.0	virginica
124	6.3	2.7	4.9	1.8	virginica
125	6.7	3.3	5.7	2.1	virginica
126	7.2	3.2	6.0	1.8	virginica
127	6.2	2.8	4.8	1.8	virginica
128	6.1	3.0	4.9	1.8	virginica
129	6.4	2.8	5.6	2.1	virginica
130	7.2	3.0	5.8	1.6	virginica
131	7.4	2.8	6.1	1.9	virginica
132	7.9	3.8	6.4	2.0	virginica
133	6.4	2.8	5.6	2.2	virginica
134	6.3	2.8	5.1	1.5	virginica
135	6.1	2.6	5.6	1.4	virginica
136	7.7	3.0	6.1	2.3	virginica
137	6.3	3.4	5.6	2.4	virginica
138	6.4	3.1	5.5	1.8	virginica
139	6.0	3.0	4.8	1.8	virginica
140	6.9	3.1	5.4	2.1	virginica
141	6.7	3.1	5.6	2.4	virginica
142	6.9	3.1	5.1	2.3	virginica
143	5.8	2.7	5.1	1.9	virginica
144	6.8	3.2	5.9	2.3	virginica
145	6.7	3.3	5.7	2.5	virginica
146	6.7	3.0	5.2	2.3	virginica
147	6.3	2.5	5.0	1.9	virginica
148	6.5	3.0	5.2	2.0	virginica
149	6.2	3.4	5.4	2.3	virginica
150	5.9	3.0	5.1	1.8	virginica

1	13	25	37	49	61	73	85	97	109	121	133
2	14	26	38	50	62	74	86	98	110	122	134
3	15	27	39	51	63	75	87	99	111	123	135
4	16	28	40	52	64	76	88	100	112	124	136
5	17	29	41	53	65	77	89	101	113	125	137
6	18	30	42	54	66	78	90	102	114	126	138
7	19	31	43	55	67	79	91	103	115	127	139
8	20	32	44	56	68	80	92	104	116	128	140
9	21	33	45	57	69	81	93	105	117	129	141
10	22	34	46	58	70	82	94	106	118	130	142
11	23	35	47	59	71	83	95	107	119	131	143
12	24	36	48	60	72	84	96	108	120	132	144

bwt	gestation	age	height	weight	smoke
120	284	27	62	100	0
113	282	33	64	135	0
128	279	28	64	115	1
123	NA	36	69	190	0
108	282	23	67	125	1
136	286	25	62	93	0
138	244	33	62	178	0
132	245	23	65	140	0
120	289	25	62	125	0
143	299	30	66	136	1
140	351	27	68	120	0
144	282	32	64	124	1
141	279	23	63	128	1
110	281	36	61	99	1
114	273	30	63	154	0

bwt	gestation	age	height	weight	smoke
120	284	27	62	100	0
113	282	33	64	135	0
128	279	28	64	115	1
123	NA	36	69	190	0
108	282	23	67	125	1
136	286	25	62	93	0

	Sepal.Length
1	5.1
6	5.4
11	5.4
15	5.8
16	5.7
17	5.4
18	5.1
19	5.7
20	5.1
21	5.4
22	5.1
24	5.1
28	5.2
29	5.2
32	5.4
33	5.2
34	5.5
37	5.5
40	5.1
45	5.1
47	5.1
49	5.3
51	7.0
52	6.4
53	6.9
54	5.5
55	6.5
56	5.7
57	6.3
59	6.6
⋮	⋮
121	6.9
122	5.6
123	7.7
124	6.3
125	6.7
126	7.2
127	6.2
128	6.1
129	6.4
130	7.2
131	7.4
132	7.9
133	6.4
134	6.3
135	6.1
136	7.7
137	6.3
138	6.4
139	6.0
140	6.9
141	6.7
142	6.9
143	5.8
144	6.8
145	6.7
146	6.7
147	6.3
148	6.5
149	6.2
150	5.9

name	age	tall
Joe	29	186
Tom	27	178
Vicky	28	168

1	13	25	37	49	61	73	85	97	109	121	133
2	14	26	38	50	62	74	86	98	110	122	134
3	15	27	39	51	63	75	87	99	111	123	135
4	16	28	40	52	64	76	88	100	112	124	136
5	17	29	41	53	65	77	89	101	113	125	137
6	18	30	42	54	66	78	90	102	114	126	138
7	19	31	43	55	67	79	91	103	115	127	139
8	20	32	44	56	68	80	92	104	116	128	140
9	21	33	45	57	69	81	93	105	117	129	141
10	22	34	46	58	70	82	94	106	118	130	142
11	23	35	47	59	71	83	95	107	119	131	143
12	24	36	48	60	72	84	96	108	120	132	144

bwt	gestation	age	height	weight	smoke
120	284	27	62	100	0
113	282	33	64	135	0
128	279	28	64	115	1
123	NA	36	69	190	0
108	282	23	67	125	1
136	286	25	62	93	0
138	244	33	62	178	0
132	245	23	65	140	0
120	289	25	62	125	0
143	299	30	66	136	1
140	351	27	68	120	0
144	282	32	64	124	1
141	279	23	63	128	1
110	281	36	61	99	1
114	273	30	63	154	0

bwt	gestation	age	height	weight	smoke
120	284	27	62	100	0
113	282	33	64	135	0
128	279	28	64	115	1
123	NA	36	69	190	0
108	282	23	67	125	1
136	286	25	62	93	0

	Sepal.Length
1	5.1
6	5.4
11	5.4
15	5.8
16	5.7
17	5.4
18	5.1
19	5.7
20	5.1
21	5.4
22	5.1
24	5.1
28	5.2
29	5.2
32	5.4
33	5.2
34	5.5
37	5.5
40	5.1
45	5.1
47	5.1
49	5.3
51	7.0
52	6.4
53	6.9
54	5.5
55	6.5
56	5.7
57	6.3
59	6.6
⋮	⋮
121	6.9
122	5.6
123	7.7
124	6.3
125	6.7
126	7.2
127	6.2
128	6.1
129	6.4
130	7.2
131	7.4
132	7.9
133	6.4
134	6.3
135	6.1
136	7.7
137	6.3
138	6.4
139	6.0
140	6.9
141	6.7
142	6.9
143	5.8
144	6.8
145	6.7
146	6.7
147	6.3
148	6.5
149	6.2
150	5.9