小編整理: 分類(lèi)變量是用于表示事物類(lèi)別的變量,其取值是分類(lèi)數據,如“性別”、“行業(yè)”等。分類(lèi)變量的取值是離散的,通常是一組有限的非連續值。它們可以被用來(lái)區分不同的事物,并描述它們的特征和屬性。
分類(lèi)變量 說(shuō)明事物類(lèi)別的名稱(chēng)
分類(lèi)變量(categorical variable)是說(shuō)明事物類(lèi)別的一個(gè)名稱(chēng),其取值是 分類(lèi)數據 。如“性別”就是一個(gè)分類(lèi)變量,其變量值為“男”或“女”;“行業(yè)”也是一個(gè)分類(lèi)變量,其變量值可以為“零售業(yè)”、“旅游業(yè)”、“汽車(chē)制造 業(yè)”等。
基本信息
性質(zhì)
說(shuō)明事物類(lèi)別的一個(gè)名稱(chēng),其取值是分類(lèi)數據
簡(jiǎn)介
特征 (categorical variable):其變量值是定性的,表現為互不相容的類(lèi)別或屬性。
處理方法 中序次測度變量和名義測度變量的處理方法一樣,所以一般并不加以區分,序次測度變量常作為名義測度變量來(lái)用,把二者合稱(chēng)為分類(lèi)變量。
啞變量 分類(lèi)自變量的啞變量(dummy variables)編碼來(lái)源:生物統計學(xué)論壇 在多重回歸、Logistic回歸模型中,自變量可以是連續型變量(interval variables),也可以是二項分類(lèi)變量,和多分類(lèi)變量。為了便于解釋?zhuān)瑢Χ椃诸?lèi)變量(如好壞、死活、發(fā)病不發(fā)病等)一般按0、1編碼,一般0表示 陰性 或較輕情況,而1表示陽(yáng)性或較嚴重情況。如果對二項分類(lèi)變量按+1與-1編碼,那么所得的 logistic回歸 OR=exp(2beta),多重回歸的beta同樣增加一倍,容易造成錯誤的解釋。因此建議盡量避免“+1”、“-1”編碼形式。多分類(lèi)變量又可分為有序(等級)或無(wú)序(也叫名義),如果是有序(ordinal)分類(lèi)變量,一般可按對 因變量 影響由小到大的順序編碼為1、2、3、...,或按數據的自然大小,將它當作連續型變量處理。如果是無(wú)序的(nominal)分類(lèi)變量,則需要采用啞變量(dummy variables)進(jìn)行編碼,下面以職業(yè)(J)為例加予以說(shuō)明。假如職業(yè)分類(lèi)為工、農、商、學(xué)、兵5類(lèi),則可定義比分類(lèi)數少1個(gè),即5-1=4個(gè)啞變量
類(lèi)型 變量類(lèi)型不是一成不變的,根據研究目的的需要,各類(lèi)變量之間可以進(jìn)行轉化。例如血紅蛋白量(g/L)原屬數值變量,若按 血紅蛋白 正常與偏低分為兩類(lèi)時(shí),可按二項分類(lèi)資料分析;若按重度貧血、中度貧血、輕度貧血、正常、血紅蛋白增高分為五個(gè)等級時(shí),可按等級資料分析(資料是根據臨床數據得出)。有時(shí)亦可將分類(lèi)資料數量化,如可將病人的惡心反應以0、1、2、3表示,則可按數值變量資料(定量資料)分析。
分類(lèi) 分類(lèi)變量可分為無(wú)序變量和有序變量?jì)深?lèi)。
釋義 無(wú)序分類(lèi)變量(unordered categorical variable)是指所分類(lèi)別或屬性之間無(wú)程度和順序的差別。,它又可分為①二項分類(lèi),如性別(男、女),藥物反應(陰性和陽(yáng)性)等;②多項分類(lèi),如血型(O、A、B、AB),職業(yè)(工、農、商、學(xué)、兵)等。對于無(wú)序分類(lèi)變量的分析,應先按類(lèi)別分組,清點(diǎn)各組的觀(guān)察單位數,編制分類(lèi)變量的頻數表,所得資料為無(wú)序分類(lèi)資料,亦稱(chēng) 計數資料 。 有序分類(lèi)變量 (ordinal categorical variable)各類(lèi)別之間有程度的差別。如尿糖化驗結果按-、±、+、++、+++分類(lèi);療效按治愈、顯效、好轉、無(wú)效分類(lèi)。對于有序分類(lèi)變量,應先按等級順序分組,清點(diǎn)各組的觀(guān)察單位個(gè)數,編制有序變量(各等級)的頻數表,所得資料稱(chēng)為 等級資料 。