programming/r

    [R] Java와 R 연동

    16. Java와 R 연동 16.1 Java에서 R을 호출하는 방법 rJava JRI Rserve - 설치 방법이 간단하고 웹서버에서도 사용가능 16.2 Rserve 설치 방법 16.2.1 RGui(R console)를 실행한 후 Rserve 패키지 설치(RStudio에서도 실행 가능) install.packages('Rserve',,'http://www.rforge.net/') 16.2.2 RGui에서 아래 코드를 먼저 실행한 후 자바 코드에서 호출 가능함 library(Rserve) Rserve(FALSE, port = 6311, args = '--RS-encoding utf8 --no-save --slave --encoding utf8 --internet2') Rserve(args = "--RS- ..

    [R] SVM(Support Vector Machines)

    13. SVM(Support Vector Machines) 13.1 개요 13.1.1 예측 기법 Boser, Guyon 및 Vapnik에 의해 1992년 제안된 이후, 1990년대 후반부터 현재까지 학계와 업계(주로 미국 및 유럽 선진국)에서 활발하게 활용되고 있는 예측 기법 13.1.2 기계학습의 분야 기계학습의 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도학습 모델 13.1.3 용도 주로 분류와 회귀 분석을 위해 사용됨 13.1.4 알고리즘 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때 새로운 데이터가 어느 카테고리에 속할지 판단하는 기준으로 가장 큰 폭을 가진 경계를 찾는 알고리즘 직선 B1과 B2 모두 두 범주를 잘 분류하고 있음 B2보다는 B1이 두 범주를 여유있게 분류하고..

    [R] 인공신경망

    11. 인공신경망 11.1 인공신경망의 개요 11.1.1 개요 11.1.1.1 인공지능의 한 분야 11.1.1.2 인간 두뇌의 생물학적 작동 형태를 모방하여 컴퓨터로 하여금 지적인 능력을 갖추게 하는 방법론 11.1.1.3 공학 부문에서 시작되어 재무 관리 등에 도입되기 시작 11.1.2 선형분류와 비선형분류 11.1.3 인공신경망의 구조 11.1.4 학습결과의 예 11.2 기본 개념 11.2.1 처리요소(PE) 11.2.1.1 각자의 인자(neuron)를 의미 11.2.1.2 노드(node) 또는 유니트(unit)라고 함 11.2.2 층(layer) 11.2.2.1 보통 세 개의 층(three-layered) 11.2.2.2 은닉(hidden) 층 입력값과 출력값을 연결시켜 주는 매개변수값으로 채워지게..

    [R] 요인분석, 주성분분석

    10. 요인분석, 주성분분석 10.1 Factor Analysis(요인 분석, 인자 분석) 러개의 변수들 중에서 유사한 항목끼리 묶어서 원래의 변수보다 작은 인자(Factor)로 축소시켜 상호 관계를 분석하는 방법, 변수들 간의 상관관계를 고려하여 서로 유사한 변수들 끼리 묶어주는 방법 수많은 변수들 중에서 잠재된 몇 개의 변수(요인)를 찾아내는 것 ex) 학생들의 시험 성적 데이터가 수학, 과학, 영어, 중국어, 독어, 작곡, 연주의 점수(0점-100점)로 구성되어 있다면 수학, 과학은 상관관계가 있을 것이고 (수리계산능력) 영어, 중국어, 독어는 상관관계가 있을 것이고 (외국어능력) 작곡, 연주는 상관관계가 있을 것이다. (음악적능력, 음악적재능) 원래 7개의 변수(과목)로 구성되어 있는 것을 3개의..

    [R] 로지스틱 회귀분석

    9. 로지스틱 회귀분석 9.1 LOGIT(Logistic Regression)의 기본 배경 9.1.1 분류를 하는데 있어서 가장 흔한 경우는 이분법(二分法)을 기준으로 분류하는 경우임 (예1) 특정 고객이 물건을 살 것인가? (0), 말 것인가? (1) (예2) 어떤 기업이 부도가 날 것인가? (0), 말 것인가? (1) (예3) 내일 컴퓨터가 고장이 날 것인가? (0), 말 것인가? (1) 9.1.2 이항 확률을 가진 종속변수를 통계적으로 설명하고자 할 때, 일반적인 회귀분석은 적용하기에 어려움이 있음 9.1.3 로지스틱 회귀분석은 값이 연속적인 값을 가지더라도, 로지스틱 함수의 결과값은 0과 1사이의 값을 갖도록 설계 되어 있기 때문에 이분법적인 분류 문제를 해결하는 모형으로 적합 9.2 LOGIT의..

    [R] 상관 분석과 회귀 분석

    8. 상관 분석과 회귀 분석 8.1 상관 분석 8.1.1 상관계수 8.1.1.1 피어슨 상관계수(Pearson correlation coefficient) 두 변수간의 관련성을 구하기 위해 보편적으로 이용됨 r = X와 Y가 함께 변하는 정도 / X와 Y가 따로 변하는 정도 결과의 해석 r 값은 X와 Y가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일하면 -1 을 가진다. 결정계수 (coefficient of determination) 는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다. 일반적으로 r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계, r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계, r이 -0.3과 -0.1사이이면, 약한 음적..

    [R] 가설 검정

    7. 가설 검정 7.1 통계 분석 7.1.1 모집단과 표본 7.1.1.1 모집단: 우리가 알고자 하는 대상 전체, 조사 대상의 범위 7.1.1.2 표본: 모집단으로부터 조사하기 위해 선택된 조사대상 7.1.2 전수조사와 표본조사 7.1.2.1 전수조사: 모집단을 구성하는 대상 전부를 조사하는 것 가장 정확하지만, 비용과 시간이 많이 들게 됨 전수조사가 불가능한 경우도 있음(예를 들어 감기약의 경우 모두 복용을 해야만 효과를 알 수 있음) 7.1.2.2 표본조사: 표본을 대상으로 조사 7.1.3 통계 분석 기법 7.1.3.1 어떤 그룹, 집단, 형태 등의 차이를 검정 1개, 2개 또는 그 이상의 데이터 차이가 있다고 볼 수 있는지를 검정하는 것 독립표본 t 검정, 대응표본 t 검정, ANOVA 등 7.1...

    [R] 기초통계량

    6. 기초통계량 6.1 데이터 분석 과정 6.1.1 정의 단계: 문제의 정의 고객으로부터 최대한의 정보를 얻어내야 함 6.1.2 분해 단계: 작은 단위로 분할한 후에 단계별로 해결 확보한 데이터를 분할된 단위에 맞추어 수집하거나 재구성 고객이 제공한 문제의 본질을 이해하고 분석 가능한 작은 단위로 문제를 분할한 후에 분석 수행 문제의 분해는 결과에 대한 예측을 기반으로 실행함 6.1.3 평가 단계 주어진 문제와 고객이 알고자 하는 것을 기준으로 현재의 시점에서 결과를 평가하는 단계 6.1.4 결정 단계 평가가 완료된 후 분석가의 결정을 전달하는 과정 데이터 분석 모델을 확정하고 데이터를 분석하여 최종적인 분석가의 의견을 확정하는 단계 6.1.5 반복 단계 새로운 자료나 상황이 발생할 경우 이미 실행한 단..

    [R] 데이터 시각화

    5. 데이터 시각화 5.1 그래프 작성 입문 plot(y축 데이터, 옵션) plot(y축 데이터, y축 데이터) plot(x축 데이터, y축 데이터, 옵션) 그래프의 제목 지정 5.2 그래프 옵션 # 0.0~1.0 사이의 난수 100개를 발생시킴 x

    [R] 데이터 처리

    4. 데이터 처리 4.1 실습 예제 4.1.1 기본적인 데이터 처리 4.1.2 R과 MySQL 연동 Rtools35.exe 다운로드 및 설치(R 버전에 맞게 설치해야 함) 기본옵션으로 설치(설치 시간이 오래 걸림) CREATE DATABASE mysqlweb; USE mysqlweb; DROP TABLE Score; CREATE TABLE Score ( student_no VARCHAR(50) PRIMARY KEY, kor INT DEFAULT 0, eng INT DEFAULT 0, mat INT DEFAULT 0 ); DELETE FROM Score; -- 레코드 입력 INSERT INTO Score (student_no, kor, eng, mat) VALUES ('1', 90, 80, 70); INS..