[언어데이터분석의기초] 1주차
옛날 :
직접 가서 현장답사-> 필사 -> 인쇄
생성주의 문법 어쩌고 촘스키 등 이론적 지식
->현재: Usage based apprach
언어학적 지식은 언어 이용을 기반으로 정리됨 : 무의식적으로 단어들의 빈도와 배치에 대한 수많은 정보를 습득
"intuitive statistican"
inter speaker, intra-speaker variation
: 말을 듣는 상대에 따라 화자 내부에서 말에 변화가 생김, 같은 말을 하더라도 사람에 따라 표현이 달라짐
Decontextualism-> Recontextualism
과거에 비해 맥락이 중요해짐, 어떤 문장 구조로 어떤 단어로 표현할 것인지 매순간 선택.
corpora, database
글자의 발명, 인쇄, 전자 매체 등 기술의 발전에 따라 양적 분서기 중요해짐
"데이터 자체를 볼 줄 알아야 분석 기법이 의미있음"
: 글자를 다루는 게 아니더라도 다 언어데이터임
ex) 자음과 모음 발음시 뇌의 이미지, 같은 단어를 다르게 발음하는 집단의 구분 등
Qualification vs Quantification
수집 방법에 따라 양적, 질적 분석 가능 여부가 달라짐
ex) 녹음해서 직접 들으면 질적, OX 정도로만 기록해두면 양적 연구, 둘 다 가능하기도
/
데이터의 Property ( = Feature, Variable, Ractor)
Nominal : 상호배타적, 그 자체로 순서나 크기의 표현 불가능 ( 상중하X ) ex) 성별, 이름 등
Ordinal : 순서의 표현 , 숫자 뿐 아니라 글자로도 가능 ( 상중하 ) , 같은 간격이라고 같은 차이는 아님! ex) 상이 중보다 두 배, 중이 하보다 두 배 잘하는 건 아님
Inerval (?) : 0이라고 해서 없다를 의미하는 게 아님 (ex: 0명 != 섭씨 0도) , 같은 간격이면 같은 차이임
Ratio : 실제로 0은 없음을 의미함. ex: 사용된 빈도가 0번, 학생이 0명, 길이, 시간 등 왜 비율..?
데이터 타입에 따라 사용하는 통계적 기법이 달라짐!
수치화된 데이터만 양적 분석이 가능.
그러나 같은 숫자여도 의미가 있고 없고가 달라짐
ex: 단순히 핸드폰번호라면 양적분석이 불가능한 숫자,
그러나 번호에 개통연도가 들어간다면 숫자가 특정 의미로 연결되므로 분석 가능
feature를 정확하게 설정해 놔야 데이터 분석이 정확하게 가능함
질적 분석
: 대화의 power imbalance
ex) 의사와 환자, 경찰과 증인
by 말차례의 횟수, 말의 길이, 질문 횟수, (-)대답 횟수, 개입 횟수 등
표를 만드는 걸로 끝이 아니고, 표 + 이론,지식을 근거로 결론까지 제시!
양적분석의 장점 :
비교가 쉬움
객관적임
정확하고 명확함
왜 통계학을 사용하는가
: 비슷함
1) Nominal Number
: 이름처럼 쓰이는 숫자
2) Continuius Number
: 측정 수단으로 쓰이는 숫자
ex) 평균 : 소수점도 가능
i) Interval data : 0의 값 존재X , 배수X : 20도가 10도보다 두 배 덥지 않음
ii) Ratio data : 절대적인 0의 값 존재 O , 배수 O : 2000단어는 1000단어보다 두 배 많음
3) Ordinal Number
: 순서를 메기는 목적의 숫자
1,2,3은 동시에 가능하기도 함. 배타적 성격X
corpora : 코퍼스
monastery: 수도원
empirical: 경험적인