카테고리 없음

[언어데이터분석의기초] 1주차

낑깡H 2022. 9. 13. 14:21


옛날 : 
직접 가서 현장답사-> 필사 -> 인쇄
생성주의 문법 어쩌고 촘스키 등 이론적 지식 

->현재:  Usage based apprach
언어학적 지식은 언어 이용을 기반으로 정리됨 : 무의식적으로 단어들의 빈도와 배치에 대한 수많은 정보를 습득 
"intuitive statistican"

inter speaker, intra-speaker variation
: 말을 듣는 상대에 따라 화자 내부에서 말에 변화가 생김, 같은 말을 하더라도 사람에 따라 표현이 달라짐 

Decontextualism-> Recontextualism 
과거에 비해 맥락이 중요해짐, 어떤 문장 구조로 어떤 단어로 표현할 것인지 매순간 선택.

corpora, database 
글자의 발명, 인쇄, 전자 매체 등 기술의 발전에 따라 양적 분서기 중요해짐 

"데이터 자체를 볼 줄 알아야 분석 기법이 의미있음"
: 글자를 다루는 게 아니더라도 다 언어데이터임 
ex) 자음과 모음 발음시 뇌의 이미지, 같은 단어를 다르게 발음하는 집단의 구분 등 

Qualification vs Quantification 
수집 방법에 따라 양적, 질적 분석 가능 여부가 달라짐 
ex) 녹음해서 직접 들으면 질적, OX 정도로만 기록해두면 양적 연구, 둘 다 가능하기도 

/

데이터의 Property ( = Feature, Variable, Ractor) 

Nominal : 상호배타적, 그 자체로 순서나 크기의 표현 불가능 ( 상중하X ) ex) 성별, 이름 등 
Ordinal : 순서의 표현 , 숫자 뿐 아니라 글자로도 가능 ( 상중하 ) , 같은 간격이라고 같은 차이는 아님! ex) 상이 중보다 두 배, 중이 하보다 두 배 잘하는 건 아님
Inerval (?) : 0이라고 해서 없다를 의미하는 게 아님 (ex: 0명 != 섭씨 0도) , 같은 간격이면 같은 차이임 
Ratio : 실제로 0은 없음을 의미함. ex: 사용된 빈도가 0번, 학생이 0명, 길이, 시간 등  왜 비율..?

데이터 타입에 따라 사용하는 통계적 기법이 달라짐! 

수치화된 데이터만 양적 분석이 가능.
그러나 같은 숫자여도 의미가 있고 없고가 달라짐 
ex: 단순히 핸드폰번호라면 양적분석이 불가능한 숫자, 
그러나 번호에 개통연도가 들어간다면 숫자가 특정 의미로 연결되므로 분석 가능 

feature를 정확하게 설정해 놔야 데이터 분석이 정확하게 가능함 

질적 분석 
: 대화의 power imbalance 
ex) 의사와 환자, 경찰과 증인 
by 말차례의 횟수, 말의 길이, 질문 횟수, (-)대답 횟수, 개입 횟수 등 

표를 만드는 걸로 끝이 아니고, 표 + 이론,지식을 근거로 결론까지 제시! 

양적분석의 장점 :
비교가 쉬움 
객관적임
정확하고 명확함

왜 통계학을 사용하는가 
: 비슷함 

1) Nominal Number 
: 이름처럼 쓰이는 숫자 

2) Continuius Number 
: 측정 수단으로 쓰이는 숫자 
ex) 평균 : 소수점도 가능
i) Interval data : 0의 값 존재X  , 배수X : 20도가 10도보다 두 배 덥지 않음 
ii) Ratio data : 절대적인 0의 값 존재 O , 배수 O : 2000단어는 1000단어보다 두 배 많음 

3) Ordinal Number 
: 순서를 메기는 목적의 숫자 


1,2,3은 동시에 가능하기도 함. 배타적 성격X 

corpora : 코퍼스 
monastery: 수도원
empirical: 경험적인