단어 통계

1

트윈워드는 언어처리 기반 기술을 바탕으로 키워드 리서치 툴을 제공하고 있으며, 관련 검색엔진최적화(SEO, Search Engine Optimization) 마케팅도 제공하고 있습니다. 이러한 제품과 서비스가 언어와 관련이 있다보니, 언어 및 단어 관련 통계 정보에 관심이 많습니다.

먼저 보통 사람들이 평생 익히는 단어의 수는 대략 2만 단어에서 3만 단어 쯤 된다고 합니다. 10년 치 미국의 월스트리트 저널에 나온 고유명사를 제외한 단어를 세어보면 중복을 제외하고 2만개가 안된다고 하고, 현대 사람들이 인지하는 단어는 약 3만개 정도 라고도 합니다.

여기에도 예외가 있는데요, 셰익스피어의 경우 매우 높은 어휘 실력을 가지고 있어서 그의 작품에 사용된 단어 수만 2만 5천 개가 넘기에, 많은 연구자들은 셰익스피어가 알고 있던 어휘는 이보다 훨씬 더 많을 거란 추정을 하고 있답니다. 많은 사람들이 쓴 10년 치 미국 월스트리트 저널보다 더 많은 어휘를 한 개인이 사용했다니 새삼 놀랍습니다.

물건의 종류와 단어의 개수는 서로 상관관계가 있는데요, 새로운 물건이 생길 때마다 단어가 필요하기 때문입니다. 현대인이 신조어를 자꾸 익혀야 하는 원인 중의 하나는 새로운 물건의 탄생 주기가 점점 짧아지고 있기 때문일 것입니다. 영어의 경우 98분 마다 한 단어가 생기고 있으며, 기준에 따라 다르겠지만 대략 100만 단어 이상이 있다고 합니다.

성인과 청소년의 어휘 능력도 확실히 차이가 나는데요, 청소년은 보통 3,000 개의 단어를 알고 있다고 합니다. 다만, 청소년이 알고 있는 3,000 개라는 단어와 어른이 알고 있는 2만 ~ 3만 개의 단어를 카테고리로 분류해 보면 큰 차이가 없다고 합니다. 예를 들어 청소년은 가위라는 단어만 알고 있다면, 성인은 공업용 가위, 요리용 가위, 수술 가위, 코털 가위 등으로 세분화하여 알고 있다는 얘기입니다. 조금 과장하여 말하자면 우리가 아는 단어는 청소년기에 다 배웠다고 볼 수도 있겠습니다.

한편 이러한 과정, 즉 단순한 개념에서 복잡한 개념으로 점차 인식을 넓혀가는 과정은 마치 단세포에서 다세포, 초유기체, 사회화 과정으로 진화해 간 생명체와 유사하다는 생각이 들기도 합니다. 화석화되어 사전에만 수록되어 있는 단어도 있고 이제 막 생겨난 단어나 거의 사용을 안해서 멸종 위기에 있는 단어도 있으니 말입니다.

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.