본문 바로가기

데이터로 읽어보는 이야기

호밀밭의 파수꾼: 정말 욕설이 많은 소설인가?

호밀밭의 파수꾼은 미국 청소년 필독 도서 중 하나로서 한마디로 ‘고전’이다. 소설은 사춘기 청소년 홀든 콜필드의 방황을 통해 어른들의 세계와 아이들의 세계를 대비한다. 어른의 경계선 앞에서 홀든은 어른들의 위선을 역겨워하며, 호밀밭의 파수꾼처럼 아이들과 순수함을 간직하고 싶다는 의지를 표명한다. 이러한 모습은 홀든이 어른들의 세계에 있는 다른 친구들과는 끊임없이 갈등하지만, 자신의 여동생 피비만큼은 누구보다 사랑하는 것을 통해 드러난다.

 

물론 호밀밭의 파수꾼에 대해서 긍정적인 시선만 존재하는 것은 아니다. 청소년 권장 소설임에도 불구하고 호밀밭의 파수꾼은 선정적이고 폭력적인 장면이 많으며, 무엇보다 주인공 홀든의 입에서 내뱉어진 욕설이 소설에 가득하다. 이러한 점이 과연 소설이 청소년들에게 권장할만한 소설인지 의문이 들게 하는 부분이다.

 

하지만 정말 소설은 선정적인 장면과 욕설이 난무하는 소설일까? 물론 읽으면서 그렇게 느끼기는 하지만 ‘데이터’는 무엇을 말할까. 데이터를 통해 읽은 호밀밭의 파수꾼은 어떤 특이한 점이 있을까. 영문판 호밀밭의 파수꾼을 데이터 분석하여서 낱낱이 파악해보자.

 

1. 소설의 길이는? 

소설의 길이는 어떠할까. 호밀밭의 파수꾼은 중편 소설이다. 마음을 굳게 먹으면 하룻밤에 읽을 수 있는 소설이다.

 

영문판 호밀밭의 파수꾼은 서두에 작가의 인사말을 제외하면 총 26장으로 구성되었다. 각 장의 길이를 확인하기 위해서 알파벳 글자 수, 중복을 포함한 단어의 수, 중복을 제외한 단어의 수를 계산해보았다. 결론적으로 소설 극 후반부에 많은 내용이 쏟아지는 것을 확인할 수 있다.

 

소설의 길이

소설에서 장의 길이가 의미하는 것은 무엇일까. 개인적으로 소설의 장은 작가가 흐름을 끊지 않으면서 원하는 내용을 전달하기 위해 설정한 최소의 단위라고 생각한다. 그렇다면 작가가 25장을 다른 장에 비해 특히 길게 작성한 이유는 무엇일까.

 

이는 25장이 소설에서 가장 중요한 내용을 말하고 있기 때문이라고 생각한다. 작가는 25장을 더 작은 단위로 나누고 싶지 않았던 것이다. 25장은 홀든이 뉴욕에서의 방황을 멈추고 피비와 함께 공원에서 즐겁게 노는 장면을 묘사한다. 소설 내내 불평불만을 일삼은 홀든이 유일하게 행복해하는 모습이 여기서 등장한다. 방황의 끝에서 행복한 모습의 홀든과 피비를 작가는 애정 어린 시선으로 공을 들여 묘사한 것이라고 생각한다.

 

소설은 홀든이 자신을 소개하는 방식으로 이루어진다. 따라서 1장과 26장은 홀든의 인사말로서 다른 장에 비해서 굉장히 짧은 것도 소설의 길이와 관련된 특징이다.

2. 정말 욕설이 많은가?

데이터를 통해 읽은 호밀밭의 파수꾼의 주된 목적이다. 정말 호밀밭의 파수꾼에는 욕설이 많이 등장하는가. 결론부터 말하자면 “그렇다”. 다른 소설에 비해서 욕설이 많다.

단어의 빈도 분포

불용어(큰 의미는 없지만 문법적 기능을 하는 고빈도어)를 제외하고 상위 200개의 단어와 그 빈도를 확인하였다. 나타난 단어 중 구어체 욕설을 찾아보면 goddam, hell, damn, bastard가 있다. 소설에서 가장 많이 등장하는 200개의 단어 중에 욕설 단어 4개가 100위 안에 든다면, 그 소설은 욕설이 많이 등장하는 소설이라고 할 수밖에 없다.

상위 빈도 단어 워드클라우드

상위 단어가 무엇이 추출되었는지 확인해보면 욕설이 얼마나 높은 비중으로 소설에 등장하는지 체감할 수 있다. 상위 빈도의 단어는 say, get, like와 같이 상당히 일반적인 의미의 동사이다. 그 가운에 goddam은 give, look과 같은 일반적인 단어보다도 많다. 자세히 확인해본 결과 거의 모든 장에서 goddam이 사용되었다.

 

하지만, 놀랍게도 sex와 같이 선정적인 묘사와 관련된 단어가 눈에 띄지 않는다. 선정적이고 폭력적인 묘사가 소설에서 없는 것은 아니다. 하지만 특정 장면이 크게 부각되면서 마치 소설이 전체적으로 선정적이고 폭력적인 것처럼 이미지가 구축된 것은 아닐까라는 의심이 든다.

3. 특정 단어와 유사한 단어를 찾아보자 

word2vec은 단어를 벡터화하고, 벡터화된 단어를 기반으로 유사한 단어를 찾을 수 있는 딥러닝 모델이다. word2vec의 기본적인 가정은 단어의 의미는 문맥에 의해서 결정된다는 것이다. 따라서 중심 단어를 기준으로 일정 윈도우 크기 안의 문맥 단어를 예측할 수 있도록 신경망 모델을 학습한다(skip-gram). 학습의 효율성을 위해서 Multi-Classification 은 Binary-Classification 문제로 변형되며 이를 위해서는 Negative Sampling 과정이 필요하다.

 

구현된 word2vec을 통해서 단어에 대한 Embedding을 얻을 수 있다. 주인공 Holden에 대한 Embedding과 유사한 단어를 찾아보면 Caulfield가 가장 먼저 등장한다. 아마 Holden Caulfield가 풀 네임으로서 많이 등장하기 때문이라고 할 수 있다. 그 외에도 자신이 사랑하는 동생을 의미하는 4b도 등장하는 것으로 봐서 홀든과 관련된 속성을 잘 파악한 것이라고 할 수 있다.

 

 

https://github.com/dhsong95/the-catcher-in-the-rye

 

dhsong95/the-catcher-in-the-rye

Data Read Books: The Catcher in the Rye. Contribute to dhsong95/the-catcher-in-the-rye development by creating an account on GitHub.

github.com