Speech recognition(음성인식) (1) 개요

2018/9/20 일 전면_수정

음성인식이란?

음성 인식이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말합니다. 음성 인식은 아날로그 음성 신호를 디지털로 바꾸는 신호 처리부터 시작하여 신호의 음성적인 특징을 추출하는 일을 말하며 이는 자연어 처리와 같은 응용분야에 있어서도 중요한 역할을 할 수  밖에 없기에 중요한 분야입니다.

응용분야

apple siri

amazon echo

Human Speech Recognition Process

음성인식문제에 대해서 생각하기에 앞서 사람의 음성인식과정에 대해서 한번 되짚어 보자

사람의 음성 인식 과정을 아래과 같이 이루어진다.

  • Speech Production
  • Speech Perception(음성을 자각)
  • Speech Understanding(음성을 이해)

Speech Production

Speech production 은 생각을 음성으로 옮기는 과정이며 다음과 같이 성대,혀와 같은 발성 구조에서 비롯된다. 이는 인식에서는 큰 중요성이 없으므로 넘어가자..

https://en.wikipedia.org/wiki/Speech_production#/media/File:Illu01_head_neck.jpg

Speech perception

Speech perception 본격적으로 음성을 인식하는 과정이다. 이 과정은 언어를 듣고 해석하여 이해를 하는과정을 총칭한다. 이 부분이 이 글에서 다루게 되는 중점적인 과정이다.

 A spectrogram of the phrase “I owe you”. There are no clearly distinguishable boundaries between speech sounds.
https://en.wikipedia.org/wiki/Speech_perception

위 그림은 i owe you 구문을 주파수 영역으로 나타는 그림이다. 

Speech understanding 

Speech understanding  앞에서 인식한 음성 및 소리를 해석하는 과정이다 여기서 부터는 자연어 처리의 영역이 된다. 위의 음성 인식과의 차이가 있다면 위에서는 소리신호에서 특징을 추출하여 단어 단위 혹은 문장 단위를 추출 하는 것 이며 이 과정은 이전에 추출한 것을 해석하는 단계이다. 예를 들자면 “i love you” 라는 문장을 소리에서 텍스트로 옮기는 것을 위 과정에서 하며 여기서는 위 문장의 의미에 대하여 이해 또는 해석 및 가공을 하는 단계이다.  

그럼 이제 부터 조금 어떻게 음성인식을 공학적으로 접근할지에 대해서 생각해보자

음성인식은 Sequence-to-sequence 이다. 

즉  waveform (continuous) →word sequence (discrete) 으로의 변환이다.

우리는 아래의 연속적인 waveform 으로 부터 word sequence 를 추출해야 한다.

다음 포스트에서 본격적으로 음성 인식에 대하여 다루어 보겠다. 

댓글을 남겨주세요~