음성 신호를 인식기를 통하여 문자나 사용자가 인식할 수 있는 데이터로 변환하는 음성인식 기술은 IT기술의 발달에 따라 다양한 용도로 사용이 가능하다. 이러한 기술은 이동 통신기기, 가전제품, 자동차, 로봇 등에 적용이 가능해지면서 일상 생활에 많은 변화를 가져오고 있다. 음성 인식 방법은 마이크 등의 입력장치에서 입력되는 음성신호를 미리 학습 된 음성신호나 DB에 저장해놓은 데이터를 비교하여 인식하 는 방법이 가장 많이 사용
잡음이 섞인 음성신호의 잡음을 제거하는 음성강화법
[1-3] 은 FIltering Techniques에 해당하는 SSM (Spectral Subtraction Method)
[4,5], Wiener Filtering
[6], SSA (Signal Subspace Approach)
[7] 방법과 Spectral Restoration에 해당하는 MMSE (Minimum Mean Square Error)
[8,9]와 MMSE-STST (Minimum Mean Square Error Short Time Spectral Amplitude Estimator) 등이 있으며 모델 보상법에는 HMM decomposition
[10,11], PMC (Parallel Model Compensation)
[12]가 있다. 그리고 음성신호에서 특징을 추출 하는 알고리즘[13]으로는 MFCC (Mel-Frequency Cepstral Coefficient) [14-16], PLP (Perceptual Linear Prediction) [17], SMC (Short-time Modified Coherence)
[18], Cepstral Compensation
MFCC는 음성처리에서 신호의 잡음을 제거하는 알고리즘 중 가장 많이 사용되는 인식률이 높은 알고리즘 중 하나이며 본 논문에서는 특정주파수 대역에서 잡음이 제거되지 않는 단점을 개선하여 Adaptive MFCC 알고리즘을 제안
분류기는 Deep learning 알고리즘 중 DNN (Deep Neural Network) 알고리즘을 사용한다. Deep Learning 알고리즘은 복 수개의 은닉층으로 이루어진 신경망 알고리즘인데 기존의 신경망 알고리즘과 같이 비선형 모델링을 할 수 있어 많은 용도의 분류기로 사용이 된다. 이 방식은 기존의 신경망 알 고리즘의 과학습(Over Learning)의 문제점을 해결한 알고리즘 으로 신경망 알고리즘보다 더 적은 노드만으로 비선형 모델 링을 할 수 있어 기존의 신경망 알고리즘보다 학습시간도 적 게 걸리며 연산량도 줄어들었다. 학습이 잘된 DNN은 잡음이 섞여 있는 데이터도 인식률이 높다. 여기서 Adaptive MFCC를 이용하여 잡음이 제거된 신호 를 DNN의 학습데이터로 이용한다. 그림 5와 같이 DNN 알 고리즘의 구조는 입력층, 은닉층 그리고 출력층으로 나뉘 는데 입력층은 잡음이 제거된 데이터를 넣어주며 히든층은 6개의 층으로 설계
음성인식기는 마이크나 다른 입력장치를 통해 입력되는 음성신호를 이용하여 기존의 Database와 비교하여 가장 유사 한 데이터를 찾는 방법이 널리 쓰이고 있다. 따라서 잡음이 제거된 데이터가 Database에 있으므로 입력받은 음성신호에 서 잡음을 제거하는 것이 음성인식을 하는데 가장 큰 부분을 차지한다.
MFCC를 개선하여 환경에 강인한 음성인식 을 위한 효과적으로 잡음을 제거한 후 Deep Learning을 통하 여 인식을 하였으며, 그 결과를 인식률로 비교하였다. 특히 인식률 향상을 위하여 Smooth와 적응필터를 통하여 데이터 에 손상을 주지 않으면서 잡음을 제거하였다. 기존의 MFCC 는 특정 대역의 잡음이 잘 제거되지 않는 단점으로 인하여 인식률이 저하되었지만 개선된 MFCC는 음성데이터를 손상 시키지 않으면서도 모든 대역의 잡음을 제거하기 위하여 Smooth를 통하여 1차적으로 아주 작은 크기의 잡음을 제거 해주었다. 또한 주파수 대역과 무관하게 어떠한 잡음이라도 인식률에 영향을 미치지 않게 하기 위해서 입력되는 신호의 각 주파수 대역의 크기가 큰 순서대로 약 50개 정도의 주파 수 대역을 평균과 분산을 구해서 각 필터마다 가중치를 주어 서 특정 잡음이 인식률에 영향을 미치지 않도록 적응필터를 설계하였다. 따라서 기존의 MFCC는 특정 주파수 대역의 잡 음이 제거되지 않아서 인식률이 저하되는 상황을 개선된 MFCC를 통하여 잡음에 의해 인식률이 저하되는 경우가 없 도록 하였다. 또한 Deep Learning 알고리즘을 이용하여 메모 리가 작은 임베디드 환경에서도 사용이 가능하도록 하였으 며 HMM 보다 Deep Learning 알고리즘에 조금 더 높은 인식 률을 보이는 것을 확인
"스마트인재개발원에서 진행된 수업내용입니다"
스마트인재개발원
4차산업혁명시대를 선도하는 빅데이터, 인공지능, 사물인터넷 전문 '0원' 취업연계교육기관
www.smhrd.or.kr
'스마트 인재개발원 > 3차프로젝트' 카테고리의 다른 글
(광주인공지능학원) 3차프로젝트 안드로이드 어플리케이션 만들기 및 논문분석 (0) | 2021.08.22 |
---|---|
(광주인공지능학원) 3차프로젝트 멀티쓰레드 설계 및 울음소리 분석 (0) | 2021.08.22 |
(광주인공지능학원) 3차프로젝트 파이썬 멀티쓰레드 & CNN 신생아 울음소리 분석(2) (0) | 2021.08.15 |
(광주인공지능학원)신생아 울음소리 분석 CNN모델 만들기 (4) | 2021.08.15 |
(광주인공지능학원) Skeleton Vector Information and RNN Learning Algorithm 공부하기 (0) | 2021.08.01 |