1-2. 한국어 자유대화 음성 데이터를 사용한 음성인식 모델 개발

2022 한국어 AI 경진대회 Track1. 한국어 음성인식 성능향상

기간

2022. 12. 01 00:00 ~ 2022. 12. 01 00:00

주최

㈜어반에이핏

주관

한국지능정보사회진흥원(NIA)

대회 안내


한국어 자유대화 음성 데이터를 사용한 음성인식 모델 개발


2022 한국어 AI 경진대회 Track1. 한국어 음성인식 성능향상

2022 한국어 AI 경진대회는 AI Hub 개방 한국어 음성 데이터를 사용하여 한국어 음성인식 인공지능 모델을 개발하는 대회로 개최되었습니다.

대회에 사용된 자유대화 음성 데이터를 이용하여 한국어 음성인식 인공지능 모델을 만들어보세요!



※ 기프티콘 이벤트

새롭게 시작하는 AI Hub 데이터 셋 활용 상시 리더보드 챌린지!
참가하신 분들에게 선착순으로 100분께 스타벅스 기프티콘을 제공드립니다.
많은 참여 부탁드립니다!

https://forms.gle/6qsC6Ntqmzc57wsR9



1. 챌린지 내용

  • • 한국어 자유대화 음성 데이터를 활용한 음성인식 모델 개발
  • • 데이터 출처 및 베이스라인 코드
구분 URL
자유대화 음성(노인남여) https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=107
자유대화 음성(소아,유아) https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=108
자유대화 음성(일반남여) https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=109
베이스라인 코드 https://github.com/KoreanAI2022/2022-Korean-AI-Competition/tree/main/baseline

가) 자유대화 음성(노인남여) 설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.

 

• 구축 목적

  • 노인 음성데이터의 경우 사투리, 억양 등의 발화 특성이 타 연령대와 다른 특성이 존재하기에, 노인 대상 음성 서비스를 위해서는 별도의 음성인식 데이터의 구축이 필요

• 활용 분야

  • 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등의 연구 분야와 온/오프라인 기반의 음성인식, AI비서, Voice Bot, Voice Command & Control, AI 로봇, 음성인식 기반 키오스크 등의 산업분야에 활용

• 소개

  • 자연어 자유대화 노인남여 학습데이터셋은 60세 이상 남여 사용자들의 자유대화 음성데이터 및 음성데이터 전사결과, 녹음 대상자의 정보, 녹음환경 등의 정보를 포함한 메타데이터로 구성자유대화 음성(노인남녀)-소개-1

     


나) 자유대화 음성(소아,유아) 설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.

 

• 구축 목적

  • 소아들의 음성인식 관련 서비스가 증가되고 있으나 소아들의 발화 특성(어휘, 발음 등)을 반영한 음성학습 데이터의 부족으로 음성인식 품질 이슈가 있으며 이를 극복하기 위해 해당 연령대의 별도의 학습데이터 구축이 필요

• 활용 분야

  • 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등의 연구 분야와 온/오프라인 기반의 음성인식, AI비서, Voice Bot, Voice Command & Control, AI 로봇, 음성인식 기반 키오스크 등의 산업분야에 활용

• 소개

  • 자연어 자유대화 소아남여 학습데이터셋은 연령대를 2단계로 구분하여 (3~6세, 7~10세) 사용자들의 자유대화 음성데이터 및 음성데이터 전사결과, 녹음 대상자의 정보, 녹음환경 등의 정보를 포함한 메타데이터로 구성

     

자유대화 음성(소아, 유아)-소개-1


다) 자유대화 음성(일반남여) 설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.

 

• 구축 목적

  • 자유대화를 효과적으로 인식하기 위해 인공지능(AI) 기반 한국어 자유대화(일상대화) 데이터를 구축하며, 국민들에게 더욱 질 높은 인공지능(AI) 서비스를 제공 할 수 있는 양질의 학습데이터 확보하여 기술적 기반을 마련

• 활용 분야

  • 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등의 연구 분야와 온/오프라인 기반의 음성인식, AI비서, Voice Bot, Voice Command & Control, AI 로봇, 음성인식 기반 키오스크 등의 산업분야에 활용

• 소개

  • 자연어 자유대화 학습데이터셋은 일반 사용자들의 자유대화 음성데이터 및 음성데이터 전사결과, 녹음 대상자의 정보, 녹음환경 등의 정보를 포함한 메타데이터로 구성

     

자유대화(일반남여) 소개 이미지




2. 일정

  • • 12/1(목) ~ 추후 공지 시까지



3. 참가대상

  • • 대한민국 국민 누구나



4. 주최 및 주관

  • • 주관: 한국지능정보사회진흥원(NIA)



5. 문의

  • - 챌린지 페이지 내 문의 게시판 이용
  • - 실시간 문의 대응 시간 : 평일 09:00 ~ 18:00 (18:00 이후는 익일 대응)