1-3. 한국어 방언 발화 데이터를 사용한 음성인식 모델 개발

2022 한국어 AI 경진대회 Track1. 한국어 음성인식 성능향상

기간

2022. 12. 01 00:00 ~ 2022. 12. 01 00:00

주최

㈜어반에이핏

주관

한국지능정보사회진흥원(NIA)

대회 안내


한국어 방언 발화 데이터를 사용한 음성인식 모델 개발


2022 한국어 AI 경진대회 Track1. 한국어 음성인식 성능향상

2022 한국어 AI 경진대회는 AI-Hub 개방 한국어 음성 데이터를 사용하여 한국어 음성인식 인공지능 모델을 개발하는 대회로 개최되었습니다.

대회에 사용된 방언 발화 음성 데이터를 이용하여 한국어 음성인식 인공지능 모델을 만들어보세요!



※ 기프티콘 이벤트

새롭게 시작하는 AI Hub 데이터 셋 활용 상시 리더보드 챌린지!
참가하신 분들에게 선착순으로 100분께 스타벅스 기프티콘을 제공드립니다.
많은 참여 부탁드립니다!

https://forms.gle/6qsC6Ntqmzc57wsR9



1. 챌린지 내용

  • • 한국어 방언 발화 음성 데이터를 활용한 음성인식 모델 개발
  • • 데이터 출처 및 베이스라인 코드
구분 URL
한국어 방언 발화(강원도) https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=118
한국어 방언 발화(충청도) https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=122
베이스라인 코드 https://github.com/KoreanAI2022/2022-Korean-AI-Competition/tree/main/baseline

가) 한국어 방언 발화(강원도) 설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.

 

• 구축 목적

  • 강원도 방언 AI 학습데이터 구축 목적은 은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 강원도 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.

• 활용 분야

  • 강원도 방언 데이터는 언어 데이터의 특성 상 광법위한 산업군에서의 활용이 가능하며 인공지능 음성인식 플랫폼, 인공지능 대화 플랫폼 등에 주로 사용이 가능하며 관련된 제품 AI 스피커, 자율주행 차량, AI 기술 적용 가전제품등의 음성인식 기술이 적용되는 다양한 제품에 활용 가능.

• 소개

  • 강원도 방언을 사용하는 10대~60대의 일상 대화를 수집하여, 수집된 음성을 문자로 실시간 변환하고, 인공지능 학습이 가능한 JSON 형태의 학습 데이터 셋을 구축
소개 표
항목 내용
수집 대상 - 대상 (조용한 환경에서 발화한 성별, 연령별 적정 길이의 음성)
- 지역 (강원도지역)
- 환경 (실제 데이터셋의 활용도가 높고 자주 발생하는 산업 분야)
데이터 규모 - 각 구역별 2,000명 이상의 화자가 발화한 총 3,000시간 이상
- 표준어 텍스트 및 방언 특성을 고려하여 전사한 텍스트 50만건
데이터 형태 - 원본형태 (화자가 구분된 담화 텍스트 말뭉치)
- 학습용 데이터 형태 (방언 발화된 음성 데이터가 맵핑된 텍스트, 음성 데이터셋)
데이터 정제 - 화자의 환경과 상태 (분노, 기쁨 등)를 고려 - 원본 텍스트와 방언 텍스트의 맵핑 - 적절한 학습을 위해 입력 데이터의 길이

나) 한국어 방언 발화(충청도) 설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.

 

• 구축 목적

  • 충청도 방언 AI 학습데이터 구축 목적은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.

• 활용 분야

  • 충청도 방언 AI 학습 데이터는 언어 데이터의 특성 상 광법위한 산업군에서의 활용이 가능하며 인공지능 음성인식 플랫폼, 인공지능 대화 플랫폼 등에 주로 사용이 가능하며 관련된 제품 AI 스피커, 자율주행 차량, AI 기술 적용 가전제품등의 음성인식 기술이 적용되는 다양한 제품에 활용 가능.

• 소개

  • 충청도 방언을 사용하는 10대~60대의 일상 대화를 수집하여, 수집된 음성을 문자로 실시간 변환하고, 인공지능 학습이 가능한 JSON 형태의 학습 데이터 셋을 구축
소개 표
항목 내용
수집 대상 - 대상 (조용한 환경에서 발화한 성별, 연령별 적정 길이의 음성)
- 지역 (충청도 지역)
- 환경 (실제 데이터셋의 활용도가 높고 자주 발생하는 산업 분야)
데이터 규모 - 각 구역별 2,000명 이상의 화자가 발화한 총 3,000시간 이상
- 표준어 텍스트 및 방언 특성을 고려하여 전사한 텍스트 50만건
데이터 형태 - 원본형태 (화자가 구분된 담화 텍스트 말뭉치)
- 학습용 데이터 형태 (방언 발화된 음성 데이터가 맵핑된 텍스트, 음성 데이터셋)
데이터 정제 - 화자의 환경과 상태 (분노, 기쁨 등)를 고려 - 원본 텍스트와 방언 텍스트의 맵핑 - 적절한 학습을 위해 입력 데이터의 길이



2. 일정

  • • 12/1(목) ~ 추후 공지 시까지



3. 참가대상

  • • 대한민국 국민 누구나



4. 주최 및 주관

  • • 주관: 한국지능정보사회진흥원(NIA)



5. 문의

  • - 챌린지 페이지 내 문의 게시판 이용
  • - 실시간 문의 대응 시간 : 평일 09:00 ~ 18:00 (18:00 이후는 익일 대응)