Pado Speech | Pado 제품

Pado Speech: 영상 속 음성을 텍스트로 추출하는 음성인식 기능으로 다양한 서비스에 활용해보세요.

특징

억양과 발화 환경에 구애받지 않는
한국어 맞춤 음성 인식 API

영상 속 음성을 텍스트로 추출하여 자막 및 영상 편집 서비스를 만들 때 활용할 수 있는 음성 인식 API 서비스입니다.

높은 성능의 딥러닝 기술: 노이즈 제거, 음성 구간 추출 등을 위해 새로운 딥러닝 기술을 적용했습니다.

빠른 인식 속도: 영상·음성 파일 내 음성 데이터를 빠른 속도로 인식해 텍스트로 변환합니다.

다양한 발음도 OK: 라이브 방송의 다양한 발음 및 발화 환경, 인터넷 방송 용어에 최적화된 제품입니다.

추가 학습으로 성능 향상: AI를 추가적으로 학습시켜 영상 주제에 특화된 제품으로 성능을 향상할 수 있습니다.

문자 기반 음성인식: 문자 단위로 읽는 음성인식으로 학습되지 않은 단어도 높은 정확도로 인식 가능합니다.

타임 스탬프 가능: 문장의 시작과 끝을 표시해주는 타임 스탬프 기능으로 손쉽게 자막 생성이 가능합니다.

BETA

화자 분리 기능: 여러 화자의 목소리를 구분하여 별개의 발화로 인식할 수 있는 기술이 적용되어 있습니다.

Demo

예시 영상으로 Pado Speech의 성능을 직접 확인해보세요

- 화자 04
- 00:00
청주와 세종시를 최단거리로 연결하는 도로가 추석을 앞두고 부분개통했습니다

- 화자 02
- 00:05
편해졌지만 현재 같은 상황에선 세종시 빨대 현상이 심화될 것이란는 우려도 커지고 있습니다 김대영 기자입니다

- 화자 01
- 00:15
청주와 세종시를 연전하는 도로입니다 지난해 5.5킬로미터가 개통한데 이어 세금시쪽 1.7킬로미터와 청주 시쪽 3.2킬로미터가 추가 개통했습니다

- 화자 01
- 00:27
올해연말 완전 개통까지는 양쪽 트로 각각 1킬로미터 남짓한 구간만 남았습니다

- 화자 01
- 00:34
전체 도로가 13.3킬로미터로 청주와 세종을 최단거리로 연결합니다

- 화자 00
- 00:39
청주와 충국뿐 아니라 대전까지 연결성이 강화돼서 충청권이 1의 도시로 동반 성장하는

- 화자 00
- 00:47
이

- 화자 01
- 00:47
도로가 완전 개통하면 30분이 걸리던 청주에서 3종까지 거리가 10분으로 대폭 짧아집니다

- 화자 01
- 00:54
가까워진 거리만큼 인구 이동도 활발해질 것으로 보입니다

- 화자 01
- 00:59
지난해 청주에서 어 세종으로 주주를 움긴 사람은 8100명

- 화자 01
- 01:03
반대로 주도를 움긴 사람은 1800여명에 그쳤습니다

- 화자 01
- 01:07
세종시에는 아파트 분양과 입주가 줄줄이 이어지고 있어 청주 인구가 그만큼 줄어들 가능성도 높습니다

- 화자 03
- 01:15
계획항운닝이라든지 그 어 주 공간 자체가 세정이 훨씬 낫다고 보고 있기 때문에요 세종에다가 주거지를 거리가

- 화자 01
- 01:24
가까워진 만큼 전세값 안정을 비롯해 인구유출을 막기 위한 대책이 시급해 보이 입니다

- 화자 01
- 01:30
엠비씨 뉴스 김대웅입니다

성능

소음이 있는 라이브 방송,
인터넷 영상에서도 뛰어난 문자 정확도

Pado Speech의 음성인식 기술은 라이브 방송의 다양한 발음 및 발화 환경, 인터넷 방송 용어에서도 높은 문자 정확도를 보이며 경쟁사 G 대비 뛰어난 성능을 발휘합니다. 최대 97.06%의 정확도를 보이며, 쿡방/먹방과 같은 소음이 많은 환경에서도 81.14%의 안정적인 정확도를 가집니다.

성능

특정 영상의 정확도를 높이는
커스터마이즈 학습

영상 주제에 대한 적은 양(약 9시간 30분)의 데이터만으로 음성 인식 성능을 비약적으로 끌어올릴 수 있습니다. 특정 영상 주제에 대한 맞춤 학습과 놀라운 성능을 원하신다면 제휴 문의를 주시기 바랍니다.

API 사용법

개발 가이드

친절하고 상세한 가이드로
API를 손쉽게 이용해보세요.

Coming Soon

영상 자막 및 편집 서비스 개발에 활용해보세요.

자막 및 영상 편집 서비스를 개발할 수 있습니다. 1인 크리에이터를 위한 영상 편집 서비스 Clipper를 통해 활용 사례를 확인하세요.

유튜브 자막 생성

자막 편집점 생성

연설/회의록 작성

요금

Basic Plan

커스터마이징 및 추가 학습은 제휴 문의로 신청해주세요.

(VAT 별도)

과금 기준: 업로드 파일 길이

기본 요금 (최초 10분): 100원

추가 요금 (15초 마다): 3원

기본 시간은 10분으로 10분 이후 사용은 15초당 3원의 요금이 계산됩니다. (예시: 3분 길이의 파일 요청 시 기본 요금 100원 부과 / 13분 10초 길이의 파일 요청 시 기본 요금 100원 + 13*3(원)으로 총 139원 부과)
지원 포맷 : Audio: mp3, aac, ac3, ogg, flac, wav | Video: avi, mp4, mov, wmv, flv, mkv
인식 가능 시간 / 인식 파일 크기 : 최대 1시간 / 최대 2GB
인식 가능 언어 : 한국어

무료 체험으로 Pado를 시작하세요: 가입일 기준으로 다음 달 말일까지 무료로 사용하실 수 있습니다.