Толчком для проекта стал болезненный личный опыт, который выпал на долю одного из основателей фирмы Генри О'Коннелла.
"Почти 30 лет я дружу с прекрасным человеком, настоящим джентльменом. Шесть лет назад ему поставили диагноз - болезнь Паркинсона, - рассказывает О'Коннелл. - Однако, как сказали ему врачи, скорее всего он заболел гораздо раньше, более десяти лет тому назад".
Как и в случае многих заболеваний, ранняя диагностика может сыграть решающую роль в эффективности лечения, но недавнее исследование выдвигает на первый план трудности правильной диагностики на ранних этапах, когда врачам зачастую очень трудно различить малозаметные симптомы.
Чем длиннее промежуток времени, когда болезнь развивается незамеченной, тем сильнее могут оказаться впоследствии ее симптомы.
"До того как ему поставили правильный диагноз, мой друг жаловался на боли в мышцах и боли, которые, как ему казалось, были связаны с нервной системой. Его лечили в нескольких медицинских учреждениях. - продолжает О'Коннелл. - Симптомы были напрямую связаны с прогрессирующей болезнью Паркинсона, но диагноз был неверен, поэтому настоящая болезнь стала развиваться гораздо быстрее, чем в случае ранней диагностики и правильного лечения".
Canary Speech разработала алгоритм после наблюдений за особенностями речи пациентов, страдающих такими заболеваниями как болезнь Альцгеймера, деменция и болезнь Паркинсона.
Это позволило ученым выделить несколько явных признаков как до, так и после постановки диагноза, в том числе виды используемых слов, их фразировку, а также общее качество речи.
Например, одним из симптомов болезни стало смягчение тона голоса - это очень легко упустить из вида, и окружающие могут просто этого не заметить. Однако технология стартапа может подметить эти небольшие изменения в том, как мы говорим.
Один из создателей Canary Speech Джефф Адамс возглавлял раньше компанию Yap, которую позднее купила фирма-гигант Amazon. Yap разработала технологию, ставшую основой для умного динамика Amazon Echo, управляемого голосом.
Основная цель исследований - обнаружить заболевания на начальном их этапе, то есть скорее, чем это делается сейчас. Во время предварительных испытаний использовалась компьютерная программа, анализировавшая беседы пациентов с врачами.
Как во многих случаях применения технологии машинного обучения, оно будет самосовершенствоваться, получая доступ к растущей базе данных и "тренируя" алгоритмы, составляющие ее основу.
Чем больше будет на рынке гаджетов, управляемых голосом, а также записей оцифрованных разговоров, тем больше будет возможностей для анализа полученных данных.
Например, некоторые исследователи занялись изучением бесед между пациентами и консультантами по зависимости от наркотиков и алкоголя, чтобы выявить степень сопереживания терапевтов своим пациентам.
"Машинное обучение и искусственный интеллект играют важную роль в здравоохранении", - говорит Тони Янг, ведущий специалист по клиническим инновациям в системе здравоохранения Англии.
"Стоит только взглянуть на успехи, сделанные за последние два года в сфере перевода. Машинное обучение не заменит врачей, но это поможет им делать то, что раньше не мог сделать ни один человек".
Понятно, что такая технология может быть успешно применена для обучения и проработки разных сценариев при тренинге.
Как вам моя речь?
Анализом голоса занимаются и в коммерческих целях.
Например, технический стартап Cogito, который был создан при Массачусетском технологическом институте, анализирует разговоры между клиентами и представителями службы поддержки клиентов.
Они следят за их разговорами в реальном времени. Разработанная Cogito самообучаемая компьютерная программа сравнивает их с разговорами из базы данных, которые считаются образцом обслуживания клиентов.
Сотрудники стартапа считают, что они могут помочь работникам службы поддержки, давая им подробный анализ разговора в реальном времени, а также советуя, как повести разговор в нужном направлении - то, что специалисты Cogito называют "эмоциональным интеллектом".
Среди советов, которые дает компьютерная программа, есть и такие - как изменить тон и ритм голоса, чтобы они соответствовали таким же характеристикам голоса клиента, как правильно оценить эмоции звонящего, чтобы постараться избежать словесной перепалки.
Искуственный интеллект может даже определить, в какой момент в разговор должно вмешаться вышестоящее лицо, чтобы достичь более благоприятного исхода разговора.
Такие советы используют те же приемы, что и поведенческая экономика, которую в свое время использовала специальная группа при правительстве Британии. Эта организация изучала, как социальные, когнитивные и эмоциональные факторы влияют на принятие экономических решений отдельными лицами и учреждениями. Поэтому ее даже прозвали "Группой подталкивания" (Nudge Unit).
Компании, первыми закупившие продукцию Cogito, говорят, что уровень удовлетворения запросов их клиентов вырос почти на 20%.
Сейчас, когда наши жизни все больше затягивает в щупальцы интернета вещей, анализ голоса будет несомненно включен в список биометрических данных, которые помогают удостоверить личность в самых разных сферах.
Например проект Abacus компании Google занимается таким полезным делом как "убийство" паролей. Оказывается, около 70% пользователей интернета забывают пароли, причем ежемесячно.
Создатели проекта Abacus планируют использовать вместо пароля индивидуальную речь - то есть, не только то, что мы говорим, но и как мы говорим.
Если к этому добавить некоторые поведенческие особенности, например, то, как мы печатаем, то можно создать очень точный профиль каждой отдельной личности. Наши смартфоны будут узнавать нас уже по тому, как мы ими пользуемся.
Единственный спорный момент, который просто невозможно игнорировать при всех плюсах современных технологий, - это то, как все эти наблюдения умных машин и анализ наших голосов скажутся на нашем праве на частную жизнь.