就业培训首页
课程设置页
专业师资
就业详情
招生简章
招生问答
学员天地
教学环境
就业明星
支付方式
软件质量故事

您现在的位置:首页 > 就业培训 > 业内新闻 >初识百度AI开放平台和简单语音合成

初识百度AI开放平台和简单语音合成

初识百度AI开放平台和简单语音合成

 

      7月4号,百度2018 AI开发者大会如期举行,这是百度举办的第二届人工智能大会。本次大会有诸多亮点,比如百度研制的无人驾驶汽车APOLLO正式量产并出口到日本、百度自己研发的AI芯片“昆仑”正式亮相,并借此成为拥有从芯片到人工智能、软件平台、人工智能解决方案三位一体的国内AI巨头。

 

      作为国内最大的搜索引擎,百度在搜索技术和海量数据方面有绝对的垄断地位,这为百度在国内人工智能领域独占先机创造了优势。

 

      这次大会,百度提出一个口号:Everyone can AI。百度提出这样口号是有底气的,因为百度利用自身的技术优势完成了一个AI基础架构平台,并开放出来供开发者使用,这个平台就是百度AI开放平台。利用这个开放平台,我们能轻松地使用百度人工智能的基础架构资源,通过调用其相关API,使我们的应用程序获得AI功能。

 

      初识百度AI开放平台

 

      打开百度AI开放平台(https://ai.baidu.com)的产品服务清单,我们可以看到百度AI开放平台提供如下类型的服务:

 

      • 语音技术

 

      • 图像技术

 

      • 人脸与人体识别

 

      • 视频技术

 

      • AR与VR

 

      • 自然语言处理

 

      • 数据智能

 

      • 知识图谱

 

      每种类型的服务又包含若干类型的子项API服务,比如对于上面的语音技术,它就包含了下面几种API服务:

 

      • 语音识别

 

      • 语音合成

 

      • 语音唤醒

 

      • 智能呼叫中心

 

      这些API是基于HTTPS的,通过提供RESTful风格的API为开发者提供服务,比如,语音合成API服务可以将文本转化成可以播放的音频文件。

 

      一般而言,使用百度AI服务的步骤为:

 

      1)注册成为百度AI开放平台开发者;

 

      2)在百度API开放平台上创建相关类型的的AI应用,获得AppID、API Key和Secret Key;

 

      3)调用相关类型的API,获得AI功能的结果,为开发者的应用服务。

 

      利用百度语音API实现一个简单的诗歌朗诵应用

 

      这里我们将介绍如何使用百度的语音合成API来写一个简单的应用:把一个包含有《面朝大海,春暖花开》诗歌的文本文档传化成为音频文件,然后听听机器如何朗诵这首诗歌。

 

      具体步骤如下:

 

      1.注册百度AI开发者账号

 

      要使用百度的这些AI服务,你必须要首先要在百度AI开放平台上注册成为开发者。百度AI开发者账号分为个人账号和企业账号,无论哪种开发者账号,都需要实名认证。这里我们注册的是个人开发者,注册完后需要进行实名认证。这里的实名认证不但包括姓名、身份证等个人实名信息,还包括个人真实照片等信息。为了方便开发者实名信息认证,百度云移动app集成了百度自家的某些人脸AI服务,提供了刷脸认证,用户可以下载该app完成实名认证。

 

      当你完成了实名认证后,打开百度AI开放平台的控制台页面,我们可以看到会自动开通如下的AI服务:

 

初识百度AI开放平台和简单语音合成”02

 

      2.创建语音合成AI引用

 

      选择上面百度语音类别,然后创建一个语音应用:

 

初识百度AI开放平台和简单语音合成”02

 

      默认情况下,一个语音AI应用同时包含语音识别和语音合成的接口。语音AI应用创建好,会自动分配AppID,App Key和Secret Key,如果开发者要使用百度语音的API服务,这些信息是必要的。如果你熟悉OAuth 2.0 方式的API的调用流程,你会感觉上面的相关术语很熟悉,事实上百度AI应用的API都是采用OAuth 2.0方式的,只不过百度的相关SDK API将这套流程封装得很好,我们使用时可以无需直接处理。

 

      除此之外,打开应用详情,可以看到百度为AI应用分配的默认资源,如QPS,对于本例子中的语音合成API,默认QPS是100,如果开发者认为这些资源还不够,还可以申请更多的服务资源。

 

初识百度AI开放平台和简单语音合成”03

 

      3.安装AI应用SDK,并调用API完成服务

 

      1)安装SDK

 

      百度语音服务提供了多种编程语言相关的SDK,这里选择Python版本的。打开百度AI开放平台语音服务SDK下载页面(https://ai.baidu.com/sdk#asr),选择Python SDK。 笔者采用Python官方推荐的主流版本Python 3,本例具体版本是Python 3.6.4。

 

      解压下载的zip SDK文件后,进入加压后的目录:

 

      python setup.py install

 

      2)准备文本材料

 

      准备好诗歌《面朝大海,春暖花开》的文本文件flower.txt,注意标点符号,保存为UTF-8格式的。

 

      3)使用百度语音合成API

 

      利用上面创建的语音应用的AppID, App Key和Secret Key:

 

初识百度AI开放平台和简单语音合成”02

 

      调用百度语音合成API:

 

初识百度AI开放平台和简单语音合成”02

 

      代码解释如下:

 

      读取文本文件,获得文本数据,然后作为参数传入client.synthesis() API,当请求成功后就返回一个音频格式的数据内容并写入文件,失败则打印出错误信息。

 

      用户还可以根据自己的相关需要选择合成语音时的语速,语调,音量和发声人选择,具体参数细节可以参考API文档(https://ai.baidu.com/docs#/TTS-API/top)

 

      执行上面的代码,可以发现一个名为poem.mp3的音频文件产生了,用Windows自带的Windows Media Player播放可以听到合成的语音朗诵这首诗。

 

      我们可以发现,机器朗诵的诗歌和人朗诵的相比还是有很大差距,或者我们可以说机器诗歌朗诵是缺乏灵魂的,这是目前AI技术的局限,也是需要努力的方向。随着百度AI语音的进化,特别是丰富语料之后,我相信相关语音合成效果会越来越好。

 

      与此同时,通过上面的演示,我们可以看到,开发者十分钟就可以完成一些简单的文本与语音的转换。这大大降低了开发者使用AI的难度。如果没有这些服务,用户要么自己去实现一套自己的语音合成机器模型和语料库,或者借助第三方TTS SDK,这样的开发难度都大很多。

 

      把上面的代码稍作修改,在文本文件中输入一些大众不会念的生僻字,即可实现一个生僻字的念法应用。

 

      除此在外,百度AI开放平台还提供其他更多更实用的AI服务,读者可以自行探索,基本开发流程跟本文类似。

 

      后记:

 

      百度作为一家国内顶尖的互联网和AI公司,其技术实力毋庸置疑,但是百度是一家颇具争议的公司。在上面的百度AI开放平台的控制台中,我们看到百度提供一些人脸识别、内容审查等敏感而又有争议性的AI服务,这些AI服务在公众生活中涉及到个人隐私,公众舆论的热点事件中应该发挥什么样的作用,值得我们深思。

 


51Testing咨询热线

  • 上海培训中心:40088-51518
  • 深圳培训中心:40088-51008
  • 南京培训中心:40082-15251
  • 武汉培训中心:40082-10152
  • 杭州培训中心:40082-18168
  • 北京培训中心:010-88332393
  • 成都培训中心:028-85289151
  • 西安培训中心:40082-15107
  • 合肥培训中心:40082-52887
  • 苏州招生中心:0512-65522653