打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
创建视频OCR作业
功能介绍

该API用于创建视频OCR的作业,通过自动分析视频中出现的文字内容,可以识别并提取违规或者关键信息。

说明:
  • 支持扩展名为avi、wmv、mpg、mpeg、mp4、mov、m4v、mkv的视频文件。

  • 不支持OBS桶上经过KMS加密后的视频。

  • 单个视频大小不能超过4GB。

  • 从指定的URL地址中读取视频数据时,视频大小不能超过1GB。

  • 支持识别数字、中文简体文字、中文繁体文字、英文字幕等。

  • 能够识别场景较为清晰的水平文字、以及部分竖直文字和艺术字体,不能很好的处理环形文字、倾斜角度较大等场景。

  • 视频分辨率不低于300*300。

  • 视频帧率必须大于1。

URI

  • URI格式

    POST /v1/{project_id}/services/video-ocr/tasks
  • 参数说明

    名称

    是否必选

    类型

    说明

    project_id

    String

    服务所在区域对应的项目ID,获取方法请参见获取项目ID

请求消息

  • 请求示例

    POST /v1/6204a5bd270343b5885144cf9c8c158d/services/video-ocr/tasks  {        "taskName": "task-est",        "description": "description",        "input": {               "type": "obs",               "data": [                      {                        "bucket": "obs-iva",                        "path": "input/demo.mp4"                      }            ]        },        "output": {               "obs": {                      "bucket": "obs-iva",                      "path": "output/"               }        },        "serviceConfig": {               "common": {                      "area": "0,0,0.5,0.5;"                      "threshold": 0.5               }        },       "serviceVersion":"1.0" }
  • 参数说明

    参数名称

    是否为必选

    类型

    描述信息

    taskName

    String

    作业名称,只能由中文、字母(a~zA~Z)、数字(0~9)、中划线(-)、下划线(_)组成,长度范围为[1,100]。

    description

    String

    作业描述信息,最大长度为500字符长度。

    input

    Object

    视频数据的输入列表,目前视频OCR支持以下输入类型:

    详细参数定义参见task.input(任务输入参数)

    output

    Object

    结果数据的输出列表,目前视频OCR支持以下输出类型:

    详细参数定义见task.output(任务输出参数)

    serviceConfig

    Object

    服务算法配置,字段结构跟服务相关,参数定义见。

    serviceVersion

    String

    功能版本填为“1.0”。

    • obs:将结果输出到您指定的OBS桶中。

    • hosting:结果将托管到服务侧的OBS,该OBS路径由服务指定,您可以通过调用查询单个作业API获取该路径。

    • obs:从华为云OBS中读取视频数据,视频大小不能超过4GB。不支持OBS桶上经过KMS加密后的视频。

    • url:从指定的URL地址中读取视频数据,视频大小不能超过1GB。目前支持OBS的URL,且需要设置该URL对匿名用户可读取权限,设置方法请参见桶的访问权限

  • serviceConfig字段结构说明

    参数名称

    是否为必选

    类型

    描述信息

    area

    String

    选择文字识别的区间,以“;”作为不同区域的分割符号,每一个区域的前两个数值,代表区域左上角(x,y)的百分比坐标;后两个数值代表所选区域宽、高占图片百分比数值。取值范围为[0,1],无默认值。

    threshold

    Float

    控制输出文字的置信度,值越高,文字的精准度就越高,对应的召回率会降低。取值范围为[0,1.00],默认值为0.50。

响应消息

  • 响应示例

    [    {      "id": "taskef683016"   }  ]
  • 返回作业ID列表

    参数名称

    类型

    描述信息

    id

    String

    作业ID。

识别结果

视频识别结果在用户输入的output路径下,以json文件的方式保存。

  • 结果文件内容示例

    {    "name": "obs-wxh/demo.mp4",    "fps": 15,    "contents": [        {            "time_start": "00:00:00",            "time_end": "00:00:01",            "content": [                "云领创新",                "数绘未来",                "2018世界人工智能大会"            ]        },        {            "time_start": "00:00:01",            "time_end": "00:00:02",            "content": [                "云领创新",                "数绘未来",                "改变才刚刚开始"            ]        },        {            "time_start": "00:00:03",            "time_end": "00:00:04",            "content": [                "阶段一",                "通用目的技术生产力",                "应用发展曲线"            ]        }  ]}
  • 结果文件的字段说明

    字段

    描述信息

    name

    视频名称。

    fps

    视频帧率。

    time_start

    内容起始时间。

    time_end

    内容结束时间。

    content

    识别出的具体文字内容。

返回值

  • 正常

    201

  • 异常

    返回值

    说明

    400 Bad Request

    请求错误,具体返回错误码请参考错误码

    401 Unauthorized

    鉴权失败。

    403 Forbidden

    没有操作权限。

    404 Not Found

    找不到资源。

    500 Internal Server Error

    服务内部错误。

    503 Service Unavailable

    服务不可用。

父主题: 视频OCR
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
C#图片文字识别
OBS视频直播软件使用教程
一篇文章教会你使用Python图片格式转换器并识别图片中的文字
基于3DSlicer和OBS的神经外科AR技术
如何智能识别文本内容?你不知道的软件快来了解一下
便捷扫描仪
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服