打标工具doccano的安装启动


doccano是documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的语料库进行打标。它支持情感分析,命名实体识别,文本摘要等任务。当然最新版本的doccano还可以对CV任务的数据进行打标,果然CV、NLP不分家

主要就是汉化一下doccano的安装流程(使用anaconda虚拟环境、pip),然后再苦逼地进行打标任务

贴一个项目地址,英文好的可以直接去这篇了,项目的readme已经非常完善了:

doccano/doccano: Open source annotation tool for machine learning practitioners. (github.com)

  • 本文的前置条件是电脑已安装anaconda/miniconda

anaconda创建虚拟环境

安装案之后回过头来觉得创建一个虚拟环境是对的,防止污染我的base或其他envs,虽然在后序操作中会多几个步骤

当键入pip install doccano之后,pip开始疯狂的安装三方库(这些事后话)

这里安装的python版本是3.10,官方给出的要求是$> 3.9$

conda create -n doccano python=3.10

然后一路确定安装完虚拟环境

安装doccano

conda activate doccano

激活虚拟环境doccno,然后pip install即可

pip install doccano

一路顺利安装

初始化doccno

  • 初始化doccano需要在安装的虚拟环境下进行
doccano init
doccano createuser --username xxxx --password xxxx

启动doccano

  • 启动doccano需要在安装的虚拟环境下进行,这里占用的端口是8000,请合理分配
doccano webserver --port 8000
  • 新开一个doccano虚拟环境的shell窗口,运行下面的代码启动任务队列
doccano tast

doccano程序在本机8000端口运行

image-20240329234236912

image-20240329234409537

运行doccano

上一部分执行完后,在浏览器键入网址127.0.0.1:8000即可进入doccano初始界面,点击登录就可以创建新的打标任务了

image-20240329234535060

如何进行打标且看后续内容

To Be Continued


文章作者: J&Ocean
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 J&Ocean !
评论
  目录