该项目主要是对医院提供的影像报告和病历报告,实现电子病历中医学相关术语的自动提取,为后续信息抽取提供医学主题词列表。
在jieba分词的基础上,实现基于统计、Textrank、信息熵的关键词识别算法,生成关键词模板。同时对电子病历中的相关信息进行句子级的分类,提取tf-idf等特征,建立分类模型。
该项目主要是对国家基因库中的信息库cngbDB的搜索引擎,实现基于内容的文献推荐系统,为用户提供定制个性化文献推荐服务。
本人主要负责算法和模型的分布式实现,参与数据清洗和过滤,抽取特征,选择算法模型,对算法进行调优改进,提高算法的精度和性能。
2017.9 cngbDB搜索引擎系统
cngbDB搜索引擎整合来自国家基因库等十几个领域的海量数据资源,在生物垂直领域中实现精准搜索引擎,给该领域的用户提供强大的应用服务。
本人负责基于语言模型、编辑距离的query纠错;自动术语匹配,通过短语切分和搜索将用户输入query拆分到具体字段;搜索引擎排序算法实现,排序模型参数调优,算法实验,排序结果精度优化,搜索速度优化。
2017.3 基于人工智能的眼科影像识别技术及应用
该项目为了将人工智能技术应用在眼科疾病的诊断中,结合病历与图像,建立完善的筛查系统,辅助眼科医生对病人眼病进行诊断。
本人主要参与眼科疾病的眼睛图像的语义分割,实现前后眼分类,实现前眼照的瞳孔检测。眼底黄斑分割和血管分割,开发抠图标记工具。对病历进行文本分析,将眼病的分类精确到二级分类。
对OpenCV有一定了解。