Lucene系列(2)——代码实践
上篇文章《Lucene系列(1)——理论介绍》中我们说了搜索的流程分前台用户查询流程和后台索引构建流程。本文就借助Lucene(目前最新的8.2.0版本)来实现这两个流程。当然,我们说了Lucene并不负责数据采集和提取,所以为了简单起见,我从网上找了几首精美的英文短诗作为原始数据,你可以认为这就是 ...
2021-11-25
Lucene系列(1)——理论介绍
信息检索(Information Retrieval,IR)是一门非常古老且复杂的学科,现在的人工智能,特别是NLP、数据挖掘领域更是和IR有着千丝万缕的关系。但这些都不是本文的重点,本文要讨论的是一个轻松的话题,那就是Solr和ES背后所使用的全文检索库Lucene,顺便介绍一下简易版的搜索引擎背 ...
2021-11-25
浅谈搜索引擎技术原理与架构
曾经看过一个百度员工写的段子:“今天一个出租出司机载我去上班,一边看着百度大厦一边说,你们百度不就是个框吗,要这么多员工干啥。他说的好有道理,我竟无言以对”。那么搜索引擎背后到底是什么,到底复杂不复杂,这里为大家一一解答。本文只是简要介绍一下总体需要的原理,具体的技术原理,我会在后续的文章中深入介绍 ...
2021-11-25
TensorFlow 卷积神经网络
本教程的目标是建立一个用于识别图像的相对较小的卷积神经网络,在这一过程中,本教程会:着重于建立一个规范的网络组织结构,训练并进行评估;为建立更大规模更加复杂的模型提供一个范例。选择CIFAR-10是因为它的复杂程度足以用来检验TensorFlow中的大部分功能,并可将其扩展为更大的模型。与此同时由于 ...
2021-11-24
MNIST机器学习入门
当我们开始学习编程的时候,第一件事往往是学习打印"Hello World"。就好比编程入门有Hello World,机器学习入门有MNIST。MNIST是一个入门级的计算机视觉数据集,它包含各种手写数字图片和对应的标签。我们将训练一个机器学习模型用于预测图片里面的数字。
2021-11-24
Zookeeper全解析——Paxos作为灵魂
Paxos是一个基于消息传递的一致性算法,Leslie Lamport在1990年提出,近几年被广泛应用于分布式计算中,Google的Chubby,Apache的Zookeeper都是基于它的理论来实现的,Paxos还被认为是到目前为止唯一的分布式一致性算法,其它的算法都是Paxos的改进或简化。
2021-11-23
雪花算法生成分布式ID
有这么一种说法,自然界中并不存在两片完全一样的雪花的。每一片雪花都拥有自己漂亮独特的形状、独一无二。雪花算法也表示生成的ID如雪花般独一无仁。
2021-11-21
21种回归算法整理
回归分析是预测建模技术的一种形式,它研究因变量(目标)与自变量(预测变量)之间的关系 。该技术用于预测,时间序列建模以及查找变量之间的因果关系。例如,通过回归研究逃课次数与期末成绩的关系。线性和逻辑回归通常是人们在数据科学中学习的第一个算法。由于它们的流行,许多分析师甚至最终认为它们是回归的唯一形式 ...
2021-11-21
主宰这个世界的 10 大算法
归并排序、快速排序、堆积排序、傅立叶变换和快速傅立叶变换、迪杰斯特拉算法、RSA非对称加密算法、哈希安全算法、整数质因子分解算法、链接分析算法、比例微积分算法、数据压缩算法、随机数生成算法
2021-11-21
程序员如何持续成长
在不同的阶段,技术的深度和广度有不同的侧重点,而非单独的只能二选一。技术需要更好的支撑业务的发展,通过业务的增长来体现自己的价值。互联网领域技术岗位而言,有时管理岗收入不见的就比普通职工高很多,当然这里指的是直接的上下级关系。但做管理要承担的压力,对个人生活节奏以及心理状态的影响,就不是物质所能衡量 ...
2021-11-21

© 2016 - 2024 chengxuzhixin.com All Rights Reserved.

浙ICP备2021034854号-1    浙公网安备 33011002016107号