Skip to content

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)

Notifications You must be signed in to change notification settings

km1994/recommendation_advertisement_search

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 

Repository files navigation

推广搜 军火库

作者:杨夕

NLP论文学习笔记:https://github.com/km1994/nlp_paper_study

个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。

NLP 百面百搭 地址:https://github.com/km1994/NLP-Interview-Notes

推荐系统 百面百搭 地址:https://github.com/km1994/RES-Interview-Notes

推广搜 军火库https://github.com/km1994/recommendation_advertisement_search

关注公众号 【关于NLP那些你不知道的事】 加入 【NLP && 推荐学习群】一起学习!!!

一、项目篇

1.1 目前业界可以下载到的一些大模型

  • chatgpt:
  • GLM-10B/130B
    • 介绍:双语(中文和英文)双向稠密模型
  • OPT-2.7B/13B/30B/66B :
  • LLaMA-7B/13B/30B/65B :
  • Alpaca(LLaMA-7B):
  • BELLE(BLOOMZ-7B/LLaMA-7B):
    • 介绍:本项目基于 Stanford Alpaca,针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)
  • ChatGLM-6B :
  • Bloom-7B/13B/176B:
    • 介绍:可以处理46 种语言,包括法语、汉语、越南语、印度尼西亚语、加泰罗尼亚语、13 种印度语言(如印地语)和 20 种非洲语言。其中,Bloomz系列模型是基于 xP3 数据集微调。 推荐用于英语的提示(prompting);Bloomz-mt系列模型是基于 xP3mt 数据集微调。推荐用于非英语的提示(prompting)
    • github: https://huggingface.co/bigscience/bloom
    • paper: https://arxiv.org/pdf/2211.05100.pdf
  • Vicuna(7B/13B):
    • 介绍:由UC Berkeley、CMU、Stanford和 UC San Diego的研究人员创建的 Vicuna-13B,通过在 ShareGPT 收集的用户共享对话数据中微调 LLaMA 获得。其中,使用 GPT-4 进行评估,发现 Vicuna-13B 的性能在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力;同时,在 90% 情况下都优于 LLaMA 和 Alpaca 等其他模型。而训练 Vicuna-13B 的费用约为 300 美元。不仅如此,它还提供了一个用于训练、服务和评估基于大语言模型的聊天机器人的开放平台:FastChat。
  • Baize:
    • 介绍:白泽是在LLaMA上训练的。目前包括四种英语模型:白泽-7B、13B 、 30B(通用对话模型)以及一个垂直领域的白泽-医疗模型,供研究 / 非商业用途使用,并计划在未来发布中文的白泽模型。白泽的数据处理、训练模型、Demo 等全部代码已经开源。
  • LLMZoo:
    • 介绍:来自香港中文大学和深圳市大数据研究院团队推出的一系列大模型,如:Phoenix(凤凰) 和 Chimera等 -MOSS:由复旦 NLP 团队推出的 MOSS 大语言模型。
  • 小羊驼 FastChat
  • MiniGPT-4

1.2【LLMs 入门实战序列连载】

清华大学开源中文版ChatGLM-6B模型学习与实战 【ChatGLM-6B入门-二】清华大学开源中文版ChatGLM-6B模型微调实战 【ChatGLM-6B入门-三】ChatGLM 特定任务微调实战 【ChatGLM-6B入门-四】ChatGLM + LoRA 进行finetune 【LLMs 入门实战 —— 五 】Stanford Alpaca 7B 模型学习与实战 【LLMs学习】关于大模型实践的一些总结 ChatGLM-6B 小编填坑记 【LLMs 入门实战 —— 六 】Chinese-LLaMA-Alpaca 模型学习与实战 【LLMs 入门实战 —— 七 】小羊驼 FastChat 模型学习与实战 【LLMs 入门实战 —— 八 】MiniGPT-4 模型学习与实战

1.3 NLP 项目军火库学习

  • 【知识图谱构建 DeepKg】https://github.com/powerycy/DeepKg
    • 介绍:本项目致力于知识图谱的构建,目前正一点一点搭建其方法,也希望能帮助更多的人,

1.4 推荐系统 项目军火库学习

  • 【fun-rec】https://github.com/datawhalechina/fun-rec
    • 介绍:主要是针对具有机器学习基础并想找推荐算法岗位的同学,教程由推荐算法基础、推荐算法入门赛、新闻推荐项目及推荐算法面经组成,形成了一个完整的从基础到实战再到面试的闭环。
  • 【RecSys】https://github.com/qcymkxyc/RecSys
    • 介绍:项亮的《推荐系统实践》的代码实现

1.5 搜索引擎 项目军火库学习

  • 【搜索引擎项目 开源】https://github.com/zuo369301826/Search_Project
    • 项目介绍:模拟百度搜索的方式实现站内搜索引擎,整个项目分为两大部分,HTTP服务器和搜索服务器:HTTP服务器来获取用户的请求,并分析请求以便获取我们所需要的特定信息,之后将信息传给搜索服务器;搜索服务器会根据这些信息进行处理并检索数据,将结果反馈给HTTP服务器,HTTP服务器收到索引结果将其打印到页面上
    • 项目特点:1. 使用到Google提供的 protobuf, gflag, glog 等开源框架来完成开发;2. 搜索服务器利用RPC协议,基于百度开源的高性能RPC框架 sofa-pbrpc 实现;3.搜索原理是以正排索引加倒排索引相结合的方式进行检索;4. HTTP服务器使用epoll模型,提高了并发的响应速度;5. HTTP服务器以CGI的方式调用搜索客户端完成检索功能
  • 【Elastic】https://www.elastic.co/cn/
    • 介绍:Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。 作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。
  • 【Nutch】http://nutch.sourceforge.net/docs/zh/about.html
    • 介绍:Nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎。在它的主页有中文详细的说明。
  • 【Lucene】http://jakarta.apache.org/lucene/docs/index.html
    • 介绍:Apache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。
  • 【Egothor】http://www.egothor.org/
    • 介绍:Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。
  • 【Oxyus】http://oxyus.sourceforge.net/
    • 介绍:是一个纯java写的web搜索引擎。
  • 【BDDBot】http://www.twmacinta.com/bddbot/
    • 介绍:BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

1.6 计算广告 项目军火库学习

二、Ai 神器

三、小白 AI 入门学习

3.1 机器学习入门

3.2 NLP 入门

3.3 计算广告 入门

  • 【互联网广告与计算广告学入门】http://web.stanford.edu/class/msande239/
    • Lecture 1: Introduction, Supplementary notes
    • Lecture 2: Marketplace design, In class presentation, Supplementary notes
    • Lecture 3: Sponsored search 1, In class presentation
    • Lecture 4: Sponsored search 2, In class presentation
    • Lecture 5: Display advertising 1, In class presentation
    • Lecture 6: Display advertising 2, In class presentation
    • Lecture 7: Targeting, In class presentation
    • Lecture 8: Recommender systems, In class presentation 1, In class presentation 2
    • Lecture 9: Mobile, video, and other emerging formats, In class presentation 1, In class presentation 2
  • 【刘鹏 – 计算广告学(推荐)】http://study.163.com/course/introduction.htm?courseId=321007
    • 介绍:刘鹏老师目前在360任商业产品首席架构师,在互联网广告领域实战经验丰富。其课程《计算广告学》内容深入浅出,由广告历史模式到新近技术,非常适合刚接触领域的朋友学习。
    • 广告的基本知识
    • 合约广告系统
    • 受众定向
    • 竞价广告系统
    • 搜索广告与广告网络Demand技术
    • 广告交易市场
  • 【百度 – 计算广告学】http://openresearch.baidu.com/courses/1231.jhtml
    • 计算广告学概述
    • 搜索引擎广告原理、技术和工程实践
    • 内容匹配广告与展示广告原理、技术和实践
  • 【王勇睿 – 互联网广告算法与系统实践】http://yuedu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html
    • 介绍:王老师是淘宝定向广告算法负责人。其课程结合了淘宝的广告实践经验,从广告理论到系统的技术实践,非常值得从业技术人员学习。
    • 互联网广告简介
    • 搜索广告
    • 定向广告
    • 实时广告竞价
    • 广告系统架构及挑战
  • 【UCS -计算广告学入门】http://classes.soe.ucsc.edu/ism293/Spring09/index_archivos/Page456.html
    • Introduction and Overview
    • Information Retrieval (IR) for Computational
    • Marketplace design
    • Machine Learning Techniques
    • Sponsored Search I
    • Sponsored Search II
    • Graphical ads and guaranteed delivery
    • Contextual Advertising I
    • Contextual Advertising II
    • Behavioral Targeting (BT)

四、推广搜论文学习笔记

五、推广搜 面经篇

六、框架篇

6.1 Pytorch 学习

6.2 tensorflow 学习

6.3 keras 学习

  • 【bert4keras】https://github.com/bojone/bert4keras
    • 介绍:苏神开源的军火库,重新实现的keras版的transformer模型库,致力于用尽可能清爽的代码来实现结合transformer和keras。

6.4 分布式训练框架 学习

  • 第一类:深度学习框架自带的分布式训练功能。如:TensorFlow、PyTorch、MindSpore、Oneflow、PaddlePaddle等。
  • 第二类:基于现有的深度学习框架(如:PyTorch、Flax)进行扩展和优化,从而进行分布式训练。如:Megatron-LM(张量并行)、DeepSpeed(Zero-DP)、Colossal-AI(高维模型并行,如2D、2.5D、3D)、Alpa(自动并行)等

七、竞赛篇

5.1 国内竞赛

5.2 竞赛公众号

  • 【麻婆豆腐AI】
    • 介绍:会介绍 最近可以参加的一些赛事

5.3 NLP 竞赛军火库

八、语料篇

8.1 NLP 语料

8.2 推荐系统 语料

  • 【MovieLens】https://grouplens.org/datasets/movielens/
    • 介绍:MovieLens数据集由GroupLens研究组在 University of Minnesota — 明尼苏达大学(与我们使用数据集无关)中组织的。 MovieLens是电影评分的集合,有各种大小。 数据集命名为1M,10M和20M,是因为它们包含1,10和20万个评分。 最大的数据集使用约14万用户的数据,并覆盖27,000部电影。 除了评分之外,MovieLens数据还包含类似“Western”的流派信息和用户应用的标签,如“over the top”和“Arnold Schwarzenegger”。 这些流派标记和标签在构建内容向量方面是有用的。内容向量对项目的信息进行编码,例如颜色,形状,流派或真正的任何其他属性 - 可以是用于基于内容的推荐算法的任何形式。
  • 【Book-Crossings】
  • 【Last.fm】http://www2.informatik.uni-freiburg.de/~cziegler/BX/
    • 介绍:Last.fm提供音乐推荐的数据集。 对于数据集中的每个用户,包含他们最受欢迎的艺术家的列表以及播放次数。它还包括可用于构建内容向量的用户应用标签。
  • 【Dating Agency】(http://www2.informatik.uni-freiburg.de/~cziegler/BX/)
    • 介绍:该数据集包含2006年4月4日导出的135,359位LibimSeTi用户对168,791个配置文件的17,359,346个匿名评分。
  • 其他:https://zhuanlan.zhihu.com/p/258566760

8.3 标注工具篇

九、公众号篇

  • 关于NLP那些你不知道的事
    • 介绍:关于NLP那些你不知道的事
  • CS的陋室
    • 介绍:叉烧大佬的经验分享帖,遇到问题先翻该公众号,可能会有意想不到的收获。
  • DataArk
    • 介绍:DataArk以数据为驱动、以开源分享为导向,致力于数据挖掘、算法创新和实用工具的开发。
  • 智能推荐系统
    • 介绍:专注于智能推荐系统,这里有最新最全的个性化推荐相关算法和行业应用分享,欢迎关注,和你在推荐的海洋中一起遨游,共同探索未知新世界。
  • DataFunTalk
    • 介绍:专注于大数据、人工智能技术应用的分享与交流。致力于成就百万数据科学家。定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
  • RUC Al Box
    • 介绍:本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享Al前沿,解读热点论文。
  • NewBeeNLP
    • 介绍:会介绍 很多 NLP 优秀笔记
  • 开放知识图谱
    • 介绍:openKG:开放促进互联、链接创造价值
  • WeData365
    • 介绍:学习 【搜索引擎】 的小伙伴一定要关注,因为有很多 【搜索引擎】 干货分享
  • 科学空间
    • 介绍:苏神的公众号,每周四苏神都会开源他的研究笔记。
  • 老刘说NLP
    • 介绍:360人工智能研究院大佬刘焕勇刘大佬的公众号,定期发布语言资源、工程实践、技术总结等内容。
  • 数据拾光者
    • 介绍:学习 【广告】 的小伙伴一定要关注,因为有很多 【广告】 干货分享
  • 泛函的范
    • 介绍:鹅厂大佬的学习笔记分享
  • 计算广告那些事
    • 介绍:学习 【广告】 的小伙伴一定要关注,因为有很多 【广告】 干货分享
  • 药老算法
    • 介绍:学习 【搜索引擎】 的小伙伴一定要关注,因为有很多 【搜索引擎】 干货分享
  • 机器学习算法与自然语言处理
    • 介绍:一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
  • 王喆的机器学习笔记
    • 介绍:推荐系统,计算广告,机器学习领域前沿进展
  • AINLP
    • 介绍:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
  • 李rumor
    • 介绍:李rumor 小姐姐 的学习笔记分享
  • 夕小瑶的卖萌屋
    • 介绍:自然语言处理、计算机视觉、信息检索、推荐系统、机器学习

十、学习笔记

十一、部署笔记

参考

  1. 关于大模型实践的一些总结

About

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published