1 / 63
文档名称:

spark开发指南.doc

格式:doc   大小:1,727KB   页数:63页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

spark开发指南.doc

上传人:63229029 2017/4/14 文件大小:1.69 MB

下载得到文件列表

spark开发指南.doc

相关文档

文档介绍

文档介绍:1 、重定向方式读入 scala 文件(执行 scala 脚本) /usr/local/spark--bin--shell < Spark 运行调试方法与学****资源汇总 http://blog./melodyishere/article/details/32353929 最近, 在学****和使用 Spark 的过程中, 遇到了一些莫名其妙的错误和问题, 在逐个解决的过程中, 体会到有必要对解决上述问题的方法进行总结, 以便能够在短时间内尽快发现问题来源并解决问题,现与各位看官探讨学****如下: 解决 spark 运行调试问题的四把“尖刀”: 1、 Log 包括控制台日志、主从节点日志、 HDFS 日志等。许多错误可以通过日志, 直接对错误类型、错误来源进行准确定位,因此,学会读取和分析 Log 是解决问题的第一步。 2、 Google 确定错误类型和原因后,就可以使用 Google 在 Spark User List 、 Google Group 等各类 Spar k 学****社区和论坛进行求助,而大部分问题都是可以找到答案的。 3 、官网配置文档大部分问题都是配置问题引起的, 如何准确配置, 需要结合官方说明文档进行配置, 而其中的 Tuning Spark 内容,也是每个 Spark 实践者必须了解和掌握的,推荐精读: Tuning Spark( 内存调优): http://spark./docs/ Spark Configuration (基本配置) : http://spark./docs/ 4 、官网 Example 各个子项目都有对应的 Example 和源码, 可以从源码的 src 子文件夹里找到, 而在每个子项目的官网说明上也有相应的代码示例,也可以作为参考。这4 个方法是解决问题的第一位要素,特别地,要会通过 Log 反推错误来源,定位故障原因, 然后第一时间想到谷歌, 把错误关键词粘贴查找寻求解答。而大部分人的问题其实主要都是配置问题, 1和2 其实就能解决了。 3和4 主要用来模仿学****照猫画虎,学以致用, 不成功便成仁。交流和互动也很重要,把握国内 Spark 研究的前沿,就要善于利用和挖掘各类互联网资源, 这里,推荐一些博客、微博、 QQ 学群供大家参考学****知名博主: 徽沪一郎: agle/category/ fxjwind : wind/category/ 张包峰: http://blog./zbf8441372/article/category/1556747 高彦杰: http://blog./gaoyanjie55 saisai_shao : / 微博大牛: hashjoin , Databricks 大数据公司创始人之一, UC Berkeley AMPLab : /hashjoin Andrew-Xia : /u/1410938285 CrazyJvm : /476691290 明风 Andy ,淘宝技术部,数据挖掘与计算团队负责人: /mingfengandy saisai_shao: /u/2122584747 连城: /lianchengzju 张包峰: /pelickzhang 王联辉:/u/1685831233 徽沪一郎: /eagleonline Spark 学****资料 Fast Data Processing with Spark , http://pan./s/1bnnJHlP Scala 学****资料: 快学 Scala , http://pan./s/1gdJzElt Scala Cookbook , http://pan./s/1jGn5zPc Scala 编程, http://pan./s/1pJ0Szgv Spark 论文: NSDI-2012 , http://pan./s/1jGifNMm [ 博士论文]Matei Zaharia , http://pan./s/1nt1C2BR QQ 群: Spark 零基础学****367106111 Spark 快速理解 http://blog./colorant/article/details/8255958 BLOG : http://blog./colorant/ 更多云计算相关项目快速理解文档 http://blog./colorant/article/details/8255910 == 是什么== 目标 Scope (解决什么问题) 在大规模的特定数据集上的迭代运算或重复查询检索官方定