2018-09-20

京都アジャイル勉強会に参加しました

はじめに

こんにちは。ラクスエンジニアのstrongWhiteです。今回は8月に京都アジャイル勉強会に行ってきましたのでレポートしようと思います。アジャイルとは、要求仕様の決定や変更に対して、柔軟に対応するためのソフトウェア開発手法のことです。昨今有名になりつつあるアジャイルですが私としても興味がありましたので今回勉強会に参加してみました。
※この記事ではアジャイルに関する詳細な説明は省きます。アジャイル・スクラムを初めて聞く方は馴染みのない用語が出てきますがご了承ください。

京都アジャイル勉強会とは

アジャイル・スクラムを実践しようとしている（もしくは実践中の）人を対象とした勉強会で、自身（あるいは自社）が抱えているアジャイル・スクラムに関する疑問、不安などをざっくばらんに議論し、お互いに理解を深め合う会です。ちなみに私が行ってきたのは以下の勉強会です。

connpass.com

私の所属するチームではアジャイル・スクラムを取り入れた開発をしているので、今回はアジャイル・スクラムを実践する中で私が抱えている疑問や不安を勉強会に参加されている皆さんにぶつけてみることにしました。

学んだこと

ディスカッション形式の勉強会は初めてだったので新鮮でした。また、アジャイル・スクラムに対する理解も少しながら進んだ気がしました。私としては日々スクラム・アジャイルを実践する中でプロダクトバックログからスプリントバックログを出すまでに時間がかかり次のスプリントが始められないという課題を抱えていたのですが、今回の勉強会でとある方から「見切り発進的に次のスプリントを始めるのはよくないので、時間がかかってもいいから全てのスプリントバックログを出してから次のスプリントをスタートすべき」という助言をいただき、少し勇気をもらえました。

終わりに

今回のようなディスカッション形式の勉強会は講義形式のお堅い感じは全くないので私としてもリラックスして受講できました。機会があればまたアジャイル・スクラム系の勉強会に参加したいと思います。チームとしても私としてもまだまだアジャイル・スクラムを始めたばかりなので、また疑問が出てきたらこういう勉強会の場で解消していこうと思います。

参考

2018-09-19

【超入門】RDBとNoSQLの違いに着目！NoSQLに求めるものとは？

NoSQL

こんにちは、MasaKuです。

ビッグデータという言葉をよく目にしますが、その背後にある技術についてはあまり理解していませんでした。
そこで、ビッグデータを支える技術のひとつであるNoSQLについて興味が生まれたので、今回の記事では、NoSQLについて勉強した結果についてまとめようと思います。

（本記事の執筆には以下の書籍を参考にさせていただきました）
NOSQLの基礎知識ビッグデータを活かすデータベース技術

はじめに
NoSQLとは
RDBとの違い
NoSQLに期待すること
NoSQLのデータモデル
おわりに
参考文献

はじめに

現在、Twitterは、１日あたり１０テラバイトを超えるデータを扱っているそうです。
10テラバイトというと、書籍一冊のデータ量（５０万文字）とすると書籍１０００万冊分に相当します。

モバイルデバイスからも簡単にアクセスして写真や動画コンテンツを発信できるWebサービスが普及してきたことがビッグデータの発生の起因のひとつになったと言えるでしょう。

ビッグデータの対応には3Vという以下のような特徴があります。

Volume（膨大な量）
Velocity（速さ）
Variery（多種多様）

今後、更にリッチな情報を扱うWebサービスが普及してくると、ビッグデータを処理する技術がますます重要になることから、NoSQLの技術発展が期待されます。

NoSQLとは

PostgreSQLやMySQLなどのRDBでは対処しづらいようなビッグデータに対応すべく生み出された技術で、SQLを使用しないということが特徴です。
「Not Only SQL」の略であり、「SQLだけでなく、新しいデータベースの技術も利用する必要があるというムーブメントのことである」と多くの方に認識されています。
しかし、「NoSQLとはズバリこういうこと！」という定義についてはまだ明確化していないようです。

NoSQLとして代表的なものには、GoogleのBigTable、アマゾンのAmazon DynamoDBなどがあります。

RDBとの違い

NoSQLとRDBとの違いについて以下にまとめました。

機能は豊富ではない
データの整合性が緩い
結果整合性でよいという考え

NoSQLでは、RDBで当たり前に利用できるJOIN（結合）が通常はサポートされていません。
また、同時実行制御（排他制御）を成立させるトランザクションの機能が緩められており、データの整合性よりも、大量のデータを素早く処理することを優先しているという特徴があります。

NoSQLとRDBの特性の違いを説明する上で重要な「CAP定理」という定理があります。
分散型データベースシステムにおける三大要件として以下が存在します。

Consistency（整合性）…常に同一のデータを参照する
Availability（可用性）… 常に読み出しと書き込みができる
Partition Tolerance（分断耐性）…ネットワークが分断されても間違った結果を引き起こさない

分散型データベースシステムでは、上記の3つのうち最大２つしか満たすことができない、というのがCAP定理です。

RDBにはACIDという特性が存在し、トランザクションが信頼性をもって実行されるための必要条件を定義されています。
一方、BASEというものも存在し「アプリケーションは常時稼働し、常に整合性を保つ必要はないが結果的に整合性がとれる状態に至るという特性を備えているべき」という考え方があります。

CAP定理の提唱者であるEricBrewer氏は以下のように説明してます。

システムに整合性（C)と分断耐性（P）が求められる場合には、AICD特性を完備しなければならない。
だが、整合性（C）よりも可用性（A）と分断耐性（P）が求められるのであれば、そのシステムはBASEの特性を持つべきである。

RDBはCA（整合性と可用性）に分類され、ほとんどのNoSQLデータベースがCP（整合性と分断耐性）かAP（可用性と分断耐性）に分類されます。

RDBとNoSQLでは期待している性能が異なることから、NoSQLがRDBを完全に代替するものではないことがわかります。

NoSQLに期待すること

NoSQL全般には以下のような要件を満たすことが期待されています。

一台のサーバには収容できないほど膨大なデータを扱う
データを複数のサーバに分割して割り当てる
高価なハードウェア等ではなく、安価な汎用ハードウェアの上で稼働する
データに紛失がなく、データは安全な状態に格納されている
システム全体としては、いつでも使える状態にある
障害が発生しても短時間で復旧できる
リアルタイムに近い応答性能を備えている

また、データを高速に処理する上で、高度なデータベースチューニングの技術を必要としないことも特徴です。

データのサイズや形式が頻繁に変化するようなアプリケーションをRDBでデータを高速で処理し続けるためには、データベース設計に対する高い技術力を持ったエンジニアが常時対応しなければなりません。

これまでのRDBでは十分な性能が得られなかったり、RDBで実現しようとすると、構造が複雑になり、コストがかかりすぎるという問題を回避するための手段としてNoSQLが選択肢の一つとなりうることが期待されます。

NoSQLのデータモデル

NoSQLには様々なデータモデルが存在します。

キーバリュー型

RDBのようなテーブルや関係性を定義せず、キーとバリューという組み合わせからなるシンプルなデータモデルです。
データが増えるにつれて表が縦の方向に伸びていくイメージです。
データモデルが単純であることからデータを容易に分割可能なことから、スケールアウトに最適なのが特徴です。

カラム指向型

上記のキーバリュー型にカラムの概念を持たせたデータモデルです。
行に付与されたキーが複数のカラムを持つことができます。
カラム数はRDBのように固定ではなく、動的に追加していくことができます。
RDBを利用していると異質に思えるかもしれませんが、ほかの行には存在しないカラムを持つ行を作ることができます。

ドキュメント指向型

JSONやXML形式で記述されたドキュメントの形でデータを管理することができます
各ドキュメントは階層構造を持たず、相互の関係を横並びに管理します。
RDBのように固定されたデータ設計が不要なことから「スキーマレスである」と言われます。

私はドキュメント指向型の説明を読んだ際、上記のカラム指向型との違いを明確に認識することができていませんでしたが、以下のようなものなのだと理解しました。

ブログの投稿履歴とメールの送信履歴をドキュメント指向型データベースに記録したとします。
これらは全く異なる性質のデータですが「投稿日と送信日が2018/9/18のデータ」と指定することで、関係するデータが取得できます。
このようなデータの性質が異なるものや、これまで取得していたデータの形式が唐突に変わってしまうような対象でも、ドキュメントの形式でデータベースに格納し、データを処理できるようにするのがオブジェクト指向型のデータベースの特徴なのだと思いました。

グラフ型

データとデータ感のつながりを管理できるデータモデルです。
グラフ型のデータベースには以下の構成で表現されます。

ノード
リレーションシップ
プロパティ

例えば、FaceBookの友達関係をグラフ型で表現すると以下のようになります。

Aさんというアカウントが存在します（ノード）
AさんはBさんと関係があります（リレーションシップ）
AさんとBさんは友達同士です（プロパティ）

この基本構造を拡張していくと「Aさんの友達であるBさんの友達」や「Aさんと友達になってから3年以上経過したアカウント」といった検索も可能になります。

おわりに

いかがでしたでしょうか。
筆者も、MongoDBというドキュメント指向型NoSQLを利用して簡単なWebアプリケーションを作ってみましたが、NoSQLについて調べて見ると様々なデータモデルが存在することがわかりました。
それぞれのデータモデルごとの強みが光るようなWebアプリケーションの特性についても今後調べていきたいと思いました。

参考文献

NOSQLの基礎知識ビッグデータを活かすデータベース技術

NoSQL - Wikipedia

ブリュワーのCAP定理～データストレージの選定基準 - 浜村拓夫の世界

エンジニア中途採用サイト
ラクスでは、エンジニア・デザイナーの中途採用を積極的に行っております！
ご興味ありましたら是非ご確認をお願いします。

https://career-recruit.rakus.co.jp/career_engineer/
カジュアル面談お申込みフォーム
どの職種に応募すれば良いかわからないという方は、カジュアル面談も随時行っております。
以下フォームよりお申込みください。
rakus.hubspotpagebuilder.com
ラクスDevelopers登録フォーム

https://career-recruit.rakus.co.jp/career_engineer/form_rakusdev/
イベント情報
会社の雰囲気を知りたい方は、毎週開催しているイベントにご参加ください！

◆TECH PLAY
techplay.jp

◆connpass
rakus.connpass.com

2018-09-18

「終わらないスクラム」を終えて得たスクラムの実践に関する5つの学び

スクラム

id:radiocat です。9/13に東京オフィスで開催したMeetupに登壇し「終わらないスクラム」というタイトルで発表しました。今回のイベントを通じて、私たちが継続してスクラムに取り組んでいくうえでの様々な気づきを得ることができたので、それらを5つの学びとして記事にまとめてみました。ご参加頂いたみなさま、ありがとうございました。

rakus.connpass.com

発表の概要

発表の前半は私たちのチームが取り入れたアジャイル開発のプラクティスの説明で、今年3月の社内イベントで発表した内容がベースとなっています。それらの概要は以前のブログ記事にまとめていますのでご参照ください。

tech-blog.rakus.co.jp

発表の中盤からは開発を少しずつアジャイルにし、やがてスクラムにチャレンジしていくために私たちが参考にした書籍やネット上の情報を紹介しました。そして後半部分では、現在のプロジェクトでも引き続きスクラムで開発を進めている中で新たに取り組んでいることを紹介しました。

speakerdeck.com

5つの学び

発表後の懇親会では参加者の方々からたくさんフィードバックを頂いて、それぞれの現場で実践しているスクラムの取り組みなども教えていただき、とても有意義なイベントにすることができました。頂いたフィードバックも交えて、5つの学びをご紹介します。

1. 役割に徹することができる体制でスクラムを始める

私たちのスクラムチームではプロダクトオーナー（以下PO）をデザイン部門のメンバーが担っています。

f:id:radiocat:20180917161611p:plain:w500

その理由は大きく2つです。

開発チームは大阪、POのデザイン部門とステークホルダーの事業部門は東京が拠点
BtoBのサービスであるため、デザイン部門はデザインの作り込みよりもUI/UXをしっかり検討することが求められる

この話をした時に、「（上記の体制を書いた）スライドを見た時にそうだと思った」というフィードバックを頂きました。

スクラムチームの中で誰がPOやスクラムマスター（以下SM）を担当するかはスクラムに取り組むうえでの最初の難題の1つです。チームの中で誰がその役割を担えばその役割に徹することができるのかをしっかり問いかけて決める必要があります。

f:id:radiocat:20180917161702p:plain:w500

役割に徹することができない体制でスクラムを始めていたら恐らく失敗していました。世の中的に複数拠点やリモートワークを絡めたメンバー構成は当たり前となっていますし、それぞれの現場に合わせて最適な体制を考える必要があります。

ちなみに、今回の体制の場合は開発部門におけるリーダーという立場の私がSMを担うことがもう1つの課題になりました。

f:id:radiocat:20180917180334p:plain:w500

開発チームが機能するために組織としての役職が邪魔になることもあれば、うまく活用してチームを支援できることもあり、それらをうまく使い分けることも役割に徹するために必要なことです。

2. スプリントの期間は1週間がおすすめ

今回の発表で取り上げた開発プロジェクトでは2週間のスプリントでスクラムを始めましたが、現在はスプリントの期間を1週間にしています。

f:id:radiocat:20180917161734p:plain:w500

同様に1週間でスプリントを回している人から「1週間じゃないとスプリントを回すのは無理」というフィードバックをもらいました。大きな理由は以下の2点です。

スプリントの最初に2週間分のタスクを洗い出してプランニングするのが大変
2週間先の見込みを見極めるのが大変

私たちも慣れた今となっては1週間が最もやりやすく感じています。

チームの事情にもよりますが、スプリントの期間をどのくらいの長さにするかもまたスクラムに取り組む上での課題の1つです。私たちが最初にスプリントの期間を決めた当時は他のプロジェクトに稼働を使うメンバーもいたため2週間ぐらいがちょうど良いと判断しました。また、当時は1つのタスクの粒度を小さくする事に慣れておらず、1週間スプリントで大きな粒度のタスクの実行に想定外の時間がかかってしまうとあっという間にスプリントの終わりを迎えてしまう恐れも感じていました。しかし、今となっては1週間スプリントならうまくいかなくても改善して次に活かせば良いという感覚のほうが大きいです。

3. リファインメントと技術的スパイクの大切さと難しさ

次のスプリントに向けてバックログを準備するリファインメントや技術的スパイクの活動はスクラムイベントとしては定義されていませんが、非常に重要でかつチームでルールを決めるのが難しい活動です。私達のチームではリファインメント会議をイベント化して強制的に時間を取るようにしています。

f:id:radiocat:20180917162021p:plain:w500

これについても同様にルールを決めて時間を取っているチームもあるというフィードバックを頂きました。やりかたはチームによっていろいろあるようでしたが、いずれにしてもプランニングまでにバックログをきちんと準備できていなければ、スプリントはうまく回らないというのが共通の理解です。

ちなみに、現在私たちのチームでは1スプリントに2種類のリファインメント会議を実施しています。

開発チーム内リファインメント会議：技術的スパイクの状況確認や認識合わせが中心
スクラムチーム全体リファインメント会議：バックログの整理と内容の認識合わせが中心

その理由は主に以下の3点です。

現在取り組んでいるプロジェクトの特性として技術面での不確定要素が多い
開発チームの人数が増えてきたため全体共有や認識合わせの場があったほうが進めやすい
POと開発チームの拠点が別れているため時間を決めて実施したほうが進めやすい

いずれも私たちのチームの事情によるものですが、これらを踏まえてリファインメントや技術的スパイクはそれぞれのチームでやりかたを考えて取り組む必要がある活動だと感じています。

4. チームの人数が増えるにつれてスクラムは難しくなる

私達のチームはメンバーが10人を超えたためスケールアウトを検討し始めています。

f:id:radiocat:20180917161815p:plain:w500

これに関連してチームのメンバーが9人いるという人からもフィードバックをもらいましたが、デイリースクラムを時間どおりに終わらせるだけでも難しく、人数が増えるとスクラムは難しくなると感じています。私たちのチームでも、スライドに書いてあるとおりスクラム・オブ・スクラム、LeSS、Nexusといった大規模スクラムの事例を調査して検討をしていますが、事例自体があまり多くないのでまだ具体的な判断は下せていません。

ただ、スライドの下に書いてある「若手メンバーのミニスクラム」を試す期間で、一時的にメインのプロジェクトのメンバーを5人にしたところベロシティが上がってスプリントを以前よりうまく回せるようになったので、やはり5人ぐらいがちょうど良いという感覚も得ています。

5. チームの育成と成長は熱意を持って根気強く

上記の「若手メンバーのミニスクラム」や、以前このブログでも紹介した「スクラムクイズ」に関しては良いフィードバックを頂きました。

f:id:radiocat:20180917161931p:plain:w500

チームのメンバーひとり一人がきちんとスクラムに向き合わなければスクラムをうまく回すことが難しくなります。フィードバックの中でその点に課題を持っているチームの話もいくつか聞くことができましたが、チームの中で熱意をもって進められるメンバーがいないとスクラムを続けていくのは難しいと感じました。

我々もまだまだ試行錯誤しながら様々な取り組みを行っているところですが、そのためにも他のチームの事例や課題はとても参考になります。そういう意味で、今回のイベントではたくさんのフィードバックを頂き、私たち自身の新たな学びを得ることができました。

この学びをまたチームに持ち帰ってさらにスクラムを前進させていきたいです。スクラムの習得はまだまだ終わりそうにありません。

f:id:radiocat:20180918005626p:plain:w500

今回のイベントをきっかけに当ブログに「終わらないスクラム」というカテゴリを作りました。今後もスクラムの取り組みで得たことを随時発信していきたいと考えていますので、引き続きチェックして頂けますと幸いです。

f:id:radiocat:20180917161530p:plain:w500

エンジニア中途採用サイト
ラクスでは、エンジニア・デザイナーの中途採用を積極的に行っております！
ご興味ありましたら是非ご確認をお願いします。

https://career-recruit.rakus.co.jp/career_engineer/
カジュアル面談お申込みフォーム
どの職種に応募すれば良いかわからないという方は、カジュアル面談も随時行っております。
以下フォームよりお申込みください。
forms.gle
イベント情報
会社の雰囲気を知りたい方は、毎週開催しているイベントにご参加ください！ rakus.connpass.com

2018-09-12

IoT初心者向け！「MQTT」について簡単にまとめてみる

IoT

こんにちは。開発エンジニアのd_shr(id:d_shr)です。
これまではNode.jsやPostgreSQLについて書いていましたが
今回はIoTを支える通信プロトコルMQTTについてまとめます。

tech-blog.rakus.co.jp

はじめに
軽量で省電力
メッセージングとTopic
- メッセージング
- Topic
MQTTの機能
- QoS
- Retain
- Will
まとめ

はじめに

MQTTは、Publish/Subscribe モデルのメッセージングにより、非同期に1対多の通信ができるプロトコルです。
シンプルかつ軽量に設計されているため、機械同士が通信を行いやり取りするM2M (Machine-to-Machine) や
家電や自動車など多種多様な「モノ」が通信を行いやり取りするIoT (Internet of Things) を実現するのに適した
プロトコルと言われています。

軽量で省電力

HTTPと比較すると、軽量で省電力なプロトコルです。
MQTTのヘッダサイズは２バイト〜とHTTPに比べるとかなり軽量になっており
その軽量さからバッテリーが限られているモバイル通信に適しています。

メッセージングとTopic

メッセージング

MQTTはPub/Subモデルでメッセージングを行います。
Pub/Subモデルではメッセージの送信者をPublisher、メッセージの受信者をSubscriber、メッセージの仲介をするのがBrokerです。
Publisher はメッセージをBrokerへ送るとき、送ったメッセージがどの Subscriber に届くのかなど気にする必要はありません。 Subscriberはメッセージがどの Publisher から送られて来たのか知ることなく欲しいメッセージをBrokerから受け取ります。

Topic

MQTTでは、Topicと呼ばれるキーを用いてメッセージングを行います。
トピックは「/」で区切られた階層構造になっています。
例：japan/osaka
PublisherはTopicを指定してメッセージを送信し、Subscriberは受信したいトピックをfilterとして指定することで、欲しいメッセージだけを手に入れることができます。

MQTTの機能

QoS

MQTTではメッセージごとに到達保証に関するQoS(サービスの品質)を指定します。

QoS0
メッセージは最高 1 回配信される
メッセージが送信先に届くかは保証されない
QoS1
メッセージは最低 1 回配信される
メッセージが送信先に届くことが保証されるが重複して届く可能性がある．
QoS2
メッセージは正確に 1 回配信される
メッセージが過不足なく 1 回のみ到着することが保証される．

Retain

Topicごとに最後にPublishされたメッセージをMQTTサーバが保持しておく機能。
MQTTはPub/Subモデルなので、PublishしたときにSubscribeしていたクライアントにしかメッセージは送信されません。
具体的には、10分ごとに更新される情報を得るために新しくSubscribeしても，最長10分間はなにも情報が得られないことになります。
しかし、Retain機能を使うとその時点での最新の情報が得ることができます。

Will

Publisherが切断されてサーバとの通信ができなくなったときに
指定されたTopicとメッセージをSubscriberに送信する機能。
予期せぬ切断などが発生したときに、SubscriberはPublisherが切断されていることを判断できます。

まとめ

IoTを支えるプロトコルMQTTについて簡単にまとめてみました。
世の中にIoTが広がってきているので、それに関連した技術は追っていきたいと思います。

エンジニア中途採用サイト
ラクスでは、エンジニア・デザイナーの中途採用を積極的に行っております！
ご興味ありましたら是非ご確認をお願いします。

https://career-recruit.rakus.co.jp/career_engineer/
カジュアル面談お申込みフォーム
どの職種に応募すれば良いかわからないという方は、カジュアル面談も随時行っております。
以下フォームよりお申込みください。
rakus.hubspotpagebuilder.com
ラクスDevelopers登録フォーム

https://career-recruit.rakus.co.jp/career_engineer/form_rakusdev/
イベント情報
会社の雰囲気を知りたい方は、毎週開催しているイベントにご参加ください！

◆TECH PLAY
techplay.jp

◆connpass
rakus.connpass.com

2018-09-10

9/13(木) Rakus Meetup Tokyo #1 を開催します（まだ参加枠あります）！

Meetup

f:id:tech-rakus:20180814160204p:plain

ラクスは「IT技術で中小企業を強くします！」をミッションに掲げ、メール共有・管理システムのメールディーラーから始まり、経費精算システムの楽楽精算に至るまで、延べ40,000社を超えるお客様に自社開発したクラウドサービスを提供してきました。

今回（9/13(木)）は、ラクスで主力クラウドサービスの開発を牽引するエンジニアによるトークセッションと交流会を開催します。クラウドサービス開発のエンジニアとして活躍している方はもちろん、クラウドサービス開発にご興味をお持ちのエンジニアの方も気軽にご参加頂ければと思います。

自社開発ならではの技術・運用ノウハウや、新しい取り組みの成果や失敗談などご参考にして頂ける情報を積極発信していきたいと考えております。このイベントが新しい気づきや成長につながる機会を提供する場になるとともに、ラクス社員と参加者の皆さま、また参加者の皆さま同士で新たなつながりが生まれるきっかけになれば幸いです！

開催概要

【日時】2018/9/13(木) 19:30～21:30(開場は19:00)
【会場】ラクス東京本社
（〒151-0051 東京都渋谷区千駄ヶ谷5-27-11　アグリスクエア新宿2F [アクセス]）
【定員】30名
【申込み】connpass
【参加費】無料
【主催】ラクス

今回のトークテーマ

終わらないスクラム　～楽楽精算のサービス拡大を支えるスクラム開発の取り組み

大塚正道（おおつかまさみち）

ラクスでは、まだ多くの開発チームがウォーターフォール型の開発プロセスを採用していますが、一部のチームでスクラムによるアジャイル開発に取り組んでいます。今回は楽楽精算チームでの取り組みを紹介します。実際にやってみると様々な問題が発生しました。問題解決に向けたアクションや取り組みを通じて得た知見、今後の課題等を事例を交えてお話しします。

テックリード（自称）としてのやっていき！　～iOS アプリ開発チームを率いて

川並裕（かわなみゆう）

若手エースエンジニアが初めてのiOS アプリ開発でテックリードとして奮闘したお話しです。 iOS アプリ開発は、自身も初、メンバーも初、しかも短納期（3ヵ月．．．）。このデスマーチを予感させる不利な条件下で、テックリードとしてどのようにチームをリーディングしたのか。様々な事例を交えてご紹介します。

流行の開発手法ChatOpsとは　～楽楽明細チーム/ChatOpsでルーティン作業をまるごと自動化～

三田英一（みたえいいち）

Jenkinsの導入で自動化が進んだけど、「Jenkinsを毎回開くのは面倒」、「アカウントの作成も面倒」、「非エンジニアに使ってもらうにはちょっとハードルが高い」。そこで導入したのがChatOps! Slack互換のチャットツール「Mattermost」でルーティン作業を丸ごと自動化しました。利用したbotツール、システム構成、Hubotスクリプトの実例など、ノウハウを余すことなくご紹介します。

タイムテーブル

19:00 開場・受付開始
19:30 イベントスタート
21:30 終了予定

トークが終わり次第、交流会に移ります。
交流会では、フィンガーフード、ドリンクをご用意致します。
お気軽にご参加ください。

エントリー方法

[connpass]よりエントリーをお願いします。
※当日はお名刺2枚ご持参ください
※提供可能な設備：Wi-Fi、電源

会場

ラクス　東京オフィス2F セミナールーム
東京都渋谷区千駄ヶ谷5-27-11　アグリスクエア新宿2F [アクセス]

2018-09-06

【初心者向け】機械学習について簡単にまとめてみる

機械学習

f:id:sts-250rr:20180904134836p:plain

はじめに

こんにちは sts-250rrです。

前回の記事ではARをテーマに記事を投稿いたしました。

今回はテーマをガラリと変えまして「機械学習」について簡単にまとめてみようと思います。

昨今、AWSのAmazon Machine LearningやMicrosoftのAzure Machine Learning Studioなどで手軽に機械学習を利用できるようになって来たことに加え、
楽楽精算では、iOS向けに領収書のアップロードができるアプリをリリースしました。

楽楽精算

株式会社ラクス
ビジネス
無料

このアプリでは機械学習系技術の1つであるOCR（Optical character recognition）を用いて領収書データを読み取り、楽楽精算にアップロードしています。

世間的にも話題かつ、ラクスでも機械学習に注目していることもあり、良いタイミングなので機械学習について整理してみようということです。

今回は簡単に機械学習とはといった話から、機械学習を行うツールを使って機械学習を体験してみた内容をまとめていきます。

機械学習とは？

はじめに、Wikipediaでは機械学習についてこう書かれています。

機械学習（きかいがくしゅう、英: machine learning）とは、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のことである。

つまり、人工知能を実現する手段が機械学習という事です。

さらにWikipediaを読み進めていくと概要にこう記載されています。

センサやデータベースなどから、ある程度の数のサンプルデータ集合を入力して解析を行い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出し、アルゴリズムを発展させる。なお、データ集合を解析するので、統計学との関連が深い。

とあるように、実は機械学習は統計学と深い関連を持っています。
統計学は、大量に得られたデータの性質や規則性、分類を見つけるような学問ですが、この性質や規則を見つける事が機械学習にとっての学習になるわけです。

機械学習の種類

機械学習について少し掘り下げていきます。
単純に機械学習といっても、大きく分けて「教師あり学習」と「教師なし学習」が存在します。
それぞれに学習方法やできることが異なりますので簡単にまとめていきます。

教師あり学習

学習に使用するデータセットに対して、正解を与えておく学習方法です。
この学習では、大量のデータセットから正解の情報を学習し、「ある特徴を持つものは、ある事柄に対して正解である」ことを判断できる学習方法です。
簡単な例だと、「赤い色という特徴を持つ果物」が「美味しい」と判断することができます。
しかし、正解として「美味しい」か「美味しくないか」のみを学習させているため、「赤い色という特徴を持つ果物」が「美しい」かは判断することはできません。
教師あり学習を行う方法には次のようなものがあります。

線形回帰
ロジスティック回帰
ナイーブベイズ
k近傍法
ニューラルネットワーク

教師なし学習

教師あり学習とは反対に、学習に使用するデータセットに対して、正解は与えません。
この学習は、大量のデータの類似度や規則性を学習し、データの分類を行います。
簡単な例だと、ある果物のデータを大量に集めてくると3つに分けられました。
機械自身には分けられたデータが何を示すものであるかはわかりませんが、次にデータが得られた時、3つのうちどこに該当するデータであるかを判断することができるようになります。
教師なし学習を行う方法には次のようなものがあります。

主成分分析
k平均法
ディープラーニング
強化学習 *1

機械学習を試してみる

言葉のみでは腑に落ちない部分もあるので実際どのように学習しているのかを試してみたくなりました。

そこでweka*2というフリーの機械学習ツールを使っていきます。
(今回、wekaの使い方については特に説明いたしませんので悪しからず。。。)

今回は教師あり学習に「ロジスティック回帰」、教師なし学習に「k平均法」によるクラスタリングを使っていきます。
これらの手法については下記の記事で詳細が紹介されていました。

qiita.com

お試し1：教師あり学習

wekaのサンプルデータであるアヤメの品種分類データiris.arffを使っていきます。データの内容は以下の通りです。

クラス(正解):setosa, versicolor, virginica
特徴量(属性)
 - sepallength : がくの長さ
 - sepalwidth : がくの幅
 - petallength : 花弁の長さ
 - petalwidth : 花弁の幅

上記のデータを持った150のデータセットとロジスティック回帰を使って学習をさせてみました。
しかし、学習をさせるだけでは意味がありません。
学習の成果を見るために、10分割交差検定を用いて判別制度を見ていきます。
wekaならここまでやってくれるのでお手軽です。

検証結果の抜粋です。

=== Stratified cross-validation ===
=== Summary ===

Correctly Classified Instances         144               96      %
Incorrectly Classified Instances         6                4      %
Kappa statistic                          0.94  
Mean absolute error                      0.0287
Root mean squared error                  0.1424
Relative absolute error                  6.456  %
Root relative squared error             30.2139 %
Total Number of Instances              150     

=== Detailed Accuracy By Class ===

                 TP Rate  FP Rate  Precision  Recall   F-Measure  MCC      ROC Area  PRC Area  Class
                 1.000    0.000    1.000      1.000    1.000      1.000    1.000     1.000     Iris-setosa
                 0.920    0.020    0.958      0.920    0.939      0.910    0.970     0.933     Iris-versicolor
                 0.960    0.040    0.923      0.960    0.941      0.911    0.975     0.933     Iris-virginica
Weighted Avg.    0.960    0.020    0.960      0.960    0.960      0.940    0.982     0.955

学習による全体の判別制度96%、それぞれの正解に正しく判別することができる確率がIris-setosa : Iris-versicolor : Iris-virginica = 100％ : 95% : 92%という結果が得られました。
テストデータということもありなかなかの好成績ですね。

お試し2：教師なし学習

教師あり学習と同じようなデータで試してみます。
ただし、教師なし学習では正解データは必要ないため削除しておきます。
今回はk平均法によるクラスタリングを行ってみました。元データが3種に分類されていたので3クラスタに分類されるように設定しました。 f:id:sts-250rr:20180902161347p:plain テストデータとはいえ、綺麗に分類されるわけではなさそうですね。。。
ここで綺麗に分類するような学習ができれば、新たなデータを得た際にどこに分類するかを判別できるようになるわけですね。

かなりざっくりですが、数値や画面をみて少しだけイメージできました。

まとめ

今回は機械学習について簡単にまとめてみました。
しかしながら、この記事の内容は機械学習の表面をなぞった程度でしかありません。

今回のような内容をしっかり把握しておらずとも、はじめに述べたようなAmazon Machine LearningやAzure Machine Learning Studioを利用することで簡単に機械学習は利用可能な世の中になりつつあります。

ただし、効率よく機械学習を取り入れるためにも、どんな方法が何に適しているのかは知っておくべきでしょう。

次回は今の機械学習の流行りをテーマに投稿してみようかと思いますのでお楽しみに。

*1:教師あり学習、教師なし学習と同じレイヤーで分けられる場合もあります。

*2:https://www.cs.waikato.ac.nz/ml/weka/

2018-08-31

9/13(木) Rakus Meetup Tokyo #1 を開催します！

Meetup

f:id:tech-rakus:20180814160204p:plain